Mulai dari industri kesehatan, keuangan, hingga ritel, semuanya berpotensi mendapat benefit dari penggunaan data mining.
Di artikel ini, Pacmann akan menjelaskan lebih dalam tentang definisi, teknik, serta proses implementasi data mining.
Tidak lupa pula, di akhir artikel kamu juga bisa mengetahui bentuk pemanfaatan data mining di berbagai industri.
Apa itu data mining?
Mengutip dari IBM, data mining adalah proses menemukan informasi berharga dari kumpulan data.
Sebutan lain dari proses ini adalah KDD, alias Knowledge Discovery from Data.
Untuk melakukan data mining, kamu memerlukan software khusus. Beberapa software data mining yang cukup populer adalah:
Pacmann pernah membahas mengenai rekomendasi tools untuk data mining.
Bentuk informasi yang bisa kamu ekstrak melalui proses data mining bermacam-macam. Kamu bisa mendapatkan pola data tertentu, mendeteksi anomali, serta melihat korelasi antara satu data dengan yang lain.
Selanjutnya, bentuk informasi tersebut bisa digunakan untuk pengambilan keputusan penting pada bisnis atau disimpan untuk penggunaan data di masa mendatang.
Berbagai metode dalam data mining
Fungsi data mining adalah untuk mengekstraksi informasi. Untuk mendapatkan hasil yang akurat, terdapat banyak metode yang digunakan dalam data mining. Tetapi, hal yang harus diperhatikan adalah memilih metode data mining yang sesuai dengan bisnis atau masalah yang ada.
Dengan memilih metode yang tepat, data mining dapat membantu dalam memprediksi masa depan, dan kemudian membuat keputusan yang tepat.
Selain itu, metode tersebut juga membantu dalam menganalisis tren pasar dan meningkatkan revenue perusahaan. Berikut penjelasannya:
Association
Metode association bertujuan untuk mencari kemungkinan adanya asosiasi atau hubungan atau korelasi di antara dua item atau lebih dengan mengidentifikasi pola dalam kumpulan data. Hubungan yang ada pada dua item ini disebut juga association rules.
Sebagai contoh, dalam suatu supermarket terlihat pola bahwa customer yang membeli roti tawar juga membeli susu kental manis.
Dengan informasi tersebut, supermarket tersebut dapat membuat strategi marketing dengan memberikan promo seperti “Beli 3 susu kental manis, Gratis roti tawar” untuk meningkatkan penjualan.
Ada dua jenis association rules:
- Single dimensional association rule: Aturan ini berisi atribut tunggal yang diulang.
- Multidimensional association rule: Aturan ini berisi banyak atribut yang diulang.
Classification
Classification adalah metode data mining yang mengelompokkan sekumpulan data dalam suatu grup atau kelas. Metode ini mengandalkan algoritma untuk menganalisa perilaku suatu data untuk mengambil kesimpulan.
Terdapat dua cara dalam melakukan metode ini:
- Learning step (training phase): Dalam hal ini, algoritma membangun pengklasifikasi dengan menganalisis set training.
- Classification step: Data uji digunakan untuk memperkirakan keakuratan atau ketepatan classification rules.
Contoh metode ini adalah pengelompokkan orang-orang yang memiliki risiko gagal bayar pinjaman di bank. Apabila variabel usia dan tingkat pendapatan dimasukkan, maka terlihat siapa yang memiliki risiko gagal bayar terbesar.
Clustering analysis
Metode ini terkesan mirip dengan Classification, namun Clustering adalah metode pengelompokkan data dalam cluster yang memiliki kesamaan item data.
Kelompok yang berbeda memiliki objek yang berbeda atau tidak berhubungan. Ini juga disebut segmentasi data karena mempartisi kumpulan data besar ke dalam kelompok yang sesuai dan memiliki kesamaan.
Contoh perbedaan Classification dan Clustering dari studi kasus permohonan pinjaman di bank dapat dilihat pada gambar berikut.
Berikut berbagai metode clustering yang sering digunakan:
- Metode Hierarchical Agglomerative: jenis clustering hierarki yang paling umum digunakan untuk mengelompokkan objek dalam kelompok berdasarkan kesamaannya.
- Metode Grid-Based: pengelompokkan data yang menggunakan multi-resolution grid data structure.
- Metode Partitioning: proses membagi kumpulan data input menjadi beberapa segmen, atau partisi.
- Metode Model-Based: upaya pencarian kesamaan antara data yang diberikan dan beberapa model.
- Metode Density-Based: salah satu metodologi unsupervised learning paling populer yang digunakan dalam pembuatan model dan algoritma machine learning.
Prediction
Metode prediction merupakan proses memprediksi masa depan dengan menggunakan pola data yang sama di masa lampau dan masa sekarang. Metode ini banyak digunakan untuk menggabungkan metode data mining lainnya seperti classification, pattern matching, trend analysis, dan relation.
Salah satu contoh metode ini adalah pembuatan revenue forecast di perusahaan yang akan dihasilkan berdasarkan data penjualan sebelumnya.
Analisis Regresi adalah pilihan terbaik untuk melakukan prediction. Analisis ini dapat digunakan untuk mengatur hubungan antara variabel independen dan variabel dependen.
Sequential patterns atau pattern tracking
Metode data mining ini bisa dimanfaatkan untuk mengidentifikasi pola yang muncul dalam rentang waktu tertentu.
Misalnya saja sebuah platform streaming musik menyadari frekuensi pemutaran lagu Natal di bulan Desember lebih tinggi di banding bulan sebelumnya, atau supermarket yang melihat pola belanja lebih banyak saat mendekati hari raya.
Decision tree
Decision Tree merupakan cara pengambilan keputusan dengan model bestruktur atau berhierarki. Metode ini melakukan klasifikasi dalam bentuk struktur pohon.
Decision Tree memecah dataset menjadi subset kecil, dan dapat dirancang secara bersamaan. Di setiap level, terdapat pernyataan yang mengandung aturan atau syarat tertentu.
Hasil akhirnya berupa kesimpulan atau keputusan.
Contohnya, decision tree berikut dirancang untuk menyatakan hasil, apakah seorang memenuhi atau tidak memenuhi syarat untuk mendapatkan SIM.
Outlier analysis atau anomaly analysis
Metode outliner analysis atau anomaly analysis merupakan cara untuk mendeteksi noise dalam suatu rentetan data.
Noise adalah data yang terlihat berbeda atau melenceng dari deretan data lainnya. Salah satu ccontoh penggunaan metode ini adalah untuk mendeteksi potensi penipuan yang ada dalam deretan data transaksi suatu bank.
Misalnya, mari asumsikan grafik di bawah ini diplot menggunakan beberapa set data dalam sebuah database.
Kemudian, buaat garis yang sesuai dengan titik-titik tersebut. Titik-titik yang terletak di dekat garis menunjukkan perilaku yang diharapkan, sedangkan titik yang jauh dari garis adalah Outlier.
Metode ini akan membantu mendeteksi anomali dan mengambil tindakan yang sesuai.
Neural network
Metode neural network memiliki kesamaan dengan cara kerja jaringan saraf biologis. Metode ini menyaring data secara bertahap dengan cara mengidentifikasi hubungan antara input dan output.
Biasanya digunakan untuk klasifikasi, analisis regresi, pemrosesan data, dan sebagainya. Teknik ini bekerja pada tiga pilar:
- Model
- Learning Algorithm (supervised or unsupervised)
- Activation function
Manfaat data mining dan contoh penggunaannya
Penerapan data mining tentu tidak terlepas dari penggunaan big data yang semakin masif di berbagai industri. Hal ini dikuatkan oleh Statista, yang menemukan bahwa di tahun 2022 sebanyak 56% perusahaan menggunakan data untuk melakukan inovasi bisnis.
Berikut 10 contoh penggunaan data mining sebagaimana tercantum dalam yourtechdiet:
- Mendeteksi adanya penipuan
- Mengetahui proses bisnis yang berjalan dengan lambat atau tidak efektif.
- Memotong biaya produksi atau biaya operasional yang tidak perlu.
- Menganalisis serta meningkatkan performa berbagai aspek bisnis.
- Memproduksi perilaku dan kebiasaan customer guna menyusun strategi bisnis
- Memahami alur bisnis dari hulu hingga hilir
- Menggunakan data analytics untuk mengubah tampilan display di toko
- Meningkatkan user experience dalam berbelanja di e-commerce, serta membentuk sistem pengiriman yang lebih efektif.
- Memberikan rekomendasi dalam platform streaming film atau musik.
- Memperlihatkan pola yang muncul akibat suatu gejala kesehatan serta memberikan insight terhadap rekomendasi obat yang tepat.
Proses implementasi data mining
Kebutuhan akan data mining dalam perusahaan, baik yang berskala kecil maupun besar, mewajibkan adanya cara implementasi yang mudah dan efektif. Untuk itu, The Cross-Industry Standard Process for Data Mining (CRISP-DM) membentuk enam langkah berikut:
Business understanding
Fase ini berfokus pada proses pemahaman tujuan bisnis perusahaan secara mendetail untuk memudahkan proses penentuan tujuan atau task dalam data mining.
Dalam fase ini, sangat penting untuk membangun pemahaman bisnis yang kuat seperti membangun fondasi sebuah rumah. Hal yang perlu diperhatikan dalam fase ini adalah:
- Tentukan tujuan bisnis apa yang benar-benar ingin dicapai oleh pelanggan dan kriteria keberhasilan bisnis.
- Tentukan ketersediaan sumber daya, persyaratan proyek, nilai risiko dan kontinjensi, dan lakukan analisis biaya-manfaat.
- Tentukan tujuan data mining seperti apa kesuksesan dari perspektif data mining secara teknis.
- Pilih teknologi dan tools dan tentukan rencana secara terperinci untuk setiap fase proyek.
Data understanding
Selanjutnya, seorang data miner perlu mencari dan mendapatkan pemahaman mendalam tentang data yang akan digunakan. Selain melakukan pengumpulan dan eksplorasi data, proses verifikasi kualitas data juga sangat diperlukan. Fase ini juga memiliki empat tugas:
- Kumpulkan data yang diperlukan dan (jika perlu) muat ke dalam tools analisis.
- Periksa data dan dokumentasikan seperti format data, jumlah records, atau identitas field.
- Gali data lebih dalam. Buat kueri, visualisasikan, dan identifikasi hubungan di antara data.
- Verifikasi kualitas data, seberapa bersih/kotor datanya? Dokumentasikan setiap adanya masalah kualitas data.
Data preparation
Sebelum memasuki fase modeling, data yang ada perlu melalui proses persiapan terlebih dahulu. Proses ini bisa memakan waktu lebih daripada fase lainnya.
Untuk mempersiapkan data, seorang data miner harus memilih data yang akan dipakai dalam evaluasi hingga sesuai dengan tujuan atau task yang sudah ditentukan di awal persiapan.
Kamu perlu memperhatikan hal ini dalam fase data preparation:
- Tentukan kumpulan data mana yang akan digunakan dan dokumentasikan alasan penyertaan/pengecualian data.
- Bersihkan data dengan mengoreksi, memasukkan, atau menghapus nilai yang salah.
- Bangun data dengan menurunkan atribut baru.
- Buat kumpulan data baru dengan menggabungkan data dari berbagai sumber.
- Format ulang data jika dibutuhkan. Ubah data menjadi nilai string yang menyimpan angka menjadi nilai numerik sehingga dapat melakukan operasi matematika.
Modeling
Di fase ini, memilih metode yang sesuai dengan tujuan data mining menjadi hal penting. Namun tidak hanya itu, metode pengujian pun harus ditetapkan sebelum proses modeling berjalan.
Perhatikan tugas berikut:
- Tentukan algoritme mana yang akan dicoba (misalnya regresi, neural network).
- Sambil menunggu pemodelan yang dibuat, bagi data menjadi set pelatihan, pengujian, dan validasi.
- Membangun model seperti mengeksekusi beberapa baris kode seperti “reg = LinearRegression().fit(X, y)”.
- Interpretasikan model berdasarkan domain knowledge, kriteria keberhasilan yang telah ditentukan sebelumnya, dan test design.
Evaluation
Fase ini berfokus pada proses evaluasi fase modeling yang sudah membuahkan hasil. Proses ini digunakan untuk memastikan hasil yang efektif serta mempertimbangkan langkah selanjutnya.
Fase ini memiliki tiga hal:
- Evaluasi hasil dengan menanyakan apakah model memenuhi kriteria keberhasilan bisnis? Model mana yang cocok untuk bisnis?
- Tinjau pekerjaan yang diselesaikan. Apakah ada yang terlewatkan? Apakah semua langkah dijalankan dengan benar? Beri ringkasan tentang temuan dan perbaiki apa pun jika perlu.
- Tentukan apakah akan melanjutkan ke deployment, iterasi lebih lanjut, atau memulai proyek baru.
Deployment
Fase terakhir adalah fase menerjemahkan hasil ekstrak informasi menjadi data yang mudah dibaca oleh klien serta menerapkannya menjadi strategi bisnis.
Selain itu, hasil data mining juga tetap perlu melalui pemantauan guna menghindari kesalahan penggunaan.
Untuk fase deployment, kamu perlu melakukan keempat tugas ini:
- Kembangkan dan dokumentasikan rencana penerapan model.
- Kembangkan rencana pemantauan dan pemeliharaan menyeluruh untuk menghindari masalah selama fase operasional (atau fase pasca proyek) dari sebuah model.
- Dokumentasikan ringkasan proyek yang mungkin mencakup presentasi akhir hasil data mining.
- Tinjau hasil proyek, apa yang berjalan dengan baik, apa yang bisa dikembangkan agar lebih baik, dan bagaimana meningkatkannya di masa depan.
Mengetahui definisi, metode, serta proses penggunaan data mining merupakan hal wajib diketahui bagi data scientist dan berbagai data roles lainnya.
Buat kamu yang ingin belajar dan menguasai applicable skills mengenai data mining, kamu bisa mempelajarinya secara mendalam di Sekolah Data Pacmann.
Further reading:
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023