Blog Apa itu Knowledge Discovery in Database (KDD)? Definisi, Tahapan, dan Use Case-nya

Apa itu Knowledge Discovery in Database (KDD)? Definisi, Tahapan, dan Use Case-nya

Juni 21, 2023 6 min read

Knowledge discovery in database (KDD) adalah metode pencarian informasi dari data yang mampu menjadi solusi ideal, khususnya dalam menghadapi volume data yang besar.

Dalam artikel ini, Pacmann akan menjelaskan definisi dari KDD, beserta tahapan proses, manfaat, dan contoh penggunaannya.

Definisi knowledge discovery in database (KDD)

Knowledge discovery in database (KDD) adalah terminologi computer science yang mengacu pada proses pencarian informasi yang berguna dari kumpulan data digital dalam jumlah besar, seperti pada database atau dataset.

KDD memiliki segelintir proses yang meliputi:

  • Data preparation
  • Data selection
  • Data cleansing
  • Penerapan informasi pada dataset
  • Interpretasi hasil

Mengutip Margaret Rouse, “tujuan utama dari KDD adalah untuk mengekstraksi high-level information dari low-level data.”

Dengan kata lain, proses KDD berfokus pada pemetaan low-level data dan mengubahnya menjadi bentuk yang lebih padat, jelas, dan bermakna.

Metode KDD ini sudah digunakan dalam industri data selama lebih dari satu dekade, persisnya sejak tahun 1989 oleh Piatetsky-Shapiro.

Awalnya, data mining dan KDD dilakukan secara manual. Namun, dengan meningkatnya volume data hingga hitungan terabyte, proses ini sudah terlalu sulit untuk dilakukan secara manual.

Hasilnya, kini hadir banyak software dan tools yang mampu membantu menguak data yang tersembunyi hingga merumuskan asumsi dan hipotesis—yang menjadi pondasi dari penerapan artificial intelligence.

Dengan berkembangnya teknologi, knowledge discovery in database kini mencakup banyak elemen multidisipliner.

Misalnya seperti penerapan data warehousing dalam proses data cleansing dan pengaksesan data, atau implementasi algoritma machine learning (ML) dalam proses interpretasi dataset dalam jumlah masif.

Perbedaan KDD dan data mining

Penggunaan istilah KDD dan data mining seringkali tertukar satu sama lain. Wajar saja, sebab data mining adalah bagian dari proses KDD.

Meski dua istilah ini berhubungan erat, masing-masing memiliki konsep yang sedikit berbeda.

Knowledge discovery in database terdiri atas banyak tahap, dan data mining adalah salah satunya. Bisa dibilang bahwa data mining merupakan inti dari proses KDD.

KDD adalah keseluruhan proses ekstraksi informasi dari data, sedangkan data mining hanyalah salah satu tahap proses di dalamnya yang berfokus pada identifikasi pola pada data.

Dalam beberapa kasus tertentu, data mining juga mengacu pada penerapan algoritma spesifik yang diterapkan berdasarkan tujuan utama dari proses KDD yang dijalankan.

Di sisi lain, KDD merupakan sebuah proses yang berulang; pengukuran bisa dilakukan berkali-kali dan ditingkatkan; data baru bisa diintegrasikan di tengah prosesnya; data bisa ditransformasi ulang guna mencari hasil yang berbeda atau lebih baik.

Untuk lebih jelas memahami seperti apa prosesnya, mari kita tilik apa saja tahapan proses dalam KDD.

Tahapan proses dalam KDD

Knowledge discovery in database memiliki sembilan tahapan inti. 

Tergantung sumbernya, kamu bisa saja menemukan jumlah tahapan yang berbeda dalam proses KDD—mungkin ada yang berjumlah lima atau tujuh.

Ini bukan berarti ada tahapan yang terlewat, melainkan adanya beberapa tahapan yang digabungkan.

Berikut adalah skema 9 tahapan KDD berdasarkan JavaTPoint:

tahapan proses knowledge discovery in database

  1. Proses memahami dataset dan mengidentifikasi tujuan
  2. Pemilihan dataset sebagai target
  3. Proses data cleaning dan data preprocessing
  4. Transformasi data dengan dimensionality reduction atau discretization
  5. Pemilihan teknik data mining (klasifikasi, regresi, clustering, dll)
  6. Pemilihan algoritma data mining yang cocok dengan tujuan proses
  7. Penerapan data mining
  8. Presentasi hasil KDD dan evaluasi
  9. Pengambilan langkah nyata berdasarkan temuan KDD

Mengapa knowledge discovery in database penting?

Knowledge discovery in database mampu membantu bisnis menerka tren pasar di masa depan dengan akurat.

Dengan kata lain KDD mampu membuat perusahaan jadi lebih maju dibandingkan dengan kompetitor.

Selain itu, berikut adalah beberapa manfaat dari penggunaan KDD bagi bisnis:

  • Pengambilan keputusan yang lebih baik berdasarkan informasi dan insight yang berguna
  • Peningkatan efisiensi proses kerja dengan otomatisasi tugas yang repetitif
  • Peningkatan layanan konsumen lewat customer analytics
  • Pencegahan penipuan dan tindakan kriminal lewat identifikasi pola dan anomali
  • Kemampuan memprediksi pola dan tren pasar di masa depan

Dengan sifat proses KDD yang berulang, kamu akan mendapatkan informasi yang memiliki kualitas tingkat keakuratan yang lebih tinggi karena diperbaiki lewat proses yang terus menerus diasah secara berkelanjutan.

Use case knowledge discovery in database dalam berbagai industri

Sekarang mari kita tilik apa saja contoh penggunaan KDD dalam berbagai industri.

Marketing

Dalam hal pemasaran, kamu juga bisa menggunakan metode KDD untuk mencari tahu mengenai preferensi pelanggan.

Sebuah publikasi ilmiah dari UMS menerapkan market basket analysis menggunakan KDD guna mencari tahu perihal efektivitas strategi penjualan produk swalayan.

Mereka berhasil menemukan informasi mengenai aturan asosiasi lewat proses KDD yang menggunakan riwayat 100 transaksi swalayan tersebut sebagai dataset-nya. 

Informasi ini membuktikan adanya peningkatan penjualan produk snack dan minuman dengan mengubah tata letak produk dan katalog promosi.

Finansial

KDD juga berguna untuk financial fraud detection dengan cara mengidentifikasi pola dan anomali pada transaksi finansial.

Financial Crimes Enforcement Network AI System (FAIS) adalah sebuah sistem berbasis AI dari kementerian keuangan Amerika Serikat. Sistem ini menggunakan AI dan KDD yang mengawasi jutaan akun untuk mengecek penipuan kartu kredit.

Selain itu, sistem ini juga mampu mengidentifikasi transaksi finansial dalam jumlah besar guna mendeteksi adanya potensi tindak kriminal pencucian uang.

Industri pabrik

KDD juga memiliki peran besar di industri pabrik—dalam konteks ini pabrik pesawat.

Dengan memanfaatkan metode KDD, industri penerbangan Eropa mencanangkan sebuah sistem troubleshooting yang dinamakan CASSIOPEE.

Proses ini menggunakan teknik data clustering guna mengidentifikasi kegagalan desain dalam produksi pesawat Boeing 737.

Medis

World Health Organization (WHO) memiliki database terkait perkembangan dan status medis secara global. Salah satunya adalah pengumpulan data terkait laporan adverse drug reaction (ADR) atau efek samping dari dosis pemberian obat.

Dengan metode KDD, WHO memantau dan menganalisis 3,5 juta kasus ADR di seluruh dunia, termasuk pada pasien penderita glaukoma, vasculitis, hingga kejang-kejang pada bayi yang baru lahir.

Hasilnya, WHO mampu memberikan tindakan cepat pada tiap pasien ADR untuk menjalani clinical review dan menghasilkan kampanye drug safety guna mencegah terjadinya kasus serupa di masa depan.


Sekarang kamu sudah tahu apa itu knowledge discovery in database (KDD), perbedaannya dengan data mining, berbagai tahapan prosesnya, hingga manfaat dan contoh penerapannya.

Kesimpulannya, KDD merupakan metode penarikan informasi dari data yang mampu menghasilkan informasi yang akurat dengan proses yang detail dan berulang.

Jika kamu tertarik berkecimpung di bidang data, maka kamu wajib mengetahui apa itu KDD.

Lebih lanjutnya, kamu juga bisa belajar bareng Pacmann dan ketahui lebih lanjut soal data mining serta KDD dalam Sekolah Data Pacmann.

Further reading:

Knowledge Discovery in Databases

The Importance of Knowledge Discovery

Why do we need KDD?

KDD vs Data Mining