Kualitas hasil dari data mining bergantung pada kualitas datanya. Oleh karena itu, penting untuk memahami berbagai jenis dan tipe data dalam data mining.
Di tulisan ini akan dibahas tipe-tipe data berdasarkan sumber, bentuk, serta metodologi pengolahannya.
Sumber data untuk data mining
Proses data mining umumnya dilakukan terhadap sekumpulan data yang masif, yang kita sebut dataset. Dataset ini biasanya tersedia di database.
Database sendiri memiliki banyak jenis.
Berikut beberapa contoh sumber data yang biasa digunakan dalam data mining.
Relational database
Relational database adalah database terstruktur yang datanya terorganisir dalam bentuk satu tabel atau lebih. Seperti tabel pada umumnya, database ini terdiri atas kolom dan baris.
Bagian kolom berisikan data-data dengan jenis tertentu yang menyimpan value attribute dan bersifat aktual.
Sementara bagian baris menerangkan kelompok nilai dari suatu objek tertentu yang biasanya memiliki tanda unik atau ID khusus.
Kelebihan dari relational database adalah:
- Sistem operasionalnya lebih mudah, karena user interface sederhana
- Tabel fleksibel, sehingga operator tertentu bisa mengambil data yang mana saja untuk kemudian mengolahnya
- Memiliki sistem keamanan tingkat tinggi dengan tambahan fitur otorisasi
- Data dalam database ini mempunyai tingkat presisi dan konsistensi tinggi, karena database menerapkan berbagai perhitungan kalkulus dan operasi aljabar
Data warehouse
Data warehouse atau gudang data adalah tempat penyimpanan informasi elektronik yang paling aman, baik untuk bisnis maupun organisasi lain.
Meski namanya gudang, data warehouse sebenarnya lebih mirip seperti perpustakaan yang menyimpan data history dari waktu ke waktu hingga informasi paling terkini.
Hal ini selaras dengan tujuan data warehouse, yakni menyediakan informasi secara real-time.
Contoh data warehouse dalam bisnis di antaranya adalah data transaksi keuangan, penjualan, stok, dll.
Beberapa karakteristik dari data warehouse meliputi:
- Sistem informasi pada data warehouse sudah terintegrasi
- Subject oriented atau fokus untuk tema atau fungsi tertentu saja
- Non-volatile atau konsisten
- Dioperasikan untuk jangka waktu tertentu
Manfaat dari data warehouse:
- Kemudahan dan kecepatan akses
- Informasi yang konsisten meski diakses banyak pihak
- Kemampuan memprediksi pola atau tren
- Meningkatkan return of investment secara optimal
- Sebagai bahan pertimbangan dalam mengambil keputusan
- Memiliki arsip historis yang bersumber dari data relevan
Transactional database
Sesuai namanya, transactional database adalah sekumpulan informasi yang berasal dari data hasil aktivitas transaksi.
Tampilan transactional database kurang lebih mirip seperti faktur, yakni ada kolom yang menjelaskan semua item terkait.
Pada operasionalnya, transactional database mempunyai 4 sifat standar atau yang biasa disingkat menjadi ACID, yaitu:
- Atomicity: memastikan bahwa transaksi yang terjadi benar-benar sudah sukses. Jika belum atau ternyata gagal, sistem akan kembali ke kondisi sebelumnya.
- Consistency: memastikan jika pengubahan status transaksi sudah benar.
- Isolation: memastikan transaksi berlangsung secara transparan serta independen.
- Durability: menjamin jika ada kegagalan transaksi, hasil atas terjadinya transaction commit tetap tersedia.
Karena keempat sifat tersebut, banyak perusahaan yang memanfaatkan transactional database untuk menunjang bisnisnya.
Bukan hanya sebagai catatan saja, tetapi juga memberikan banyak manfaat lainnya, seperti:
- Kolom sangat fleksibel dan dapat diatur dengan bebas sesuai item yang berhubungan dengan transaksi
- Risiko kehilangan data akibat transaksi gagal lebih kecil
- Data terintegrasi secara optimal
Database management system
Database management system (DBMS) adalah sebuah software yang berfungsi untuk mengembangkan dan mengelola database. Di dalam DBMS bisa terdapat satu atau banyak database.
DBMS punya kemampuan yang lebih baik daripada database biasa.
Berikut adalah berbagai manfaat dari DBMS:
- Berbagi data menjadi lebih cepat dengan sistem keamanan yang terjamin
- Mengintegrasikan data secara efektif
- Data yang tersimpan bersifat konsisten
- Memiliki fitur kebijakan privasi serta keamanan, sehingga mampu menekan risiko terjadinya pelanggaran aturan
- Meningkatkan produktivitas, berkat sistem operasionalnya yang mudah
- Informasi berkualitas tinggi, sehingga mampu membuat keputusan yang lebih bijak
- Mampu meminimalkan redundancy dan/atau duplikat
World Wide Web (WWW)
Sumber data berikutnya yang bisa digunakan untuk data mining adalah WWW–atau sederhananya berasal dari internet.
Secara teknis, WWW adalah sekumpulan dokumen yang bisa diakses dengan protokol tertentu. Fungsi utamanya adalah untuk mendistribusikan dokumen atau informasi melalui koneksi internet.
Umumnya, pengguna mengenalnya dengan sebutan web.
Komponen dari web adalah:
- Uniform Resource Locator (URL)
- HyperText Transfer Protocol (HTTP)
- Hyper Text Markup Language (HTML)
WWW ini termasuk jenis repositori yang sangat heterogen, karena mampu mengumpulkan data dari berbagai sumber.
Sifatnya sendiri sangat dinamis, karena volume data akan terus meningkat dan perubahan bisa terjadi kapan saja.
Lebih dari itu, kamu juga bisa mendapatkan banyak manfaat dari sini, seperti:
- Ketersediaan informasi yang bisa kamu akses dari mana saja
- Lebih hemat budget, karena biaya koneksi awal cenderung rendah
- Komunikasi bisa semakin interaktif dan cepat
- Minim hambatan dalam koneksi
- Memiliki fasilitas akses ke berbagai sumber informasi dan masih terus di-update
- Menyediakan fasilitas untuk membentuk kontak profesional
- Kini sudah menjadi media global
Salah satu cara memperoleh data dari web adalah dengan melakukan scraping.
Tipe-tipe data dalam data mining berdasarkan bentuknya
Setelah mengenali berbagai sumber data, sekarang mari kita bahas jenis-jenis data dalam data mining dilihat dari bentuk datanya.
Data multimedia
Data multimedia mencakup objek-objek seperti data dalam bentuk:
- gambar,
- video,
- audio,
- text (termasuk webpage, dll.)
Data mining terhadap data multimedia biasanya bertujuan untuk mencari pola dan insight.
Prosesnya mencakup analisis data digital seperti:
- image processing,
- image classification,
- audio data mining,
- pattern recognition, dsb.
Data dalam bentuk multimedia ini kerap menjadi bidang penelitian yang populer.
Sebab sebagian besar data dari platform media sosial seperti Twitter dan Facebook dapat dianalisis dengan mudah dan mampu menghasilkan tren dan pola yang menarik.
Data web
Aktivitas web mining bertujuan mengungkap data dalam bentuk informasi dan pola yang krusial dari internet.
Data yang akan dianalisis umumnya diambil dari berbagai laman web beserta data multimedianya, termasuk foto dan gambar pada website.
Tujuan dari analisis data dalam bentuk ini adalah untuk memahami konten, pengguna unik website tertentu, ranking website, hingga pola pencarian yang dilakukan pengguna.
Data web juga berguna untuk menentukan search engine yang paling optimal beserta algoritma yang digunakan oleh search engine tersebut.
Data teks
Sebagian besar informasi yang ada dalam hidup kita hadir dalam bentuk teks–mulai dari berita harian, jurnal riset, buku, pesan surel, hingga blog.
Data mining terhadap data teks dapat digunakan lebih lanjut untuk analisis sentimen, perangkuman dokumen, kategorisasi teks, hingga penerapan informasi untuk machine learning.
Contoh dari hasil analisis data teks adalah yang dilakukan oleh Pacmann berikut ini:
- 9 Kota dengan Keluhan Macet Terbanyak di Twitter
- 10 Pemain dan Tim Piala Dunia 2022 Terpopuler di Twitter
- Pacmann Analisis Sejuta Tweets Mengenai WFH, Apa Hasilnya?
Data spatiotemporal
Data spatio-temporal adalah data yang terdiri atas keterangan ruang (space) dan waktu (tempo). Data spatio-temporal dapat berupa informasi hasil scan dataran peta, analisis GPS, cuaca, timer, dsb.
Hasil ekstraksi data ini dapat digunakan lebih lanjut untuk mengukur nilai tanah, usia bebatuan, hingga ramalan cuaca.
Jenis-jenis metode pengolahan data dalam data mining
Sekarang kamu sudah tahu jenis-jenis data berdasarkan sumber dan bentuknya. Setelah data didapatkan, tentunya data tersebut masih perlu diolah dan dianalisis.
Berikut adalah beberapa metode yang sering digunakan untuk mengolah data dalam data mining:
Association
Metode ini mencakup identifikasi pola hubungan antar item dalam sebuah dataset. Contohnya seperti market basket analysis di bidang online marketplace, yang mengidentifikasi dua benda yang sering dibeli bersamaan.
Clustering
Metode ini dilakukan dengan mengelompokkan poin-poin data yang serupa berdasarkan karakteristik atau sifat tertentu dari data tersebut.
Clustering biasanya digunakan untuk mengidentifikasi pola dalam dataset atau untuk menguak struktur yang tersembunyi dalam dataset tertentu.
Classification
Metode ini dilakukan dengan sekelompok data yang sudah dilabeli guna menyempurnakan model.
Model ini yang nantinya bisa difungsikan untuk data baru yang belum dilabeli agar bisa diklasifikasikan berdasarkan kategori atau kelompok yang sudah ditentukan.
Prediction
Metode ini memprediksi hubungan antara variabel dependen dan variabel independen. Metode ini berguna untuk membangun prediksi mengenai potensi profit berdasarkan penjualan yang sudah terjadi.
Regression
Metode regresi ini digunakan untuk membentuk model serta prediksi nilai numerik, seperti harga saham atau pola cuaca.
Anomaly detection
Metode data mining satu ini biasanya digunakan untuk mengidentifikasi data yang menyimpang dari nilai normal. Metode ini kerap digunakan untuk mendeteksi fraud atau penipuan, atau mengidentifikasi nilai terluar dari rentetan dataset.
Sequential pattern
Metode sequential pattern berguna untuk menganalisis pola pada data yang berurutan. Contohnya seperti perilaku belanja konsumen dari waktu ke waktu.
Demikian sedikit penjelasan tentang jenis-jenis data serta metode untuk mengolahnya dalam data mining.
Setiap jenis data dalam data mining memiliki kelebihan dan fungsi masing-masing, begitu pula metodenya.
Di masa depan, data-data tersebut pasti akan terus mengalami perkembangan dan tetap jadi salah satu hal yang paling penting dalam bisnis.
Update ilmu dan skill datamu dengan belajar di Pacmann!
Cek halaman Sekolah Data Pacmann untuk informasi lengkapnya.
Further reading:
What are the differences between data, a dataset, and a database?
What Is a Data Warehouse? Warehousing Data, Data Mining Explained
Different Types of Data in Data Mining
Types of Sources of Data in Data Mining
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023