Blog Apa itu Dataset dalam Data Mining?

Apa itu Dataset dalam Data Mining?

Maret 1, 2023 6 min read

Dataset adalah elemen yang penting dari seluruh proses data analytics.

Dataset yang terstruktur dengan baik akan sangat membantu hasil data analysis yang dilakukan, membuat jadi lebih cepat, efisien, dan akurat.

Apa itu dataset? Lalu, apa bedanya dengan database?

Apa itu dataset?

Dataset pada dasarnya adalah kumpulan data. Berdasarkan definisi dari IBM, dataset mengacu pada file yang berisi satu atau lebih catatan/data.

Data sendiri adalah informasi dan bisa mendeskripsikan banyak hal, mulai dari statistik, deskripsi, dan banyak jenis data lain.

Biasanya, data dalam dataset hanya mencakup satu topik saja.

Berikut adalah beberapa contoh dataset:

  • Data demografi serta perilaku para pencinta film Star Wars di Asia Tenggara
  • Data tingkat kemacetan di jalan tol yang bisa digunakan untuk membuat visualisasi data
  • Data pergerakan pasar saham dari periode tertentu untuk melakukan proyeksi masa mendatang

Jenis data dalam dataset tidak terbatas dengan satu jenis data saja. Sebuah dataset bisa saja mengandung data berupa audio, video, gambar, teks, data numerik, dan lain-lain.

Dataset juga berfungsi sebagai catatan atau record yang bisa ditarik dan dimanipulasi untuk membentuk dataset baru.

Oleh karena itu, kumpulan data dalam dataset bisa kamu gunakan secara terpisah.

Contoh paling mudah untuk mencari dataset adalah dengan memanfaatkan Dataset Search.

Perbedaan dataset dengan database

Database adalah tempat menyimpan seluruh data perusahaan, yang disetor dalam bentuk banyak dataset.

Untuk lebih mudah memahaminya, bayangkan database sebagai lemari dapur. Semua benda yang ada dalam lemari tersebut adalah data, sedangkan dataset adalah tiap rak dari lemari dapur tersebut.

Semua benda (data), mulai dari sendok, garpu, dan piring adalah data. Tiap rak (dataset) sudah diorganisir sedemikian rupa. Ada rak alat makan, rak bumbu dapur, dsb. Dan semuanya disimpan dalam lemari dapur (database).

Jadi, ketika kamu butuh sendok dan garpu, kamu cukup mengakses rak alat makan (dataset) tanpa perlu bingung mencari-cari di lemari (database).

Beberapa database menyediakan dataset secara cuma-cuma, misalnya saja Google Cloud Public Datasets atau data.gov.

Selain itu, ada juga database yang menyediakan dataset berbayar seperti Oracle Database Online Documentation dan SAP HANA Cloud.

Sementara itu, untuk download dataset Indonesia, ada beberapa contoh database yang bisa kamu tuju, misalnya:

Apa pentingnya dataset?

Dataset adalah hal utama dalam berbagai bidang komputasi, salah satunya adalah data mining.

Dalam proses data mining, data saja tidak menjadi bekal yang cukup. Dibutuhkan adanya data yang terstruktur dalam bentuk dataset agar hasil analisis data akan lebih cepat, akurat, efisien, dan berkualitas.

Intinya, dataset yang tersedia juga harus berkualitas.

Kriteria dari dataset yang berkualitas adalah memiliki kandungan informasi yang akurat, lengkap, relevan, tidak adanya file duplikat, serta tidak ada kesalahan pengejaan.

Jenis-jenis dataset dalam data mining

Dataset dapat dibagi berdasarkan beberapa jenis.

Jenis dataset berdasarkan sumbernya

Terdapat dua sumber dataset yang kerap digunakan untuk proses data mining, yakni private dataset dan public dataset.

Private dataset

Private dataset adalah kumpulan data yang memiliki informasi sensitif dan bersifat rahasia.

Contoh private dataset adalah tanggal lahir, riwayat kesehatan, hingga riwayat aliran dana.

Biasanya, jenis data ini bisa kamu dapatkan dengan izin dari institusi resmi sebagai bagian dari penelitian.

Di luar itu, hanya pihak berwenang yang boleh mendapatkan private dataset.

Karena sifatnya yang rahasia, tingkat akurasi pada private dataset cenderung lebih tinggi.

Selain itu, jenis dataset ini hanya bisa dimodifikasi oleh penulisnya, berbeda dengan public dataset yang dapat diubah oleh siapapun.

Public dataset

Berkebalikan dari private dataset, kamu bisa mendapatkan public dataset secara bebas di database yang umum digunakan oleh para penggiat industri data science.

Selain akses yang mudah, keuntungan dari jenis dataset ini adalah tingkat transparansinya yang tinggi.

Selain itu, public dataset bisa menjadi landasan dari penelitian yang dapat diverifikasi ulang dan dibandingkan kembali.

Sayangnya, public dataset juga memiliki kendalanya sendiri, yakni:

  • informasi yang kurang akurat,
  • penyalahgunaan data privat, serta
  • pengelolaannya yang kurang terjaga

Jenis dataset berdasarkan tipe datanya

Sementara itu, ada juga jenis kategorisasi dataset berdasarkan tipe datanya.

Numerical dataset

Numerical dataset merupakan sekumpulan data yang tergambar dalam bentuk angka, bukan kata-kata.

Dataset numerik dapat disebut juga data kuantitatif.

Contoh dataset numerik mencakup data mengenai tingkat IQ sekelompok orang atau frekuensi pemesanan makanan online.

Categorical dataset

Sesuai namanya, categorical dataset membagi data ke dalam dua kategori yang berbeda, yakni variabel kualitatif atau variabel dikotomi.

Sementara itu, dataset dengan lebih dari dua variabel disebut dengan polytomous variables.

Jika kamu pernah melihat data dengan dua kategori, misalnya kategori ‘setuju’ atau ‘tidak setuju’, maka data itu termasuk categorical dataset.

Bivariate dataset

Bivariate dataset terdiri atas dua variabel data yang saling berhubungan. Misalnya, hubungan antara usia (variabel 1) dengan tingkat detak jantung per menit (variabel 2).

Namun ketika dataset tertentu hanya memiliki satu variabel, maka sebuatannya adalah univariate dataset.

Multivariate dataset

Berbeda dengan bivariate dataset, data pada multivariate dataset memiliki lebih dari dua kategori.

Data yang ada dalam kategori di multivariate dataset merupakan fungsi atau pelengkap informasi dari kategori-kategori yang lain.

Salah satu contoh dataset jenis ini adalah pencatatan kebiasaan pengguna Twitter dalam penggunaan platform tersebut, dan pengaruhnya pada IQ.

Dalam kasus demikian, akan ada lebih dari dua data yang akan muncul, yakni jenis kelamin, usia, pekerjaan, jumlah jam penggunaan media sosial, dan tingkat IQ.

Correlation dataset

Correlation dataset menunjukkan korelasi antara satu dataset dengan yang lainnya. Misalnya data tinggi badan dan berat badan.

Umumnya, semakin tinggi seseorang, maka semakin besar juga berat badannya.

Contoh di atas adalah contoh positive correlation.

Terdapat tiga output yang bisa kamu tarik dari korelasi antar-dataset, yakni:

  • Positive correlation: peningkatan satu variabel berhubungan dengan meningkatnya variabel lainnya
  • Negative correlation: peningkatan satu variabel berhubungan dengan penurunan atau berkurangnya variabel lainnya
  • Zero correlation: kedua variabel tidak memiliki korelasi sama sekali

Demikian sedikit penjelasan mengenai dataset yang umum.

Mengetahui jenis-jenis dataset dapat membantu kamu dalam proses data mining serta membantumu memilih tools atau metode yang sesuai dengan jenis data serta output yang kamu inginkan.

Belajar lebih dalam tentang data di Sekolah Data Pacmann!

Further reading:

What is Data?

What are the differences between data, a dataset, and a database?

Types of Data Sets in Data Science, Data Mining and Machine Learning

8 Popular Databases

The Pros and Cons of Open Data