Blog Mengenal Data Preprocessing: Langkah Awal dalam Data Mining

Mengenal Data Preprocessing: Langkah Awal dalam Data Mining

Juli 21, 2023 6 min read

Sebelum melakukan data mining, diperlukan sebuah langkah awal yang dapat memastikan data siap untuk digunakan yakni data preprocessing.

Tanpa adanya data preprocessing, proses data mining bisa berjalan jauh lebih lambat atau bahkan tidak berjalan sama sekali.

Kali ini Pacmann akan membahas apa itu data preprocessing serta tahapan-tahapan dan tekniknya.

Apa itu data preprocessing?

Dilansir dari TechTarget, definisi data preprocessing adalah segala bentuk pemrosesan terhadap data mentah agar siap diproses dalam tahapan analisis data berikutnya.

Data preprocessing mengubah data menjadi format yang dapat lebih mudah dan lebih efektif diproses dalam data mining.

Tak hanya dalam data mining, data preprocessing juga merupakan langkah preliminary yang penting dalam tahapan pemrosesan data lainnya, seperti AI data pipeline atau machine learning workflow.

Mengapa data preprocessing penting?

Data mentah (raw data) umumnya memiliki format yang tidak konsisten atau tidak lengkap. Data preprocessing penting untuk menyelesaikan masalah-masalah pada data tersebut.

Setiap sampel data mentah yang terkumpul dalam database memiliki karakteristik yang berbeda-beda, yang disebut dengan feature atau atribut.

Dalam proses pengumpulan data dari berbagai sumber yang berbeda, biasanya sering terjadi ketidaksesuaian dalam fitur maupun atributnya.

Contoh sederhananya, sumber data A memiliki atribut dengan nama ‘pria’, sedangkan sumber data B memiliki atribut dengan nama ‘laki-laki’. Perbedaan ini bisa menimbulkan masalah dalam interpretasi data nanti.

Dengan data preprocessing, masalah-masalah tersebut dapat diselesaikan sehingga dihasilkan dataset yang lebih rapi dan konsisten untuk dianalisis lebih lanjut.

Alasan utama mengapa data preprocessing penting adalah untuk memastikan kualitas data yang akan digunakan.

Karakteristik dari data yang berkualitas mencakup hal-hal berikut:

  • Akurasi: kebenaran dari data yang diinput
  • Kelengkapan: data tidak memiliki bagian yang hilang
  • Konsistensi: tidak adanya kontradiksi antar data
  • Aktualitas: data terbaharui dan sesuai dengan kondisi terkini
  • Terpercaya: data didapat dari sumber yang kredibel
  • Interpretability: data dapat diinterpretasikan atau bisa dipahami

Pacmann pernah membahas use case tentang data preprocessing dalam resume screening di Twitter.

Semoga kamu bisa dapat gambaran mengapa proses satu ini sangat penting untuk dipahami.

Pertanyaannya, apa saja langkah-langkah dalam data preprocessing?

Langkah-langkah tugas dalam data preprocessing

Langkah-langkah dalam data preprocessing terdiri atas empat tugas utama, yakni:

  • data cleaning,
  • data integration,
  • data reduction, dan
  • data transformation.

Data cleaning

Data cleaning adalah proses pembersihan dataset yang mencakup penghapusan data yang salah, tidak lengkap, tidak akurat, dll.

Tujuan dari data cleaning adalah menyediakan sampel yang lengkap dan akurat untuk diproses lebih lanjut dalam data mining.

Teknik yang digunakan dalam data cleaning biasanya bervariasi tergantung dari kebutuhan data scientist yang bertanggung jawab.

Berikut adalah beberapa contoh masalah yang ditemui dalam proses data cleaning serta solusinya:

Missing values

Data dengan nilai yang tidak lengkap atau hilang biasanya dapat ditangani dengan beberapa metode berikut:

  • Mengisinya dengan keterangan N/A (Not Available)
  • Dalam dataset yang terdistribusi secara normal, missing value bisa diganti dengan mean value dari atribut keseluruhan data
  • Dalam dataset yang terdistribusi secara non-normal, missing value bisa diganti dengan median value dari atribut keseluruhan data
  • Ketika menggunakan analisis regresi atau algoritma decision tree, missing value bisa diganti dengan most probable value

Noisy data

Noisy data adalah data yang mengandung error atau informasi yang tidak diperlukan.

Misalnya dalam dataset terkait perilaku belanja konsumen supermarket.

Dalam kasus ini, tentunya data terkait warna rambut atau tinggi badan tidak diperlukan dan bisa dianggap sebagai noisy data.

Berikut adalah beberapa metode yang umum digunakan untuk menangani noise pada data:

  • Metode binning: membagi data yang sudah tersortir menjadi beberapa segmen yang kuantitasnya sama, kemudian mengganti salah satu segmen dengan mean, median, atau boundary value
  • Regresi: menyisir data dengan cara memasukkannya ke regression function—regresi linear untuk satu variabel, dan multiple regression untuk lebih dari satu variabel
  • Clustering: mengelompokkan data-data yang serupa dalam satu kluster untuk mendeteksi outlier

Data integration

Data integration adalah salah satu langkah dalam data preprocessing yang terdiri atas proses penyatuan berbagai sumber data menjadi satu dataset.

Tahapan ini diperlukan sebab sering ditemukan masalah-masalah berikut:

  • Perbedaan metadata dari sumber yang berbeda
  • Perbedaan entitas; misalnya ‘nomor ID karyawan’ dengan ‘nama karyawan’
  • Perbedaan value; misalnya format tanggal ‘tanggal-bulan-tahun’ dengan ‘bulan-tanggal-tahun’

Beberapa pendekatan dalam data integration yang umum digunakan adalah:

    • Data consolidation: pengumpulan, pemrosesan, dan penyimpanan data dalam satu lokasi seperti data warehouse.
    • Data virtualization: penggunaan interface dashboard yang menyediakan real-time view terhadap data dari berbagai sumber berbeda.
  • Data propagation: penyalinan data dari satu lokasi ke lokasi lainnya dengan bantuan aplikasi khusus

Data reduction

Data reduction adalah proses pengurangan volume atau kuantitas data dengan hanya menyimpan data yang penting saja.

Tujuan dari data reduction adalah untuk meningkatkan efisiensi analisis data dan menghindari overfitting.

Berikut adalah beberapa teknik yang umum digunakan untuk data reduction:

  • Dimensionality reduction: pengurangan variabel atau atribut random dengan cara menyatukan data dengan karakteristik yang serupa atau berkorelasi dengan satu sama lain
  • Numerosity reduction: penggantian data asli dengan representasi data yang lebih kecil atau lebih sempit, representasi data dapat ditentukan dengan model regresi atau clustering
  • Data compression: mengemas data dengan cara melakukan kompresi agar size-nya jadi lebih kecil untuk tujuan penyimpanan atau data transmission

Data transformation

Data transformation adalah salah satu langkah dalam data preprocessing untuk mengkonversi atau menyeragamkan data dari satu format ke format lain agar bisa dibaca oleh sistem komputasi.

Contoh sederhananya seperti mengubah foto dokumen dalam format JPEG menjadi bentuk teks atau PDF.

Berikut adalah beberapa pendekatan yang umum digunakan untuk data transformation:

  • Smoothing: menggunakan algoritma untuk menghapus noise sekaligus menemukan feature paling signifikan serta memprediksi pola dari dataset
  • Aggregation: mengumpulkan data dari banyak sumber dan mengemasnya menjadi satu format yang dibutuhkan
  • Discretization: membagi continuous data menjadi beberapa interval untuk mengurangi ukurannya, misalnya membagi data rentang umur menjadi kategori anak-anak, remaja, dan dewasa
  • Normalization: mengkonversi variabel data guna mempersempit rentang data, misalnya seperti mengubah data angka desimal (0.2, 0.5, 0.7, dsb.) menjadi 0-1 saja
  • Generalization: mengkonversi low-level data menjadi feature data yang high-level, misalnya seperti mengubah atribut alamat lengkap menjadi atribut kota saja
  • Concept hierarchy generation: membentuk hierarki dari feature pada data guna mempermudah representasi data, misalnya mengubah data alamat lengkap menjadi beberapa feature yang terbagi atas nama jalan, nomor RT/RW, desa, dst.

Data preprocessing merupakan langkah yang penting dalam proses data mining guna memastikan data mudah dipahami serta hadir dalam format yang sesuai dengan tujuan proyek data mining.

Sebagai langkah awal yang penting, data preprocessing termasuk sebagai skill fundamental dalam pengolahan data. Pemula maupun ahli di bidang data wajib tahu dan menguasai data preprocessing.

Further reading:

What Is Data Preprocessing? 4 Crucial Steps to Do It Right

Data Preprocessing in Data Mining – A Hands On Guide

Data Preprocessing – Techniques, Concepts and Steps to Master