Blog Cara Mendeteksi dan Menangani Outlier

Cara Mendeteksi dan Menangani Outlier

Tita Edi Aulia P Juni 21, 2022 6 min read

Outlier adalah hal yang sangat penting dan krusial di dalam data analysis.

Setiap kali kita berbicara tentang data analysis, istilah ini sering muncul di benak kita.

Saat melakukan preprocessing data untuk proyek data science, kita selalu memikirkan nilai ekstrim yang ada dalam kumpulan data, yaitu, apakah kita harus menyimpan nilai tersebut untuk analisis atau harus menghapusnya dari kumpulan data.

Apa itu outlier?

Outlier adalah titik data yang nilainya secara signifikan berbeda dengan populasi tertentu. Meskipun definisi ini mungkin terlihat simpel, menentukan titik data yang merupakan outlier sebenarnya cukup subjektif, tergantung pada studi dan luasnya data yang terkumpul.

Sebelum membahas lebih lanjut, mari pahami terlebih dahulu perbedaan antara natural outlier dan non-natural outlier.

Natural outlier muncul akibat kesalahan pengukuran, pengumpulan data yang salah, atau entri data yang salah.

Non-natural outlier dapat kita temui pada contoh kasus transaksi penipuan di data perbankan, dll.

Cara mendeteksi outlier

Gunakan logika

Dengan data yang sudah kita ketahui distribusinya (seperti tinggi badan manusia), Anda dapat menggunakan logika untuk menemukan outlier akibat salah catat.

Misalnya, Anda tahu bahwa 618 cm bukan tinggi badan manusia yang valid, sedangkan 168 cm adalah tinggi badan yang valid.

Visualisasi data

Box Plot

box plot illustration by Qlik

Box plot adalah tampilan grafis untuk menggambarkan distribusi data menggunakan median serta kuartil bawah dan atas.

Outlier dapat dengan mudah kita deteksi melalui box plot di mana setiap titik di atas atau di bawah whiskers mewakili outlier.

Ini juga dikenal sebagai metode univariat karena di sini kita menggunakan analisis outlier satu variabel saja.

Histogram

histogram illustration by Qlik

Outlier juga dapat terdeteksi menggunakan histogram, dengan sebagian besar pengamatan berada di satu sisi, dan beberapa pengamatan muncul jauh dari kelompok utama, yang kita sebut outlier.

Scatterplot

ilustrasi scatter plot dari Qlik

Untuk data multivariat, scatterplot bisa sangat efektif. Scatterplots menunjukkan kumpulan titik data, di mana sumbu x (horizontal) mewakili variabel independen dan sumbu y (vertikal) mewakili variabel dependen.

Scatterplots dapat dengan mudah menunjukkan “tinggi badan 618 cm” sebagai outlier yang terpisah dari kumpulan data.

Fungsi Statistika

Distribusi Normal

Titik data yang berada di bawah mean-3*(sigma) atau di atas mean+3*(sigma) adalah outlier (mean dan sigma adalah nilai rata-rata dan standar deviasi kolom tertentu).

Skewed Distribution: Gunakan aturan jarak Interquartile Range (IQR)

Titik data yang berada di bawah Q1 – 1.5 IQR atau di atas Q3 + 1.5 IQR adalah outlier.

Dengan Q1 dan Q3 masing-masing adalah persentil ke-25 dan ke-75 dari kumpulan data, dan IQR mewakili rentang antar-kuartil dan diberikan oleh Q3 – Q1.

Distribusi lain: Gunakan pendekatan berbasis persentil

Contohnya, titik data yang jauh dari persentil 99% dan kurang dari 1 persentil kita anggap sebagai outlier.

Kapan kita harus membuang outlier?

Ada beberapa kondisi di mana kita harus membuang data outlier, yaitu ketika outlier muncul akibat kesalahan pada proses memasukkan atau mengukur data.

Misalnya, jika Anda memiliki pemahaman yang baik mengenai rentang data yang harus kita masukkan, seperti rentang usia manusia pada umumnya, Anda dapat dengan aman menghapus nilai yang berada di luar rentang itu.

Lalu, saat Anda memiliki banyak data dan sedikit outlier, Anda juga harus membuang outlier.

Sampel Anda tidak akan dirugikan dengan menghapus outlier yang meragukan.

Selain itu outlier juga harus dibuang saat situasi memungkinkan untuk melakukan pengambilan data ulang dan saat outlier sama sekali tidak merepresentasikan kumpulan data.

Kapan kita tidak membuang outlier?

Anda tidak seharusnya membuang outlier saat terdapat banyak outlier.

Mengapa? Karena menurut definisinya, outlier jarang terjadi.

Sebagai contoh saat 30% dari data Anda adalah outlier, fenomena itu berarti ada sesuatu yang kasuistik pada data Anda, yang perlu telaah lebih lanjut.

Selain itu Anda juga tidak disarankan untuk membuang outlier ketika hasil analisis Anda sangat sensitif, sehingga perubahan kecil pun bisa berakibat fatal.

Contohnya, saat Anda (a) menghapus data mengenai acara televisi favorit penonton dibandingkan (b) menghapus data efek samping obat pada pasien. Menghapus data pada kasus (b) akan bisa berakibat fatal.

Bagaimana menangani kumpulan data dengan outlier?

Batasi data outlier Anda

Cara lain untuk menangani outlier yang sebenarnya adalah dengan menerapkan batasan.

Kita bisa menggunakan pembatasan persentil.

Nilai yang lebih kecil dari nilai pada persentil ke-1, kita ganti dengan nilai pada persentil ke-1; nilai yang lebih besar dari nilai pada persentil ke-99, kita ganti dengan nilai pada persentil ke-99.

Tetapkan nilai baru

Jika outlier tampaknya muncul akibat oleh kesalahan dalam data Anda; coba substitusi nilai outlier menggunakan mean atau median variabel berdasarkan distribusi data atau menggunakan model regresi untuk memprediksi nilai yang hilang.

Transformasikan

Coba transformasi, akar kuadrat, dan transformasi log (sering digunakan ketika variabel respons mengikuti distribusi eksponensial) keduanya menghasilkan angka yang tinggi.

Hal ini dapat membuat asumsi bekerja lebih baik, jika outlier adalah variabel dependen dan dapat mengurangi dampak dari satu titik, jika outlier adalah variabel independen.

Mencoba model yang berbeda

Seperti model tree-based seperti teknik Random Forest dan Gradient Boosting, yang tidak terlalu terpengaruh oleh outlier.

Mengapa kita harus memberi perhatian kepada outlier?

Outlier dapat menyebabkan masalah serius dalam data analysis.

Pertama, kebanyakan metode analisis parametrik memerlukan asumsi distribusi data yang valid, dan keberadaan outlier sering mengakibatkan kekeliruan asumsi tersebut.

Kedua, ia meningkatkan variasi data dan dengan demikian mengurangi kekuatan uji statistik, yang tidak kita inginkan.

Ketiga, jika ia menampilkan hasil gabungan pengamatan dari populasi selain populasi target, hasil data analysis dengan outlier itu menghasilkan estimasi bias dari parameter populasi target.

Selain itu, ia mungkin merupakan pengamatan yang salah, misalnya kesalahan yang terjadi selama input data.

Oleh karena itu, untuk mencapai data analysis yang bermakna dan tidak bias, ia harus kita deteksi dan tangani secara tepat.

Di sisi lain, ia mungkin membuat pengamatan menjadi menarik, seperti saat hasil tes diagnosis abnormal menunjukkan potensi masalah kesehatan, dan dengan demikian dapat menjadi fokus penyelidikan.

Ingin mengetahui lebih lanjut mengenai data pre-processing?

Non-Degree Program Data Scientist Pacmann dapat menjadi sarana terbaik bagi Anda dalam menyelesaikan kasus-kasus di atas.

Oleh karena itu jika Anda tertarik untuk meningkatkan skill data pre-processing dan tertarik untuk menjadi seorang data scientist, yuk bergabung ke Non-Degree Program Data Scientist.

Anda juga bisa simak video ini untuk mengetahui istilah-istilah lain dalam industri data.

Referensi:

Characteristics of a Normal Distribution
Reference Intervals and Percentiles
Outlier
What are outliers in the data?
Boxplot