Apa Itu Outlier dan Bagaimana Cara Mendeteksinya
Annisa Jamilatul September 15, 2022 6 min read
Outlier merupakan salah satu bagian penting dalam sekumpulan data, sebab bisa jadi outlier tersebut mengandung informasi bermanfaat terkait datamu.
Karena hal itulah, terkadang seorang data analis harus melakukan pertimbangan dan mengetahui alasan untuk memutuskan antara menghapus outlier tersebut atau tetap mempertahankannya.
Sebelum lanjut ke penjelasan yang lebih dalam, mari kita pahami terlebih dahulu definisi dan pengertian mengenai outlier itu sendiri.
Apa itu outlier?
Dilansir dari Techopedia, outlier atau bisa juga dikenal dengan anomali ini adalah sebuah data atau observasi yang menyimpang secara ekstrim dari rata-rata sekumpulan data yang ada.
Penyimpangan ini bisa berupa angkanya terlalu tinggi atau terlalu rendah. Agar lebih mudah memahaminya perhatikan contoh berikut ini.
Kamu sedang memeriksa data yang berisi informasi mengenai tinggi badan siswa kelas 6 di salah satu sekolah dasar. Tinggi badan setiap siswa kelas tersebut, antara lain: 9 cm, 145 cm, 150 cm, 153 cm, 617 cm.
Dari data di atas yang dimaksud dengan outlier adalah “9 cm” karena terlalu rendah dan “617 cm” sebab terlalu tinggi.
Kamu akan mudah mendetekasi outlier ini jika observasi atau data yang ada hanya berisi sekumpulan angka dan satu dimensi seperti contoh di atas.
Tetapi saat kamu memiliki ratusan hingga ribuan observasi dan multi dimensi, maka akan membutuhkan cara yang lebih pintar untuk dapat mendeteksinya.
Mengapa kita harus peduli dengan outlier?
Salah satu masalah inti dalam data mining adalah mendeteksi dan menemukan outlier.
Penyebaran penggunaan device IoT membuat jumlah data tumbuh menjadi semakin banyak sehingga membuat data analis harus berfikir kembali bagaimana cara mendekati dan memperlakukan outlier-outlier yang muncul.
Keberadaan outlier ini sendiri bisa memberikan insight yang berguna terhadap data yang sedang dipelajari dan outlier juga dapat memberikan efek pada hasil statistik.
Misalnya saja, saat ini kita mengenal adanya smart watches (jam pintar) dan wristbands yang bisa digunakan untuk mendeteksi detak jantung kita setiap menitnya.
Mendeteksi adanya anomali dalam data detak jantung dapat membantu dalam memprediksi adanya penyakit jantung.
Contoh lain, anomali yang terjadi di lalu lintas jalan bisa membantu dalam memperikirakan adanya kecelakaan.
Alasan lain mengapa kita perlu mengenali dan mendeteksi outlier adalah saat kita sedang mempersiapkan sekumpulan data untuk model machine learning, sangat penting untuk menemukan outlier.
Setelah menemukannya, kamu dapat menghilangkannya atau menganalisisnya untuk mengetahui alasan mengapa kamu memiliki outlier tersebut.
Tipe-tipe outlier
Umumnya pada statistik dan data science, outlier terbagi menjadi tiga tipe yakni global outliers, contextual outlier, dan collective outliers.
Berikut penjelasan lengkap dari ketiga tipe tersebut.
Global outliers
Sebuah data masuk dalam tipe global outliers ketika nilainya terlalu jauh di luar keseluruhan kumpulan data di tempat data tersebut ditemukan.
Contextual outliers
Contextual outliers merupakan data poin yang nilainya menyimpang secara signifikan dari data lain dalam konteks yang sama.
Collective outliers
Bagian data yang ada di dalam sekumpulan data akan dianggap sebagai anomali atau outlier ketika nilai-nilai tersebut menjadi sebuah kumpulan yang menyimpang secara signifikan dari keseluruhan kumpulan data.
Namun, nilai-nilai dari data individu itu sendiri tidak anomali baik dalam artian kontekstual maupun global.
Cara mendeteksi outlier
Setelah kita memahami apa itu outlier dan tipe-tipenya, sekarang kita akan menggali lebih dalam beragam cara untuk mengidentifikasi outlier.
Penyortiran
Metode pertama yang bisa dipakai adalah penyortiran. Kamu dapat melakukan penyortiran pada variabel kuantitative dimulai dari rendah ke tinggi. Kemudian lihat dan pilih nilai yang paling rendah atau yang paling tinggi.
Standard deviation
Metode selanjutnya yang dapat digunakan adalah standard deviation.
Di dalam statistik, jika sebuah data terdistribusi mendekati normal, maka sekitar 68% dari nilai data berada dalam satu standar deviasi dari mean dan sekitar 95% berada dalam dua standar deviasi, dan sekitar 99,7% berada dalam tiga standar deviasi.
Oleh sebab itu, jika kamu memiliki data yang melibihi tiga kali lipat dari standard deviation, maka data tersebut sangat mungkin sebuah outlier.
Visualisasi
Kamu juga bisa memvisualisasikan data dengan menggunakan sebuah box plot atau sebuah box-and-whisker plot untuk dapat mendeteksi distribusi data secara sekilas.
Jenis chart ini menyorot nilai minimum dan maksimal (rentang), median, dan rentang interkuartil untuk datamu.
Interquartile range (IQR)
Metode interkuartil ini akan menunjukkan rentang tengah dari sekumpulan data yang kamu miliki.
Kamu juga dapat menggunakan IQR untuk membuat “pagar” di sekitar data dan kemudian mendefiniskan outlier sebagai nilai apapun yang berada di luar pagar tersebut.
Apa yang harus dilakukan pada data outlier?
Seperti yang sudah sempat disinggung di atas, biasanya data analis akan dihadapkan pada dua pilihan ketika menemukan data outlier haruskah menghapus data tersebut atau tetap mempertahankannya.
Membuat keputusan tersebut tidaklah mudah, sebab ada banyak strategi untuk mengatasi outlier di data, tergantung pada situasi dan dataset sehingga keputusan tersebut bisa jadi benar juga bisa jadi salah.
Selain itu, sebagian besar alat testing memiliki strategi sendiri dalam berurusan dengan outliers, namun biasanya berbeda dalam cara melakukannya.
Oleh karena itu, penting untuk melakukan analisis khusus terkait outlier, bahkan jika alat testing kamu memiliki parameter default.
Tidak hanya mempercayai data testing, tetapi terkadang analisis dari outlier menghasilkan insight tersendiri yang dapat membantu pengoptimalan.
Kenapa kemampuan mendeteksi outlier penting di dunia kerja?
Mendeteksi anomali adalah hal penting untuk bisnis apapun. Mengingat saat ini kita tinggal di dunia di mana data menjadi semakin besar setiap detiknya.
Sehingga menemukan anomali baik dari online maupun offline merupakan hal yang krusial dilakukan untuk mengidentifikasi masalah pada bisnis.
Selain itu, diharapkan setelah mendeteksi outlier, data analis dan perusahaan dapat membangun sebuah solusi yang proaktif untuk menemukan masalah sebelum masalah tersebut terjadi.
Belajar statistik lebih lanjut dan mendalam
Buat kamu yang ingin mengetahui dan memahami lebih dalam mengenai outlier, Statistics Program di bawah Sekolah Data Pacmann dapat menjadi sarana terbaik untuk mempelajari hal tersebut.
Selain itu, program ini akan membantu memantapkan pemahaman statistik yang dapat berguna untuk analisis dan melakukan data modeling nantinya.
Depends on prioritas Kak Angga, jika prioritasnya melakukan modelling dan mengenal lebih dalam statistics dan math di balik model maka statistics adalah program yang tepat.
Jika membuat produk AI/ML hingga melakukan deployment maka AI/ML Engineering lebih baik. https://t.co/CBz0l0tM7v
— Probably Approximately Campus (@pacmannai) September 12, 2022
Tertarik untuk meningkatkan data skill? Segera bergabung ke Sekolah Data Pacmann! Kamujuga bisa menghubungi Pacmann via Twitter untuk bertanya lebih jauh tentang program dan konsultasi.
Further reading:
5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code)
What is an Outlier? Definition and How to Find Outliers in Statistics
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023