Blog Apa Itu Outlier dan Bagaimana Cara Mendeteksinya

Apa Itu Outlier dan Bagaimana Cara Mendeteksinya

Annisa Jamilatul September 15, 2022 6 min read

Outlier merupakan salah satu bagian penting dalam sebuah sekumpulan data, sebab bisa jadi outlier tersebut mengandung informasi bermanfaat terkait data Anda.

Karena hal itulah, terkadang seorang data analis harus melakukan pertimbangan dan mengetahui alasan untuk memutuskan antara menghapus outlier tersebut atau tetap mempertahankannya.

Sebelum lanjut ke penjelasan yang lebih dalam, mari kita pahami terlebih dahulu definisi dan pengertian mengenai outlier itu sendiri.

Apa itu outlier?

Dilansir dari Techopedia, outlier atau bisa juga dikenal dengan anomali ini adalah sebuah data atau observasi yang menyimpang secara ekstrim dari rata-rata sekumpulan data yang ada.

Penyimpangan ini bisa berupa angkanya terlalu tinggi atau terlalu rendah. Agar lebih mudah memahaminya perhatikan contoh berikut ini.

Anda sedang memeriksa data yang berisi informasi mengenai tinggi badan siswa kelas 6 di salah satu sekolah dasar. Tinggi badan setiap siswa kelas tersebut, antara lain: 9 cm, 145 cm, 150 cm, 153 cm, 617 cm.

Dari data di atas yang dimaksud dengan outlier adalah “9 cm” karena terlalu rendah dan “617 cm” sebab terlalu tinggi.

Anda akan mudah mendetekasi outlier ini jika observasi atau data yang ada hanya berisi sekumpulan angka dan satu dimensi seperti contoh di atas.

Tetapi saat Anda memiliki ratusan hingga ribuan observasi dan multi dimensi, maka Anda akan membutuhkan cara yang lebih pintar untuk dapat mendeteksinya.

Mengapa kita harus peduli dengan outlier?

Salah satu masalah inti dalam data mining (penambangan data ) adalah mendeteksi dan menemukan outlier.

Penyebaran penggunaan device IoT membuat jumlah data tumbuh menjadi semakin banyak sehingga membuat data analis harus berfikir kembali bagaimana cara mendekati dan memperlakukan outlier-outlier yang muncul.

Keberadaan outlier ini sendiri bisa memberikan insight yang berguna terhadap data yang sedang Anda pelajari dan mereka juga dapat memberikan efek pada hasil statistik.

Misalnya saja, saat ini kita mengenal adanya smart watches (jam pintar) dan wristbands yang bisa digunakan untuk mendeteksi detak jantung kita setiap menitnya.

Mendeteksi adanya anomali dalam data detak jantung dapat membantu dalam memprediksi adanya penyakit jantung.

Contoh lain, anomali yang terjadi di lalu lintas jalan bisa membantu dalam memperikirakan adanya kecelakaan.

Alasan lain mengapa kita perlu mengenali dan mendeteksi outlier adalah saat kita sedang mempersiapkan sekumpulan data untuk model machine learning, sangat penting untuk menemukan outlier.

Setelah menemukannya, Anda dapat menghilangkannya atau menganalisisnya untuk mengetahui alasan mengapa Anda memiliki outlier tersebut.

Tipe-tipe outlier

Umumnya pada statistik dan data science, outlier terbagi menjadi tiga tipe yakni global outliers, contextual outlier, dan collective outliers.

Berikut penjelasan lengkap dari ketiga tipe tersebut.

Global outliers

Sebuah data masuk dalam tipe global outliers ketika nilainya terlalu jauh di luar keseluruhan kumpulan data di tempat data tersebut ditemukan.

Contextual outliers

Contextual outliers merupakan data poin yang nilainya menyimpang secara signifikan dari data lain dalam konteks yang sama.

Collective outliers

Bagian data yang ada di dalam sekumpulan data akan dianggap sebagai anomali atau outlier ketika nilai-nilai tersebut menjadi sebuah kumpulan yang menyimpang secara signifikan dari keseluruhan kumpulan data.

Namun, nilai-nilai dari data individu itu sendiri tidak anomali baik dalam artian kontekstual maupun global.

Cara mendeteksi outlier

Setelah kita memahami apa itu outlier dan tipe-tipenya, sekarang kita akan menggali lebih dalam beragam cara untuk mengidentifikasi outlier.

Penyortiran

Metode pertama yang bisa Anda pakai adalah penyortiran. Anda dapat melakukan penyortiran pada variabel kuantitative dimulai dari rendah ke tinggi. Kemudian lihat dan pilih nilai yang paling rendah atau yang paling tinggi.

Standard deviation

Metode selanjutnya yang dapat digunakan adalah standard deviation.

Di dalam statistik, jika sebuah data terdistribusi mendekati normal, maka sekitar 68% dari nilai data berada dalam satu standar deviasi dari mean dan sekitar 95% berada dalam dua standar deviasi, dan sekitar 99,7% berada dalam tiga standar deviasi.

Oleh sebab itu, jika Anda memiliki data yang melibihi tiga kali lipat dari standard deviation, maka data tersebut sangat mungkin sebuah outlier.

Visualisasi

Anda juga bisa memvisualisasikan data dengan menggunakan sebuah box plot atau sebuah box-and-whisker plot untuk dapat mendeteksi distribusi data secara sekilas.

Jenis chart ini menyorot nilai minimum dan maksimal (rentang), median, dan rentang interkuartil untuk data Anda.

Rentang interkuartil (IQR)

Metode interkuartil ini akan menunjukkan rentang tengah dari sekumpulan data yang Anda miliki.

Anda juga dapat menggunakan IQR untuk membuat “pagar” di sekiar data Anda dan kemudian mendefiniskan outlier sebagai nilai apapun yang berada di luar pagar tersebut.

Apa yang harus dilakukan pada data outlier?

Seperti yang sudah sempat disinggung di atas, biasanya data analis akan dihadapkan pada dua pilihan ketika menemukan data outlier haruskah menghapus data tersebut atau tetap mempertahankannya.

Membuat keputusan tersebut tidaklah mudah, sebab ada banyak strategi untuk mengatasi outlier di data, tergantung pada situasi dan dataset sehingga keputusan tersebut bisa jadi benar juga bisa jadi salah.

Selain itu, sebagian besar alat testing memiliki strategi sendiri dalam berurusan dengan outliers, namun biasanya berbeda dalam cara melakukannya.

Oleh karena itu, penting untuk melakukan analisis khusus terkait outlier, bahkan jika alat testing Anda memiliki parameter default.

Tidak hanya mempercayai data testing Anda, tetapi terkadang analisis dari outlier menghasilkan insight tersendiri yang dapat membantu pengoptimalan.

Kenapa kemampuan mendeteksi outlier penting di dunia kerja?

Mendeteksi anomali adalah hal penting untuk bisnis apapun. Mengingat saat ini kita tinggal di dunia di mana data menjadi semakin besar setiap detiknya.

Sehingga menemukan anomali baik dari online maupun offline merupakan hal yang krusial dilakukan untuk mengidentifikasi masalah pada bisnis.

Selain itu, diharapkan setelah mendeteksi outlier, data analis dan perusahaan dapat membangun sebuah solusi yang proaktif untuk menemukan masalah sebelum masalah tersebut terjadi.

Belajar statistik lebih lanjut dan mendalam

Jika Anda ingin mengetahui dan memahami lebih dalam mengenai outlier, Statistics Program di bawah Sekolah Data Pacmann dapat menjadi sarana terbaik bagi Anda untuk mempelajari hal tersebut.

Selain itu, program ini akan membantu Anda memantapkan pemahaman statistik yang dapat berguna untuk analisis dan melakukan data modeling nantinya.

Tertarik untuk meningkatkan data skill? Segera bergabung ke Sekolah Data Pacmann! Anda juga bisa menghubungi Pacmann via Twitter untuk bertanya lebih jauh tentang program dan konsultasi.

Further Reading

What is Outlier Detection?

5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code)

What is an Outlier? Definition and How to Find Outliers in Statistics

Outlier!!! But Why???