Blog Hentikan Cyberbullying dengan Machine Learning

Hentikan Cyberbullying dengan Machine Learning

Maret 21, 2022 5 min read

Hasil riset yang dirilis oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) menunjukkan bahwa 49% pengguna internet di Indonesia pernah menjadi korban perundungan atau bullying di media sosial, termasuk Twitter.

Apa itu Cyberbullying?

Cyberbullying yang dimaksud mencakup meninggalkan komentar negatif pada postingan/kiriman tertentu, DM (Direct Message) yang tidak bersahabat, serta menyebarkan postingan/kiriman atau profil akun media sosial tertentu dengan mengolok-olok, termasuk juga olok-olok terkait fisik maupun SARA.

Dari 49% korban bullying tersebut, 31,6% di antaranya memilih untuk membiarkannya saja dan tidak melakukan apa-apa terhadap perlakuan yang diterimanya di media sosial.

Hal ini yang membuat media sosial, termasuk Twitter, menjadi lapak subur untuk menyebarnya konten cyberbullying, dan ‘safe haven’ bagi para pelakunya.

Padahal, dampak dari cyberbullying sangatlah berbahaya, bahkan lebih berbahaya dibandingkan dengan ‘traditional’ bullying.

Hal ini disebabkan karena konten yang berisi bullying dapat dengan mudah menyebar dari satu pengguna dan menjangkau ratusan hingga ribuan pengguna media sosial lainnya hanya dalam waktu singkat.

Lalu, apakah ada banyak cara yang dapat dilakukan untuk mencegah penyebaran konten bullying di dunia maya?

Tentu saja, ada berbanyak cara yang dapat dilakukan, salah satunya dengan menggunakan machine learning.

Di sini, machine learning dapat mendeteksi konten negatif yang bersifat ‘abusive’ sejak dini, lalu mencegah konten tersebut dapat menyebar dan dilihat oleh pengguna lainnya.

Peran Machine Learning dalam Mencegah Cyberbullying

Bagaimana cara menghentikan cyberbullying dengan machine learning?

Agar lebih mudah untuk memahami peran machine learning dalam mencegah cyberbullying, kita akan menggunakan studi kasus membuat sistem yang dapat mendeteksi apakah suatu tweet masuk ke dalam kategori cyberbullying atau tidak (non-cyberbullying).

Data Gathering

Pertama, tentu kita harus mengetahui kriteria yang dipakai untuk mengatakan bahwa suatu tweet termasuk cyberbullying atau tidak.

Kita dapat membuat daftar ‘bad words’ yang ada dalam bahasa Indonesia dan menjadikannya sebagai patokan bahwa bila suatu tweet mengandung bad words yang signifikan, maka tweet tersebut secara otomatis tergolong sebagai cyberbullying.

Di sinilah letak permasalahan utama dari sistem deteksi yang akan dibuat.

Bad words cenderung dinamis dan tidak semua bad words bisa dianggap sebagai cyberbullying.

Sebagai contoh, kata ‘anjing’.

Dalam kalimat ‘Saya memelihara anjing’ tentu tidak termasuk cyberbullying, namun dalam kalimat ‘Dasar kamu anj*ng!’ maka akan termasuk cyberbullying.

Artinya, sistem membutuhkan aturan yang lebih umum terkait daftar kata.

Maka dari itu, kita dapat menambahkan faktor-faktor lain yang berperan dalam menentukan tweet yang tergolong cyberbullying.

Kita dapat menghitung jumlah bad words seperti ‘janc*k’, ‘pec*n’, ‘b*ngs*t’, dan negative emotions seperti ‘hancur’, ‘benci’, lalu menentukan kombinasi kelas kata yang dapat membuat tweet tergolong cyberbullying.

Contohnya dapat dilihat dalam gambar di bawah ini:

Data untuk Machine Learning Pendeteksi Cyberbullying

Nantinya, setiap data tweet akan dianalisis mengenai berapa banyak jumlah kombinasi kelas kata yang muncul.

Hasilnya akan digunakan sebagai features dari dataset yang akan dipelajari oleh model.

Setelah itu kita dapat melakukan data collection, bisa dari dataset tweets yang available atau scrape data Twitter.

Lebih jauh, penentuan labeling data unlabeled juga dapat memakai opsi crowdsourcing seperti ini:

Indonesia Cyberbullying Labeling

Data Preprocessing

Setelah data diperoleh, dilakukan data preprocessing seperti data cleaning untuk menghapus angka, simbol, dan mention.

Kemudian setiap tweet di-split per kata dengan tokenization.

Selain itu, setiap kata juga perlu dianotasi sesuai kategori kelas katanya (kata benda, kata ganti, kata kerja, dsb.) dengan POS (Part-of-Speech) Tag.

Lalu, masukkan features yang akan dipelajari oleh model sesuai dengan rules seperti banyaknya kombinasi antara kata ganti dengan bad words, kata ganti dengan negative emotions, dsb. yang ada pada setiap data tweet.

Training dan Evaluasi

Dataset yang sudah di-preprocessing kemudian akan dipelajari polanya oleh model machine learning untuk klasifikasi seperti SVM, KNN, atau dengan neural network selama proses training.

Dengan demikian, diperoleh model yang dapat menerima input teks tweet tertentu dan melakukan klasifikasi apakah tweet tersebut tergolong konten cyberbullying atau tidak.

Dengan meningkatkan kualitas dan kuantitas data yang tersedia, performa model akan semakin baik dan ke depannya dapat diaplikasikan sebagai sistem deteksi untuk menghentikan cyberbullying dengan machine learning sebelum konten terkait dapat tersebar dan dilihat pengguna lainnya.

Lalu, apa insight yang dapat dipetik dari hal ini?

Dari sini, kita dapat mengetahui bahwa kemampuan mengenal pola yang menjadi core dari machine learning juga dapat diterapkan untuk mengenal pola teks dan kalimat, atau yang biasa dikenal dengan sebutan ‘natural language processing’.

Dan bila diperhatikan, model tersebut hanya dapat mengolah data numerik, sehingga untuk menjalankan sistem ini, kita harus mengubah data teks menjadi data numerik.

Data yang sudah dikonversi tersebutlah yang kemudian akan dipelajari polanya oleh model dengan menggunakan analisis matematika dan statistik.

Aplikasi

Dan terakhir, kita dapat mengetahui bahwa kemampuan mengenal pola dari data dan pengaplikasiannya dapat diterapkan di bidang mana pun.

Tentunya, kemampuan ini hanya dapat diperoleh dengan dasar matematika dan statistika yang kuat.

Penerapan konsep statistika, pengumpulan data yang lengkap, cleaning data yang baik, aplikasinya dan faktor-faktor lain dapat benar-benar membantu kita mencegah dan menghentikan cyberbullying dengan machine learning.

Bila terinspirasi untuk membangun dasar matematika, statistik, dan data analysisnya dari dasar, Pacmann menyediakan kurikulum yang dibutuhkan.

Informasi lebih lanjut mengenai hal ini dapat dilihat di halaman Sekolah Data Pacmann.

Further Reading:

Mean Birds: Detecting Aggression and Bullying on Twitter

Indonesian Twitter Cyberbullying Detection using Text Classification and User Credibility