Sekilas tentang Twitter
Twitter adalah salah satu media sosial populer di dunia. Menurut laporan keuangan investor perusahaan, ada sekitar 238 juta pengguna Twitter per Juli 2022.
Berdasarkan analisis real-time dari Internet Live Stats, setiap detik rata-rata ada sekitar 6.000 tweets di Twitter; itu setara dengan lebih dari 350.000 tweets per menit, 500 juta tweets per hari, dan sekitar 200 miliar tweets per tahun.
Di antara ratusan juta pengguna Twitter, mayoritas (94%) pengguna menyatakan tertarik dengan kejadian teraktual. Selain itu, 85% pengguna memakai layanan berbasis mikroblog tersebut untuk menonton, membaca, atau mendengarkan berita setidaknya sekali dalam sehari–data dari Twitter News.
Oleh sebab itu, sering kali Twitter menjadi medium untuk penyampaian aksi, kampanye, atau inisiatif tertentu untuk menggalang massa dan/atau dukungan. Namun, tidak jarang pula Twitter menjadi alat serupa untuk keperluan individual sekalipun, tak terkecuali untuk berkeluh kesah.
Analisis Pacmann
Deteksi nama daerah dengan Named-Entity Recognition
Pacmann menganalisis tweets ini dengan machine learning model Named-Entity Recognition untuk mendeteksi daerah mana saja yang warganet paling sering keluhkan soal macet dari 1 Januari hingga 21 Oktober 2022.
“Model kami berhasil mendeteksi lebih dari 6.000 daerah di Indonesia mulai dari tingkat desa/kelurahan hingga provinsi,” ujar Adityo Sanjaya, CEO dan Chief of Data Scientist Pacmann.
Terungkap, Jakarta menjadi daerah yang paling banyak warganet keluhkan soal macet dengan mention lebih dari 30.000 kali dari total lebih dari 110.000 tweets yang terdeteksi memuat nama daerah.
“Fakta ini sebetulnya tidak mengagetkan, mengingat Jakarta sebagai pusat pemerintahan dan pusat ekonomi memang menjadi magnet tersendiri bagi para perantau dari berbagai kota di Indonesia,” tutur Adit lebih lanjut.
Kemudian, di tempat kedua dan ketiga ada Bandung dan Yogyakarta dengan frekuensi mention masing-masing sekitar 8.000 dan 4.000. Melengkapi daftar lima besar, tweets yang memuat Bogor dan Bekasi masing-masing berjumlah 3.500-an.
Laporan penunjang relevan
Selain 9 daerah di atas, daerah-daerah administrasi di tingkat lebih rendah yang juga terdeteksi di tweets tentang macet antara lain Ciputat, Cikarang, Manggarai, dan Cileungsi.
Terlepas dari urutannya, hasil analisis model Named-Entity Recognition juga relatif selaras dengan laporan dari "The 2021 Global Traffic Scorecard" dari INRIX.
Menurut laporan itu, lima besar kota paling macet di Indonesia adalah Surabaya, Jakarta, Denpasar, Malang, dan Bogor.
Lantas, mengapa hasil analisis Pacmann menempatkan Jakarta di posisi pertama?
"Merujuk ke survei dari Asosiasi Penyelenggara Jasa Internet Indonesia 2022, tingkat penetrasi internet di DKI Jakarta itu tertinggi; 83,4 persen. Jadi kami pikir, wajar juga apabila Jakarta berada di posisi pertama di analisis kami karena memang pengguna media sosial di Jakarta sangat banyak," kata Adit.
Deteksi asosiasi kata dengan Word2Vec
Selain memakai machine learning model Named-Entity Recognition, Pacmann juga menganalisis kata-kata apa saja yang paling berdekatan dengan kata macet dengan cara merepresentasikan semua kata di dalam data menjadi vektor.
Singkat cerita, metode ini menerapkan model jaringan saraf (neural network) yang dirancang untuk memperhitungkan asosiasi kata di dalam data tekstual seperti tweets.
Diketahui, kata-kata yang paling berdekatan di dalam data yang Pacmann analisis antara lain jam, banjir, jalan, tol, pulang, hujan, mudik, pagi, capek, kerja, arus, mobil, dan berangkat.
"Kalau kita perhatikan, ada sekelompok kata-kata yang bertetangga dengan kata macet yang berkaitan erat secara semantik dalam konteks jam berangkat dan pulang kerja," ujar Ghifari Adam, pengajar di Pacmann sekaligus Data Scientist Valiance.
Selain itu, Ghifari mengungkapkan ada juga sekelompok kata lainnya yang berasosiasi dengan situasi kondisional tertentu seperti banjir, hujan, dan mudik.
Named-Entity Recognition dan Word2Vec pada dasarnya adalah penerapan dari Natural Language Processing (NLP) yang merupakan cabang dari Artificial Intelligence.
Dengan NLP kita dapat menganalisis data tekstual, yang merupakan data tak terstruktur (unstructured data).
Perkembangan pelatihan machine learning
Sebagai informasi, di sebagian besar perguruan tinggi di Indonesia bidang keilmuan tersebut saat ini baru sebatas menjadi “peminatan” atau “konsentrasi”.
Oleh karena itu, Pacmann mulai menggelar kelas machine learning sejak tahun 2017 dan terus berkembang hingga saat ini.
“Untuk mendukung antusiasme teman-teman terhadap kemampuan dan pemahaman ilmu data modelling yang baik, kami bersama praktisi dan akademisi merancang program-program untuk upskilling dan reskilling di bidang data maupun bidang bisnis dengan kurikulum end-to-end, mendalam, up-to-date, dan sesuai dengan kebutuhan industri saat ini.”
Seiring waktu berjalan, program-program yang Pacmann tawarkan tidak hanya berfokus pada data saja, tetapi juga bisnis.
Terkini, Pacmann hadir dengan Sekolah Data dan Sekolah Bisnis dengan dengan rincian program berikut:
- Analytics and Data Science
- Statistics
- AI and ML Engineering
- Product Management and Business Strategy
- Business Intelligence and Growth Hacking
Kedua sekolah menyediakan jalur skill upgrader dan career upgrader untuk memfasilitasi teman-teman baik yang baru memulai untuk berkarier di tech dan data industry, career switcher, maupun mereka yang ingin mengakselerasi karier dan kemampuannya.
Selain program pendidikan, Pacmann juga menawarkan jasa konsultan untuk solusi-solusi machine learning melalui Valiance. Beberapa portofolio solusi machine learning yang pernah Valiance kerjakan antara lain customer analytics, anomaly and fraud detection, Natural Language Processing (NLP), dan computer vision.
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023