Ketika kamu memesan GoRide atau GoCar, kamu akan disajikan daftar titik penjemputan dengan nama yang jelas di sekitar lokasi pick up kamu.
Titik penjemputan ini dirancang untuk membuat pelanggan dan driver jadi lebih mudah–dan membuat pelanggan tidak perlu menjelaskan di mana tepatnya mereka menunggu.
Titik penjemputan yang ditampilkan di aplikasi adalah lokasi yang populer di sekitar area tersebut. Terlebih lagi, nama titik penjemputan ditampilkan persis seperti yang biasanya disebut oleh user–baik pengemudi maupun pelanggan.
Bagaimana Gojek dapat menawarkan daftar ini?
Nyatanya ini adalah salah satu dari penerapan NLP (Natural Language Processing).
Gojek menggunakan lokasi pemesanan dan in-app chat sebagai dataset untuk menentukan titik penjemputan ini.
Gojek melakukan clustering pada catatan pemesanan (previous bookings) dan menentukan titik-titik penjemputan potensial, kemudian menggunakan model NLP untuk memilih nama terbaik dari titik penjemputan ini.
CartoBERT
BERT (Bidirectional Encoder Representations from Transformers) adalah machine learning framework yang dikembangkan Google pada tahun 2018–yang juga menjadi bagian dari algoritma Google Search.
BERT dirancang untuk membantu komputer memahami arti terhadap suatu teks dengan menggunakan teks sekitarnya untuk membangun konteks.
ALBERT–diterbitkan setahun setelah BERT, adalah versi pengembangannya yang menggunakan sequence order prediction (alih-alih menggunakan next sentence prediction seperti pada BERT).
ALBERT dinilai mengungguli BERT dalam task standar NLP (SQUAD, RACE, dll.) dengan parameter yang lebih sedikit.
Terinspirasi oleh model dan kinerja ALBERT, Gojek mengembangkan CartoBERT–pickup point name recognition model mereka berdasarkan arsitektur ALBERT.
Arsitektur CartoBERT
Berikut arsitektur bagaimana CartoBERT dilatih (pre-trained) terhadap 200 juta kalimat dari dataset Gojek.
Dengan ini, secara teori CartoBERT dapat ‘memahami’ setiap kata dari isi chat antara pengemudi dan pelanggan saat melakukan pemesanan.
Dalam menyediakan daftar titik penjemputan yang lebih baik, Gojek melakukan fine tuning–termasuk kapitalisasi, konteks bahasa, dll.
Kinerja CartoBERT
CartoBERT memberikan peningkatan >25% dalam akurasi penamaan titik penjemputan dengan akurasi mencapai ~93% (diukur sebagai persentase nama titik penjemputan yang valid dari seluruh nama yang dihasilkan model).
Dengan akurasi tinggi ini, Gojek telah mencapai otomatisasi dan skalabilitas penuh, serta dengan cepat dapat mencakup banyak wilayah tanpa ketergantungan yang besar pada input manusia.
Memanfaatkan NLP untuk melengkapi fitur aplikasi adalah next-level data-driven move dari Gojek.
What’s next?
Berdasarkan dari yang disampaikan oleh Li Xiaohong (Data Scientist Gojek), saat ini Gojek sedang mempertimbangkan melakukan pre-training dan open sourcing model versi bahasa Indonesia dengan dataset kalimat berbahasa Indonesia yang diambil dari wiki, berita, Twitter, dll.
Opsi model open-source dalam bahasa Indonesia sangat terbatas dan akan bermanfaat jika Gojek memiliki model khusus dalam bahasa Indonesia.
Nantikan update lebih lanjut dari tim Cartography Data Science Gojek!
Tahukah kamu kalau NLP adalah salah satu hal yang dipelajari secara mendalam di salah satu program Sekolah Data Pacmann?
Buat kamu yang penasaran dan ingin belajar tentang NLP, kamu bisa cek kurikulum AI and ML Engineering Program Pacmann.
Jangan sungkan untuk diskusi dengan Pacmann via Twitter, ya!
Futher reading:
Artikel Popular
Data Engineer dan ML Engineer: Perbedaan Tanggung Jawab, Skill, dan Gaji
July 23, 2023
Mengenal Data Preprocessing: Langkah Awal dalam Data Mining
July 21, 2023
Apa yang Dimaksud dengan Machine Learning?
July 21, 2023
Ini Dia Alasan Mengapa Data Scientist Digaji Besar!
July 20, 2023
Pentingnya Business Intelligence (BI) Dashboard untuk Pengambilan Keputusan Bisnis
July 19, 2023