
Ketika kamu memesan GoRide atau GoCar, kamu akan disajikan daftar titik penjemputan dengan nama yang jelas di sekitar lokasi pick up kamu.
Titik penjemputan ini dirancang untuk membuat pelanggan dan driver jadi lebih mudah–dan membuat pelanggan tidak perlu menjelaskan di mana tepatnya mereka menunggu.
Titik penjemputan yang ditampilkan di aplikasi adalah lokasi yang populer di sekitar area tersebut. Terlebih lagi, nama titik penjemputan ditampilkan persis seperti yang biasanya disebut oleh user–baik pengemudi maupun pelanggan.
Bagaimana Gojek dapat menawarkan daftar ini?
Nyatanya ini adalah salah satu dari penerapan NLP (Natural Language Processing).
Gojek menggunakan lokasi pemesanan dan in-app chat sebagai dataset untuk menentukan titik penjemputan ini.
Gojek melakukan clustering pada catatan pemesanan (previous bookings) dan menentukan titik-titik penjemputan potensial, kemudian menggunakan model NLP untuk memilih nama terbaik dari titik penjemputan ini.
CartoBERT
BERT (Bidirectional Encoder Representations from Transformers) adalah machine learning framework yang dikembangkan Google pada tahun 2018–yang juga menjadi bagian dari algoritma Google Search.
BERT dirancang untuk membantu komputer memahami arti terhadap suatu teks dengan menggunakan teks sekitarnya untuk membangun konteks.
ALBERT–diterbitkan setahun setelah BERT, adalah versi pengembangannya yang menggunakan sequence order prediction (alih-alih menggunakan next sentence prediction seperti pada BERT).
ALBERT dinilai mengungguli BERT dalam task standar NLP (SQUAD, RACE, dll.) dengan parameter yang lebih sedikit.
Terinspirasi oleh model dan kinerja ALBERT, Gojek mengembangkan CartoBERT–pickup point name recognition model mereka berdasarkan arsitektur ALBERT.
Arsitektur CartoBERT
Berikut arsitektur bagaimana CartoBERT dilatih (pre-trained) terhadap 200 juta kalimat dari dataset Gojek.
Dengan ini, secara teori CartoBERT dapat ‘memahami’ setiap kata dari isi chat antara pengemudi dan pelanggan saat melakukan pemesanan.
Dalam menyediakan daftar titik penjemputan yang lebih baik, Gojek melakukan fine tuning–termasuk kapitalisasi, konteks bahasa, dll.
Kinerja CartoBERT
CartoBERT memberikan peningkatan >25% dalam akurasi penamaan titik penjemputan dengan akurasi mencapai ~93% (diukur sebagai persentase nama titik penjemputan yang valid dari seluruh nama yang dihasilkan model).
Dengan akurasi tinggi ini, Gojek telah mencapai otomatisasi dan skalabilitas penuh, serta dengan cepat dapat mencakup banyak wilayah tanpa ketergantungan yang besar pada input manusia.
Memanfaatkan NLP untuk melengkapi fitur aplikasi adalah next-level data-driven move dari Gojek.
What’s next?
Berdasarkan dari yang disampaikan oleh Li Xiaohong (Data Scientist Gojek), saat ini Gojek sedang mempertimbangkan melakukan pre-training dan open sourcing model versi bahasa Indonesia dengan dataset kalimat berbahasa Indonesia yang diambil dari wiki, berita, Twitter, dll.
Opsi model open-source dalam bahasa Indonesia sangat terbatas dan akan bermanfaat jika Gojek memiliki model khusus dalam bahasa Indonesia.
Nantikan update lebih lanjut dari tim Cartography Data Science Gojek!
Tahukah kamu kalau NLP adalah salah satu hal yang dipelajari secara mendalam di salah satu program Sekolah Data Pacmann?
Buat kamu yang penasaran dan ingin belajar tentang NLP, kamu bisa cek kurikulum AI and ML Engineering Program Pacmann.
Jangan sungkan untuk diskusi dengan Pacmann via Twitter, ya!
Futher reading:
Artikel Popular
Beasiswa dari Pacmann: Tech Talent Scholarship
January 1, 2023
10 Pemain dan Tim Piala Dunia 2022 Terpopuler di Twitter
December 23, 2022
Data Citizen: Definisi dan Alasan Mengapa Hal Ini Penting
December 21, 2022
Contoh Penerapan Data Mining di Berbagai Bidang
December 15, 2022
McKinsey Global Survey on AI: Hasil Riset AI selama 5 Tahun ke Belakang
December 14, 2022