Blog Sistem Rekomendasi YouTube: Memahami Algoritma, Machine Learning, dan Pemanfaatan Data

Sistem Rekomendasi YouTube: Memahami Algoritma, Machine Learning, dan Pemanfaatan Data

Juli 18, 2023 13 min read

Jangan lupa share, like, dan subscribe!

Memberi like pada video adalah bentuk apresiasi dan dukungan terhadap YouTuber dan konten-konten mereka. Tapi apakah kamu tahu bahwa dengan share atau memberi like akan mempengaruhi video-video yang muncul di beranda YouTube kamu?

Tak hanya share, like, dan subscribe–banyak faktor lainnya yang mempengaruhi munculnya video pada daftar rekomendasi di YouTube.

Dan YouTube mampu menyusun video-video rekomendasi tersebut berkat adanya data, algoritma, dan machine learning di baliknya.

Pacmann pernah membahas hal ini di Twitter.

Mari kita bahas lebih dalam di artikel ini!

Data yang digunakan untuk sistem rekomendasi YouTube

Dalam kiatnya menghadirkan konten yang dapat dinikmati pengguna, sistem rekomendasi YouTube terus menerus berkembang dan berevolusi. Tiap harinya, lebih dari 80 miliar informasi diproses guna memformulasikan user experience yang optimal.

Nah, sebelum kita menilik soal bagaimana algoritma machine learning diterapkan pada sistem rekomendasi YouTube, kita perlu tahu dulu data apa saja yang menjadi pondasi dari sistem tersebut.

Dalam membangun sistem rekomendasi video untuk pengguna, YouTube mempertimbangkan beberapa data berikut:

Clicks

Setiap pengguna mengklik sebuah video, YouTube menerjemahkannya sebagai indikasi bahwa kamu suka video tersebut.

Namun di tahun 2011, YouTube menyadari bahwa dengan mengklik sebuah video bukan berarti pengguna menontonnya. Sebab bisa saja pengguna tertarik dengan judul dan thumbnail-nya, namun kemudian kontennya dirasa kurang cocok. 

Sehingga akhirnya pengguna mengklik video lain di kolom suggestion sebelum selesai menonton video sebelumnya.

Watch time

Berdasarkan alasan di atas, pada tahun 2012 YouTube menambahkan variabel watchtime, yakni informasi berapa lama pengguna menonton video yang mereka klik.

Misalnya, seorang pengguna disinyalir menyukai video-video dengan topik sepakbola. Namun dia menghabiskan 30 menit menonton pertandingan, dan hanya 5 menit menonton video analisis pertandingan, meskipun keduanya sama-sama memiliki topik sepakbola. 

Dari data ini, maka YouTube akan lebih banyak merekomendasikan video-video pertandingan sepakbola dan mengurangi video analisis pertandingan.

Survey

Pada satu titik, YouTube menyadari bahwa menonton video berjam-jam tidak melulu berarti pengguna puas dengan konten video tersebut. 

Oleh karena itu, YouTube menambahkan variabel yang disebut “valued watchtime”, yakni waktu yang digunakan untuk menonton video yang dianggap berharga bagi pengguna.

Pengumpulan data ini dilakukan dengan mengirimkan survey setelah pengguna selesai menonton video berupa rating 1-5 bintang, serta alasan mengapa memberikan rating/nilai tersebut.

Jika kamu memberi sebuah video rating 4 atau 5 bintang, maka berarti kamu mengklik, menonton, dan menganggap kontennya berguna atau berharga.

Namun pastinya tidak semua pengguna akan mengisi survey yang diberikan. Oleh karena itu, YouTube mengembangkan algoritma machine learning yang berfungsi mendukung kekosongan informasi ini, yang akan kami bahas lebih lanjut di bawah.

Sharing, likes, dan dislikes

Informasi atau data berikut ini cukup sederhana dan mudah dipahami. Rata-rata, pengguna yang membagikan atau memberi like (jempol ke atas) pada video yang mereka tonton dapat diartikan bahwa mereka menyukai video tersebut.

Sedangkan jika mereka memberi dislike (jempol ke bawah) pada videonya, besar kemungkinan ada elemen yang mereka tidak sukai dari konten video tersebut.

Data regional

Informasi ini ditarik dari data pengguna ketika mendaftarkan akunnya, yang mencakup:

  • Lokasi tempat tinggal
  • Bahasa yang digunakan

Data ini berpengaruh terhadap rekomendasi video-video viral atau berita terkini yang spesifik beredar di daerah tertentu saja. Contohnya, penonton video yang tinggal di desa di pulau Jawa belum tentu tertarik dengan berita lokal yang terjadi di Sydney, Australia.

Bagaimana YouTube memanfaatkan algoritma AI dan machine learning dalam platform-nya

Dengan mengumpulkan data-data di atas dari aktivitas dan informasi pengguna, YouTube mengimplementasikan algoritma AI dan machine learning guna menghasilkan prediksi yang akurat.

Berikut adalah beberapa penerapannya:

Sistem rekomendasi video

model machine learning sistem rekomendasi youtube

Untuk bisa memberikan rekomendasi video yang khusus bagi setiap pengguna, YouTube menggunakan dua model machine learning berikut:

Collaborative filtering

Collaborative filtering merupakan salah satu model ML jenis algoritma prediktif yang mampu menciptakan prediksi bagi satu pengguna berdasarkan pengumpulan data dari pengguna lain yang memiliki watch history yang serupa.

Contohnya, pengguna A dan B sama-sama suka menonton video tutorial make-up. Di sisi lain, pengguna A juga suka menonton video tutorial memasak. 

Berdasarkan data tersebut, pengguna B akan direkomendasikan video tutorial memasak, meskipun dirinya belum pernah menonton video-video memasak sebelumnya.

Model ML ini juga digunakan untuk melengkapi variabel data survey yang tadi dibahas di atas.

Karena belum tentu semua pengguna mengisi survey, model ML ini berfungsi memprediksi preferensi pengguna yang tidak mengisi survey berdasarkan jawaban dari pengguna lain yang memiliki watch history yang serupa tapi mengisi surveynya.

Content-based filtering

Model algoritma satu ini memiliki cara kerja yang lebih sederhana. YouTube akan memberikan kamu rekomendasi video berdasarkan topik-topik atau kategori video yang sering kamu tonton sebelumnya.

Model deep learning untuk penyortiran video

model deep learning penyaringan video youtube

Berdasarkan watch history pengguna, tentunya terdapat beragam topik yang menjadi pertimbangan untuk sistem rekomendasi YouTube. Dan tiap topik sendiri bisa terdiri atas jutaan bahkan miliaran video yang harus dipilih.

Berdasarkan artikel ilmiah dari salah satu researcher di Google, diterangkan bahwa YouTube mengimplementasikan model deep learning dalam penyortiran video dalam sistem rekomendasinya.

Untuk bisa menyortir jutaan video menjadi belasan rekomendasi video yang berkualitas, YouTube menggunakan dua model deep learning berupa two-tower neural network, yakni candidate generator network dan ranking network.

Candidate generator network model

Sebagai lapisan penyaringan pertama, model ini menggunakan algoritma multi-class classification yang berfungsi memprediksi video yang memiliki nilai user engagement tertinggi dari semua video yang ada.

Model ini mampu menyaring miliaran video menjadi ratusan video berdasarkan beberapa faktor seperti:

  • Search query
  • Watch history
  • Informasi demografi
  • Informasi pengguna, dll.

Model ini ditujukan untuk tingkat akurasi yang tinggi. Outputnya, YouTube bahkan mampu menghapus video dengan views tinggi dari daftar rekomendasi jika tingkat relevansinya rendah.

Ranking network model

Setelah melalui model penyaringan pertama, batch video kembali dieliminasi dengan ranking network model.

Model ini menggunakan algoritma weighted logistic regression yang berfungsi memprediksi keterkaitan antara pengguna dengan video berdasarkan beberapa faktor:

  • User engagement behavior: clicks, watchtime, likes, dislike, sharing
  • Informasi pengguna
  • Informasi video: judul, deskripsi, tags, views, topic, dll.

Berdasarkan informasi-informasi tersebut, model ini mengurutkan ratusan video berdasarkan skornya dan memilih belasan video dengan ranking tertinggi untuk direkomendasikan ke pengguna.

Mengelola dan membatasi konten berbahaya

Tak hanya merekomendasikan video yang disukai, YouTube juga memanfaatkan machine learning untuk menjaga ekosistem tontonan yang sehat dengan cara-cara berikut:

Flagging content

Pihak YouTube memberikan investasi yang besar untuk mengimplementasikan model ML yang memiliki fungsi flagging (menandai) konten yang dianggap berbahaya, seperti:

  • Konten kekerasan
  • Berita hoax dan teori konspirasi
  • Konten seksual
  • Konten eksploitasi anak
  • Spam, dll.

Dengan model yang sudah di-training, mesin mampu menghapus video bahkan sebelum ditonton siapapun.

Selain dihapus, YouTube juga bisa memberi batasan usia pada video, menghilangkan fitur monetisasi pada video tersebut, sekedar memberi peringatan, atau bahkan menghapus channel.

Berdasarkan laporan YouTube, model ML yang diterapkan berhasil menghapus sejumlah 6,7 juta video hanya dalam rentang 4 bulan pada kuartal ke-2 tahun 2020.

Human reviewer dibantu ML

YouTube menyatakan bahwa dengan diluncurkannya model ML untuk menyaring konten berbahaya bukan berarti peran manusia menjadi minim.

Justru sebaliknya, semakin banyak ML yang diluncurkan, semakin besar juga jumlah pekerja manusia yang direkrut untuk membantu sistem ini.

Sekitar 10 ribu staf di Google dipekerjakan untuk mengurus dan mencegah beredarnya konten berbahaya di YouTube.

Dengan machine learning sebagai garda terdepan, manusia melengkapinya dengan menjadi elemen yang menjamin hadirnya penyaringan yang mendalam terhadap konten-konten di YouTube.

YouTube bahkan juga merekrut lebih dari 150 tenaga ahli untuk membantu sistem ini, mulai dari akademisi, agen pemerintahan, hingga berbagai LSM internasional, salah satunya seperti ECPAT Indonesia.

Fitur chapter video dan auto-captioning

Tak hanya untuk memberikan experience yang positif bagi pengguna, YouTube juga memanfaatkan machine learning untuk membantu para pembuat video atau creator.

Salah satunya adalah dengan fitur chapter video dan auto captioning.

Dalam fitur chapter video, YouTube mengimplementasikan algoritma ML berupa text analysis. Model algoritma ini membaca konten video, dan kemudian membaginya menjadi beberapa segmen dengan memberikan timestamp pada bar video player.

Dengan begitu, pengguna bisa langsung lompat ke bagian konten video yang mereka cari tanpa perlu menonton keseluruhan video.

Selain itu, YouTube juga menggunakan model speech recognition untuk memberikan closed caption atau subtitle pada video. Pemilik video bisa langsung menyematkan subtitle otomatis ini setelah mengunggah videonya ke channel.

Perkembangan algoritma rekomendasi YouTube dari masa ke masa

Berikut adalah rangkuman perkembangan atau momen-momen penting dalam evolusi algoritma sistem rekomendasi YouTube.

  • 2008: peluncuran sistem rekomendasi serta ranking video berdasarkan popularitas.
  • 2011: menghadirkan classifier untuk mengidentifikasi video yang mengandung kekerasan atau rasisme dan mencegahnya masuk rekomendasi.
  • 2012: penambahan variabel watchtime dalam algoritma rekomendasi.
  • 2015: penghapusan rekomendasi “sensasional” dari halaman Home.
  • 2016: mengukur valued watchtime dengan survey dan menggunakan ML untuk memprediksi perilaku pengguna yang tidak mengisi survey; serta mengidentifikasi video yang mengandung konten anak di bawah umur.
  • 2017: meningkatkan peredaran konten berkualitas berupa berita dan informasi yang faktual, terkini, dan terpercaya; serta mengevaluasi model ML untuk memberi keseimbangan rekomendasi konten untuk kaum LGBTQ+.
  • 2019: fokus ke identifikasi “borderline content”, yakni video yang secara teknis tidak melanggar community guideline, namun tetap berbahaya, seperti video teori konspirasi atau berita hoax.
  • 2020-sekarang: mendukung ekosistem tontonan yang sehat serta mendukung para creator untuk menghasilkan konten yang berkualitas yang bisa dinikmati pengguna dengan aman dan nyaman.

Tips agar video kamu masuk dalam algoritma sistem rekomendasi YouTube

Nah, jika kamu ingin video kamu lebih mudah dikenali oleh algoritma dan dimasukkan ke dalam sistem rekomendasi YouTube, berikut adalah beberapa tips yang bisa kamu terapkan:

Keyword research untuk judul dan deskripsi

Algoritma YouTube membaca metadata yang ada pada video kamu. Mulai dari judul, deskripsi, tags, dsb.

Oleh karena itu, penting untuk memperjelas relevansi videomu dengan memberikan keyword yang cocok.

Kamu bisa melakukan riset keyword dengan berbagai cara, seperti dengan Google Trends atau yang paling sederhana, ketikkan keyword-mu di kolom search Youtube dan lihat apa saja yang muncul sebagai sugestinya.

Thumbnail untuk click-through-rate (CTR)

Apabila judul dan deskripsi menentukan relevansi videomu dengan kategori topik tertentu, maka thumbnail menentukan apakah videomu akan diklik atau tidak.

Faktanya, thumbnail lebih dulu menarik perhatian pengguna daripada judul.

Oleh karena itu, pastikan thumbnail-mu bagus dengan mempertimbangkan beberapa poin berikut:

  • Mengandung teks singkat yang deskriptif dan menarik
  • Mengandung gambar ekspresi manusia atau gambar lain yang mengundang keingintahuan penonton

Ekosistem channel

Tujuan utamamu adalah menjaga agar penonton menghabiskan banyak waktu di channel-mu, yakni dengan menjaga kesinambungan antara satu video dengan video-mu yang lainnya.

Untuk mengoptimalkan ini, kamu bisa memanfaatkan fitur playlist, end screen cards, tombol subscription dalam video, link video lain di deskripsi, dan banyak lagi.

Manfaatkan platform lain

Dengan fitur link sharing yang mudah, kamu bisa menyebarluaskan link video atau link channel kamu ke platform lain.

Misalnya seperti media sosial. Bisa jadi kamu memiliki follower yang banyak di Instagram, dan belum banyak subscriber di YouTube. Kamu bisa mengunggah link video YouTube kamu di Instastory, dan mengajak follower-mu di IG untuk menonton konten-mu di YouTube.

Tak hanya itu, kamu juga bisa melakukan kerjasama brand, atau bahkan bekerjasama dengan YouTuber lainnya untuk saling mempromosikan konten.

Engagement dengan penonton

Memposting video saja tidak cukup. Kamu juga harus berinteraksi dengan penonton.

Algoritma YouTube juga menyisir topik pembicaraan dalam bentuk komentar penonton. Dengan sekedar membalas komentar, kamu bisa memantik diskusi yang lebih panjang dan ramai dari penonton videomu.

Semakin tinggi engagement berupa diskusi dan obrolan yang relevan dengan topik video, maka semakin besar juga kesempatan video kamu untuk direkomendasikan, bahkan masuk ke daftar Trending.

Pantau dan ikuti tren

Sebagai platform yang memiliki unsur media sosial, YouTube juga berkembang dengan tren, popularitas, dan hal-hal viral.

Oleh karena itu, sesekali kamu perlu mengintip kolom Trending dan membaca apa yang sedang ramai dibicarakan netizen. Pantau konten apa yang sedang hype, thumbnail  seperti apa yang menjual, dan apa yang ramai dibicarakan di kolom komentar.

Jangan lakukan duplikasi, tapi tidak ada salahnya untuk memproduksi konten serupa dengan gayamu sendiri.


Sekarang kamu sudah tahu bagaimana sistem rekomendasi YouTube bekerja dengan memanfaatkan algoritma machine learning dan data.

Sebagai platform super populer dengan jumlah pengguna yang masif, machine learning dan AI menjadi kunci kesuksesan YouTube dalam memberi kepuasan bagi setiap pengguna, serta untuk mengelola dan memproses data.

Machine learning adalah kunci perkembangan bisnis di masa depan, dan itu dibuktikan dengan jelas oleh YouTube.

Jika kamu tertarik mendalami bidang machine learning, Pacmann punya solusinya.

Kamu bisa belajar end-to-end tentang data science dan AI engineering di Job Preparation Program.

Cek infomarsi lengkapnya di halaman Job Preparation Program Pacmann.

Further reading:

On YouTube’s recommendation system

Breaking Down YouTube’s Recommendation Algorithm

How the YouTube Algorithm Works in 2023: The Complete Guide

How YouTube Uses Artificial Intelligence And Machine Learning