Blog OpenAI Rilis GPT-4: Update Terbaru Menjadi Multimodal Model

OpenAI Rilis GPT-4: Update Terbaru Menjadi Multimodal Model

Maret 15, 2023 3 min read

Sebagai bagian dari langkah mereka dalam penelitian, pengembangan, dan scaling up riset tentang deep learning, OpenAI baru saja merilis GPT-4 yang diintegrasikan ke dalam ChatGPT.

GPT-4 adalah multimodal model, yang artinya model ini juga memahami modalitas lain selain teks.

Kamu dapat memberikan input gambar, grafik, meme, dsb., dan GPT-4 mampu memahaminya dan memberikan respons.

GPT-4 juga punya kemampuan yang sama dengan OCR (Optical Character Recognition), yang mampu mendeteksi tulisan pada gambar. Namun, tidak sampai di situ, model ini juga memahami konteks dari gambar yang di-input.

OpenAI menghabiskan waktu 6 bulan penuh untuk melakukan proses alignment dan iterasi untuk menghasilkan model ini agar:

  • mampu memberikan fakta dengan lebih baik,
  • dapat diarahkan (steerability), dan
  • mampu menolak prompt yang di luar batas (untuk prompt yang sensitif dan abusive).

Capabilities

OpenAI mengklaim GPT-4 lebih dapat diandalkan, kreatif, dan mampu menangani instruksi yang nuanced dan lebih paham konteks dibandingkan pendahulunya.

“GPT-4 can solve difficult problems with greater accuracy, thanks to its broader general knowledge and problem-solving abilities.”

Selain itu, OpenAI juga melakukan simulasi ujian yang awalnya dirancang untuk manusia terhadap kedua model ini.

Hasilnya, GPT-4 perform jauh lebih baik di beberapa jenis ujian dibandingkan GPT-3.5 (model yang digunakan oleh ChatGPT versi sebelumnya).

Exam results performance by GPT-4 compared to GPT-3.5

GPT-4 juga mengungguli kinerja dalam Bahasa Inggris model-model sebelumnya seperti GPT-3.5, Chinchilla, dan PaLM (model buatan Google).

GPT-4 3-shot accuracy on MMLU accross languages

Dan seperti yang disinggung di awal, GPT-4 paham dengan yang namanya meme.

GPT-4 understands meme

Limitation

Limitasi terhadap model ini sebenarnya masih mirip dengan pendahulunya (hal yang umum terhadap machine learning model seperti ini):

  • berhalusinasi
  • make up facts
  • membuat kesalahan penalaran

OpenAI mengingatkan agar tetap berhati-hati saat menggunakan model bahasa, terutama:

  • dalam hal atau konteks yang berisiko tinggi (hindari menyebarkan informasi sensitif ke ChatGPT),
  • tetap harus membutuhkan supervisi manusia, dan
  • harus disesuaikan dengan konteks dan use case masing-masing.

Meskipun limitasi ini masih menjadi masalah nyata, GPT-4 secara signifikan mengurangi halusinasi relatif terhadap model sebelumnya (yang terus meningkat di setiap iterasi).

Skor GPT-4 40% lebih tinggi dari GPT-3.5 pada evaluasi faktualitas yang dilakukan secara internal oleh OpenAI.

Training process

Seperti pada model-model sebelumnya–Pacmann pernah membahas ini di newsletter maupun di Twitter.

GPT-4 dilatih untuk memprediksi kata berikutnya dalam dokumen, dilatih menggunakan publicly available data dan data yang telah dilisensikan oleh OpenAI.

Corpus data untuk melatih GPT-4 ini web-scale, termasuk:

  • solusi yang benar dan salah untuk masalah matematika,
  • penalaran yang lemah dan kuat,
  • pernyataan yang kontradiktif dan konsisten,
  • serta mewakili berbagai macam ideologi dan ide.

Oleh karena itu, model ini berpotensi memberikan jawaban yang konteksnya agak melenceng. Itulah mengapa OpenAI menyempurnakan model ini dengan yang namanya reinforcement learning with human feedback (RLHF).

Masih banyak informasi menarik lainnya tentang model ini. Catatan rilis ChatGPT dapat diakses di sini, dan buat kamu yang ingin mendalami lebih lanjut, kamu bisa cek paper-nya.

Kamu bisa cek halaman produk dari GPT-4 dan bagaimana model ini dimanfaatkan dalam berbagai aplikasi di berbagai industri, termasuk oleh Khan Academy.

Tertarik belajar lebih lanjut tentang machine learning dan ingin deploy model kamu sendiri? Belajar bersama Pacmann di AI and ML Engineering Program.

Further reading:

GPT-4

Imagen: Text to Image Model Buatan Google