Blog Imagen: Text to Image Model Buatan Google

Imagen: Text to Image Model Buatan Google

Maulana Juni 11, 2022 5 min read

Google baru saja mengumumkan hasil penelitian terbaru mereka yaitu Imagen.

Apa itu Imagen?

Imagen adalah text to image model yang mampu menerjemahkan teks menjadi gambar.

Sederhananya, Imagen menggunakan pre-trained language model sebagai text encoder.

Kemudian, diffusion models mengubah kata-kata user menjadi gambar.

Imagen Explanation Diagram

Dengan USP (Unique Selling Point) yang berbunyi “unprecedented photorealism × deep level of language understanding”, Google merilis text to image model terbarunya ini.

Imagen mirip dengan DALL-E 2 (text to image model buatan Open AI) yang baru-baru ini juga ramai dibincangkan di internet.

Lewat hasil penelitian yang dipublikasikan di arXiv dengan judul “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, Google mengklaim bahwa hasil dari model mereka lebih baik dari yang dimiliki Open AI.

Google juga mengklaim bahwa model mereka memberikan “fotorealisme yang belum pernah terjadi sebelumnya dengan pemahaman bahasa yang mendalam.”

Saat ini, Google sudah mulai merilis informasi umum tentang model ini beserta dengan update-nya.

Kamu bisa cek rilis resminya di sini.

Keunggulan Imagen Dibandingkan dengan DALL-E

Human raters on DrawBench chart

Berdasarkan penilaian panelis yang dirilis di halaman resminya, Imagen unggul dalam banyak hal:

  1. Berdasarkan evaluasi manusia (side by side).
  2. Uji secara sistematis untuk komposisi, hubungan spasial, pemahaman terhadap teks yang panjang, pemahaman terhadap kata-kata yang jarang digunakan, dan petunjuk atau prompts yang kompleks.
  3. Penyelarasan gambar-teks dan konteks gambar yang dihasilkan–para panelis lebih menyukai Imagen daripada model lain yang diuji (VQ-GAN, LDM, dan DALL-E).

Highlights Hasil Penelitian Imagen

Beberapa highlight hasil proyek penelitian selama bertahun-tahun ini adalah:

  1. Large pretrained frozen text encoders sangat efektif digunakan dalam pengembangan text-to-image model.
  2. Pengembangan (scaling) ukuran pretrained text encoder lebih penting dan lebih efektif dilakukan dibandingkan dengan melakukan pengembangan pada ukuran diffusion model.
  3. Google memperkenalkan ambang batas (threshold) baru pada diffusion sampler, memungkinkan penggunaan classifier-free guidance yang sangat besar.
  4. Google juga menemukan arsitektur U-Net baru yang efisien, lebih hemat komputasi, lebih hemat memori, dan lebih cepat.
  5. Di COCO, Google mencapai nilai FID baru sebesar 7,27; dan panelis menganggap sampel Imagen setara dengan gambar referensi.

Hal ini menjadikan kompetisi dalam pengembangan AI semakin kompetitif (atau mungkin menjadi semakin kolaboratif) antara Google dan Open AI.

Tujuan Utama Pengembangan AI

Open AI punya misi untuk mengembangkan general intelligence–cukup jauh jika dibandingkan dengan Google yang hanya ingin menyusun informasi di dunia dengan menyiapkan informasi yang berkualitas dan menyampaikannya secara akurat kepada user dengan bantuan AI.

Sampai saat ini kedua model ini belum dirilis ke publik, mengingat masih banyak PR tentang etik penggunaannya serta untuk menghindari bias dan penyalahgunaan source code.

Open AI sendiri hanya memberikan akses kepada mereka yang telah mendaftarkan diri ke waitlist.

Berikut beberapa contoh hasil karya Imagen,

A wall in a royal castle image generated by Imagen

A wall in a royal castle. There are two paintings on the wall. The one on the left a detailed oil painting of the royal raccoon king. The one on the right a detailed oil painting of the royal raccoon queen.

Teddy bears swimming at the Olympics 400m Butterfly event generated by Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.

A single beam of light enter the room from the ceiling image generated by Imagen

A single beam of light enter the room from the ceiling. The beam of light is illuminating an easel. On the easel there is a Rembrandt painting of a raccoon.

A chrome-plated duck with a golden beak arguing with an angry turtle in a forest picture generated by Imagen

A chrome-plated duck with a golden beak arguing with an angry turtle in a forest.

Tertarik belajar tentang AI dan modeling?

Kamu bisa belajar tentang dasar image dan text processing di Sekolah Data: Business Intelligence dan Data Science Pacmann.

Program ini membahas pengetahuan dan praktik yang dibutuhkan oleh seorang data scientist secara end to end, mulai dari teori dasar, sampai dengan pengembangan model–lead to machine learning.

Cek info programnya di halaman Non-Degree Data Science Program.