Konferensi Google I/O 2024 didominasi oleh kecerdasan buatan (AI). Google bahkan melontarkan humor dengan menghitung berapa kali mereka menyebut “AI” dalam presentasi utama (sebanyak 121 kali). Dari sekian banyak fitur AI yang diumumkan, Project Astra menjadi yang paling menarik perhatian. Project Astra adalah antarmuka AI multimodal yang bisa dikontrol menggunakan penglihatan dan suara.
Pada konferensi tersebut, Google mendemonstrasikan Project Astra melalui rekaman video. Namun, saya sendiri berkesempatan untuk mencobanya secara langsung selama 10 menit. Kesan saya? Project Astra terlihat keren, namun saya ragu Project Astra bisa menggantikan Google Assistant atau bahkan Gemini klasik di ponsel Android dalam waktu dekat.
Google Tertinggal di Balapan AI
Sejak awal, Google seperti berusaha mengejar ketertinggalan di bidang AI. Begitupun dengan Project Astra. Beberapa hari sebelumnya, OpenAI memperkenalkan GPT-4o, model AI multimodal terbaru yang bisa menangani input visual, audio, dan teks secara simultan. Meskipun fungsionalitas multimodal belum sepenuhnya tersedia di ChatGPT, peningkatan kecepatan dan fitur inti model tersebut sudah aktif di ChatGPT dan API. Meskipun belum menjajal langsung GPT-4o dan antarmuka multimodalnya, saya menduga model OpenAI ini lebih unggul dibanding Project Astra milik Google.
Apa yang Saya Pelajari dari Demo Project Astra
Project Astra saat ini terlihat terbatas, dan peluncuran resminya mungkin masih lama. Demo Project Astra hadir dalam dua varian: Pixel 8 Pro yang menjalankan Astra dan layar sentuh besar dengan kamera dan mikrofon di atasnya yang juga menjalankan Astra. Google mengatakan bahwa tidak ada perangkat keras khusus pada unit demo yang lebih besar – pada dasarnya ini hanyalah versi besar dari Project Astra yang berjalan di smartphone. Setidaknya ada tiga cara untuk berinteraksi dengan Project Astra, yaitu melalui layar sentuh, mikrofon dengan suara Anda, dan melalui kamera.
Bagian terkeren dari demo adalah versi “freeform” Project Astra, di mana Anda bisa berinteraksi dengan antarmuka AI secara bebas dan percakapan. Project Astra memiliki memori, dan saat ini dapat mengingat apa yang dilihat dan didengarnya selama satu menit. Misalnya, ketika ditunjukkan boneka binatang dan diberi tahu nama mereka, Project Astra dapat mengenali jenis anjing apa yang ada di atas meja dan mengingat namanya. Perwakilan Google mengatakan memori AI adalah sesuatu yang sedang diteliti tim mereka, tetapi menambahkan bahwa memori Project Astra kemungkinan dapat ditingkatkan untuk mengingat lebih banyak hal.
Selain komponen freeform, demo Project Astra menyertakan beberapa mini-game untuk memamerkan kemampuan antarmuka AI multimodal. Salah satunya adalah Pictionary, yang seperti bermain game klasik dengan AI. Setelah menggambar sesuatu di layar sentuh, Project Astra akan mencoba menebak apa itu, dan selalu bisa menebaknya dengan tepat. Project Astra tidak selalu langsung mengenalinya, tetapi Project Astra menggunakan percakapan bolak-balik dengan pemain Pictionary menggunakan suara untuk mengetahuinya. Dalam satu contoh, Project Astra dengan tepat menyebutkan film berdasarkan gambar Pictionary setelah menerima instruksi audio. Ini adalah contoh sempurna dari AI multimodal – ia menggunakan penglihatan untuk mendeteksi gambar, audio untuk menerima instruksi pengguna, dan basis pengetahuannya untuk mencocokkan gambar itu dengan jalan cerita film.
Project Astra vs. GPT-4o: Catatan dari Pengembang
Keseluruhan pengalaman Project Astra akan terasa mengesankan jika dibandingkan sendiri, tetapi pencapaiannya terasa kurang inovatif dibanding GPT-4o milik OpenAI atau bahkan demo rekaman Project Astra milik Google sendiri. Di video presentasi Google I/O, Project Astra ditampilkan sebagai antarmuka AI yang lengkap dengan banyak pengetahuan, dan bahkan dapat mendeteksi baris kode dan memberi tahu pengguna fungsinya secara persis.
Namun, pengalaman menggunakan Project Astra secara langsung jauh berbeda dari yang ditampilkan di video. Memang ada beberapa kesamaan, seperti elemen perbandingan visual dan komponen alliteration. Namun, bagian yang benar-benar inovatif dari Project Astra – seperti kemampuan untuk menyebutkan dan menjelaskan bagian tertentu dari speaker atau menganalisis baris kode – tidak ditampilkan dalam demo.
OpenAI dengan percaya diri memamerkan lebih banyak fitur yang berfungsi dibandingkan Google. Seringkali fitur AI yang diumumkan memiliki janji yang muluk-muluk, namun kenyataannya tidak sesuai harapan saat diluncurkan. Oleh karena itu, saya ragu untuk mengatakan bahwa GPT-4o akan secara pasti lebih baik daripada Project Astra. Misalnya, waktu respons Project Astra dalam demo tampak setara dengan waktu respons GPT-4o. Namun, yang bisa saya katakan adalah OpenAI tampaknya lebih unggul dari Google dalam pengembangan antarmuka AI multimodal.