Google Meluncurkan Gemini 2.5 Flash

Setelah pengumuman singkat minggu lalu, Google secara resmi meluncurkan Gemini 2.5 Flash dalam versi preview. Inovasi terbaru ini menawarkan “anggaran berpikir” (thinking budget) yang memungkinkan pengembang mengendalikan seberapa banyak penalaran yang dilakukan oleh model, tergantung pada perintah (prompt) dan kasus penggunaan.

Seluruh model dalam keluarga Gemini 2.5 memiliki kemampuan penalaran yang memungkinkan mereka “memikirkan pikiran mereka sebelum merespons” untuk “kinerja yang ditingkatkan dan akurasi yang lebih baik.” Fitur ini sangat ideal untuk perintah yang memerlukan penalaran multi-langkah, seperti masalah matematika dan analisis pertanyaan penelitian.

Alih-alih langsung menghasilkan keluaran (output), model dapat melakukan proses “berpikir” untuk lebih memahami permintaan, memecah tugas kompleks, dan merencanakan responsnya.

Untuk Para Developer:

Model Flash Gemini dikenal karena kecepatannya dan biaya yang lebih rendah. Hal ini tidak berubah dengan 2.5 Flash, tetapi Google memperkenalkan kemampuan penalaran di mana pengembang dapat “mengatur anggaran berpikir untuk mengendalikan biaya versus kualitas.”

Berikut adalah spesifikasi utama untuk Gemini 2.5 Flash dalam versi preview (gemini-2.5-flash-preview-04-17):

Batas Tingkat: 1000 RPM / 10.000 RPD (Tingkat Berbayar), 10 RPM / 500 RPD (Tingkat Gratis)
Batas Pengetahuan: Januari 2025
Modalitas Input: Teks, Gambar, Video, Audio
Modalitas Output: Teks
Jendela Konteks: 1 juta token
Panjang Output Maksimum: 64 ribu token

Secara khusus, pengembang dapat mengendalikan “jumlah token yang dapat dihasilkan model saat berpikir” dari 0 hingga 24.576 token. Terdapat slider di Google AI Studio dan Vertex AI, serta parameter API. Dalam grafik di bawah, Kamu dapat melihat bagaimana kualitas penalaran meningkat seiring dengan peningkatan anggaran.

Jika anggaran berpikir diatur ke nol, model baru ini akan sesuai dengan biaya & latensi 2.0 Flash.

Jika anggaran tidak ditentukan, Gemini 2.5 Flash “secara otomatis memutuskan seberapa banyak berpikir berdasarkan kompleksitas tugas yang dirasakan.” Google memberikan contoh penalaran minimal, sedang, dan tinggi:

Perintah dengan penalaran minimal:

“Terima kasih” dalam bahasa Spanyol
Berapa banyak provinsi yang dimiliki Kanada?

Perintah dengan penalaran sedang:

Kamu melempar dua dadu. Berapa probabilitas jumlahnya 7?
Gym saya memiliki jam buka untuk bola basket antara pukul 9-3 siang pada hari Senin, Rabu, dan Jumat, dan antara pukul 2-8 malam pada hari Selasa dan Sabtu. Jika saya bekerja pukul 9-6 sore 5 hari seminggu dan ingin bermain bola basket 5 jam pada hari kerja, buatkan jadwal agar semuanya berhasil.

Perintah dengan penalaran tinggi:

Dalam konteks agent (agen), contoh lain adalah bagaimana ringkasan cepat akan melibatkan anggaran berpikir yang rendah, sementara analisis mendetail membutuhkan anggaran yang lebih tinggi.

Gemini 2.5 Flash tersedia untuk preview bagi pengembang di Google AI Studio dan Vertex AI. Google mengatakan akan “terus meningkatkan Gemini 2.5 Flash, dengan lebih banyak lagi yang akan datang, sebelum kami membuatnya tersedia secara umum untuk penggunaan produksi penuh.”

Aplikasi Gemini 2.5 Flash (eksperimental) juga hadir di aplikasi Gemini dengan kemampuan untuk secara otomatis menyesuaikan seberapa banyak penalaran yang terjadi berdasarkan kompleksitas prompt. Pengguna akhir tidak mendapatkan penyesuaian manual apa pun di aplikasi.

Saat peluncuran, berbagai kemampuan aplikasi Gemini, seperti aplikasi/Ekstensi, unggah file, dll., didukung, sementara model ini akan menggantikan 2.0 Flash Thinking (eksperimental), yang terakhir diperbarui pada bulan Maret.