Mengenal Apa itu Gemini, Model AI Terbaru dari Google

Assalamu‘alaikum wr. wb.

Halo gais! Jika sebelumnya, Google telah merilis Bard yang merupakan salah satu Chatbot AI pesaing ChatGPT. Sebulan yang lalu tepat pada Tanggal 6 Desember 2023 (22 Jumadil Awal 1445 H), Google Deepmind telah merilis Model AI terbaru yaitu Gemini, yang merupakan Pesaing dari GPT-4 dari OpenAI. Gemini dibangun dengan berbagai kemampuan termasuk menggeneralisasi dan memahami secara halus, beroperasi secara menyeluruh, dan menggabungkan berbagai jenis Data/Informasi termasuk Teks, Kode, Audio, Gambar, dan Video menggunakan Kecerdasan Buatan.

Mengenal Apa itu Gemini, Model AI Terbaru dari Google

Sumber Artikel : Techcrunch.comThe VergeViva.co.idJawapos.comCNBC Indonesia, dan Tekno.Kompas.com

A. Berita (Prolog)

Google telah meluncurkan model kecerdasan buatan (AI) terbaru bernama Gemini, menandai langkah besar dalam era baru AI menurut CEO Sundar Pichai. Pada konferensi I/O bulan Juni, Pichai pertama kali membocorkan tentang Google Gemini AI, setelah upaya sebelumnya dengan Bard yang tampaknya belum membuahkan hasil.

Gemini, model kecerdasan buatan yang dapat diakses oleh pengguna Google Cloud, memiliki kemampuan untuk menganalisis grafik dan menulis kode pemrograman komputer. Disebutkan bahwa Gemini memiliki kinerja dan kemampuan yang lebih baik dibandingkan dengan GPT-3.5, model AI yang mendasari layanan ChatGPT milik OpenAI. Google merilis Gemini dalam tiga varian, yaitu Gemini Ultra, Gemini Pro, dan Gemini Nano.

Massive Multitask Language Understanding (MMLU) Benchmark [Gemini vs GPT-4]

Gemini Ultra, sebagai model dengan kapasitas terbesar, mampu mengatasi Pemahaman Bahasa dalam berbagai Tugas dalam Jumlah Besar (MMLU). Dalam uji MMLU, Gemini Ultra menunjukkan keunggulan dalam memahami 57 Bidang Ilmu, termasuk Matematika, Fisika, Kimia, Biologi, Ekonomi, Geografi, Sejarah, Hukum, dan Kedokteran. Google mengklaim bahwa Gemini Ultra dapat memahami nuansa dalam subjek yang kompleks.

Sementara itu, Gemini Pro dapat dikembangkan untuk tugas tertentu, dan Gemini Nano dirancang untuk dapat berjalan di perangkat mobile seperti HP. Berbagai potensi penggunaan Gemini melibatkan penyediaan layanan pelanggan canggih melalui chatbot, memberikan rekomendasi produk, mengidentifikasi tren untuk merancang kampanye promosi, membuat konten pemasaran, hingga mendukung produktivitas dengan merangkum hasil rapat dan menulis kode pemrograman komputer.

Pada acara peluncurannya, Google memperlihatkan kemampuan Gemini dalam mengambil tangkapan layar dari grafik dan memperbaiki grafik tersebut setelah melakukan analisis mendalam atas laporan berhalaman-halaman. Selain itu, Gemini juga dapat memfoto lembar PR matematika dan mengidentifikasi jawaban yang benar dan salah.

Gemini mewakili langkah signifikan dalam pengembangan teknologi kecerdasan buatan, menawarkan potensi untuk berbagai aplikasi yang mencakup spektrum luas dari pemahaman bahasa hingga analisis kompleks.

B. Pengertian Google Gemini

Menurut TechcrunchGemini merupakan keluarga model kecerdasan buatan (AI) generatif terbaru dari Google, yang dikembangkan oleh laboratorium riset AI Google, yaitu DeepMind dan Google Research. Keluarga model ini terdiri dari 3 (Tiga) Varian, yaitu :

  • Gemini Ultra, merupakan model unggulan dari keluarga Gemini.
  • Gemini Pro, adalah model Gemini versi "lite", yang tersedia di Gemini API dalam Google AI Studio.
  • Gemini Nano, merupakan model yang lebih kecil dan "distil" yang dapat berjalan pada perangkat mobile seperti Pixel 8 Pro dan Android 14.

Semua model Gemini telah dilatih agar "secara bawaan bersifat multimodal", dengan kata lain, mampu bekerja dengan lebih dari sekadar teks. Mereka telah di-pre-train dan di-fine-tune pada berbagai jenis data Audio, Gambar, dan Video, sejumlah besar kode sumber, serta teks dalam berbagai bahasa.

Hal ini membedakan Gemini dari model-model seperti LaMDA, model bahasa besar milik Google yang hanya dilatih dengan data teks. LaMDA tidak dapat memahami atau menghasilkan apa pun selain teks (misalnya, esai, konsep surat, dan sebagainya) — namun hal ini tidak berlaku untuk model Gemini. Meskipun kemampuannya untuk memahami gambar, audio, dan modalitas lain masih terbatas, namun ini lebih baik daripada tidak ada sama sekali.

C. Perbedaan Google Bard dan Google Gemini

Google sekali lagi menunjukkan kurangnya kejelasan dalam hal branding dengan tidak sepenuhnya menjelaskan perbedaan antara Gemini dan Bard. Bard dijelaskan sebagai antarmuka untuk mengakses beberapa model Gemini, mirip dengan aplikasi atau klien untuk Gemini dan model kecerdasan buatan generatif (gen AI) lainnya. Sebaliknya, Gemini didefinisikan sebagai keluarga model, bukan aplikasi atau antarmuka pengguna. Tidak ada pengalaman Gemini secara mandiri, dan kemungkinan besar tidak akan ada.

Dibandingkan dengan produk OpenAI, Bard setara dengan ChatGPT, sebuah aplikasi kecerdasan buatan percakapan yang populer, sementara Gemini setara dengan model bahasa yang menggerakkannya, seperti GPT-3.5 atau 4. Selain itu, Gemini sepenuhnya independen dari Imagen-2, model teks-ke-gambar yang mungkin atau mungkin tidak sejalan dengan strategi kecerdasan buatan perusahaan secara keseluruhan.

Apa yang bisa dilakukan Gemini?

Gemini, sebagai model multimodal, memiliki potensi untuk melakukan berbagai tugas, termasuk mengetikkan pidato, memberi keterangan pada gambar dan video, hingga menghasilkan karya seni. Walaupun beberapa kemampuannya sudah tersedia dalam bentuk produk, Google berjanji akan menyediakan lebih banyak lagi di masa depan.

Peluncuran Bard awalnya tidak memuaskan, dan video yang mengklaim menunjukkan kemampuan Gemini baru-baru ini dikritik karena sangat dimanipulasi dan lebih bersifat aspirasional daripada representatif. Meskipun Gemini telah tersedia dalam bentuk tertentu, kemampuannya masih terbatas.

D. Jenis-jenis Varian Google Gemini

Meskipun begitu, asumsi bahwa Google lebih atau kurang jujur dengan klaim-klaimnya, berikut adalah kemampuan yang akan dimiliki oleh berbagai tingkatan model Gemini setelah dirilis :

1. Gemini Ultra

Sejauh ini, hanya sejumlah pelanggan "terpilih" melalui beberapa aplikasi dan layanan Google yang telah menguji Gemini Ultra, model "dasar" di atasnya model lain dibangun. Ini tidak akan berubah hingga akhir tahun ini, saat model terbesar Google diluncurkan secara lebih luas. Sebagian besar informasi tentang Ultra berasal dari demonstrasi produk yang dipimpin oleh Google, sehingga sebaiknya diambil dengan hati-hati.

Google mengklaim bahwa Gemini Ultra dapat digunakan untuk membantu hal-hal seperti tugas fisika, menyelesaikan masalah langkah demi langkah dalam lembar kerja, dan menunjukkan kemungkinan kesalahan dalam jawaban yang sudah diisi. Gemini Ultra juga dapat diterapkan pada tugas seperti mengidentifikasi makalah ilmiah yang relevan dengan suatu masalah tertentu, mengekstrak informasi dari makalah tersebut, dan "memperbarui" grafik dari satu dengan menghasilkan rumus yang diperlukan untuk membuat grafik tersebut dengan data yang lebih baru.

Secara teknis, Gemini Ultra mendukung generasi gambar, sebagaimana disebutkan sebelumnya. Namun, kemampuan ini tidak akan masuk ke dalam versi model yang diproduksi pada saat peluncuran, menurut pernyataan Google — mungkin karena mekanismenya lebih kompleks daripada cara aplikasi seperti ChatGPT menghasilkan gambar. Alih-alih memberikan pemicu ke pembuat gambar (seperti DALL-E 3, dalam kasus ChatGPT), Gemini menghasilkan gambar "secara alami" tanpa langkah perantara.

2. Gemini Pro

Berbeda dengan Gemini Ultra, Gemini Pro saat ini tersedia secara publik. Namun, membingungkan, kemampuannya bergantung pada tempat penggunaannya.

Google menyatakan bahwa di Bard, di mana Gemini Pro pertama kali diluncurkan dalam bentuk teks saja, model ini merupakan peningkatan dibandingkan dengan LaMDA dalam hal kemampuan penalaran, perencanaan, dan pemahaman. Sebuah studi independen oleh peneliti dari Carnegie Mellon dan BerriAI menemukan bahwa Gemini Pro memang lebih baik daripada GPT-3.5 milik OpenAI dalam menangani rantai penalaran yang lebih panjang dan kompleks.

Namun, studi tersebut juga menemukan bahwa, seperti semua model bahasa besar, Gemini Pro khususnya mengalami kesulitan dalam masalah matematika yang melibatkan beberapa digit, dan pengguna menemukan banyak contoh penalaran buruk dan kesalahan. Model ini membuat sejumlah kesalahan faktual untuk pertanyaan sederhana seperti siapa yang memenangkan Oscar terbaru. Google telah berjanji untuk melakukan perbaikan, tetapi belum jelas kapan perbaikan tersebut akan dilakukan.

Gemini Pro juga tersedia melalui API di Vertex AI, platform pengembang AI yang sepenuhnya dikelola oleh Google, yang menerima teks sebagai input dan menghasilkan teks sebagai output. Sebuah endpoint tambahan, Gemini Pro Vision, dapat memproses teks dan gambar — termasuk foto dan video — dan menghasilkan teks sejalan dengan model OpenAI GPT-4 dengan Vision.

Dalam Vertex AI, pengembang dapat menyesuaikan Gemini Pro untuk konteks dan kasus penggunaan tertentu menggunakan proses penyetelan halus atau "grounding." Gemini Pro juga dapat terhubung ke API eksternal pihak ketiga untuk melakukan tindakan tertentu.

Pada suatu waktu di "Awal 2024," pelanggan Vertex akan dapat memanfaatkan Gemini Pro untuk menggerakkan agen suara dan obrolan khusus yang dibangun sendiri (misalnya, chatbot). Gemini Pro juga akan menjadi opsi untuk menggerakkan fitur summarization, rekomendasi, dan generasi jawaban dalam Vertex AI, dengan memanfaatkan dokumen-dokumen di berbagai modalitas (misalnya, PDF, gambar) dari berbagai sumber (misalnya, OneDrive, Salesforce) untuk memenuhi pertanyaan.

Di AI Studio, alat berbasis web milik Google untuk pengembang aplikasi dan platform, terdapat alur kerja untuk membuat permintaan bebas, terstruktur, dan obrolan menggunakan Gemini Pro. Pengembang memiliki akses ke kedua endpoint Gemini Pro dan Gemini Pro Vision, dan mereka dapat mengatur suhu model untuk mengontrol rentang kreatif output dan memberikan contoh untuk memberikan instruksi nada dan gaya — serta menyesuaikan pengaturan keamanan.

3. Gemini Nano

Gemini Nano adalah versi yang jauh lebih kecil dari model Gemini Pro dan Ultra, dan cukup efisien untuk dijalankan langsung pada (beberapa) ponsel daripada mengirimkan tugas ke server di tempat lain. Saat ini, Gemini Nano menggerakkan dua fitur pada Pixel 8 Pro: Ringkasan di Recorder dan Balasan Cerdas di Gboard.

Aplikasi Recorder, yang memungkinkan pengguna menekan tombol untuk merekam dan mentranskripsi audio, mencakup ringkasan berbasis Gemini dari percakapan, wawancara, presentasi, dan potongan lainnya yang direkam. Pengguna mendapatkan ringkasan ini bahkan jika mereka tidak memiliki sinyal atau koneksi Wi-Fi yang tersedia — dan sebagai bentuk perlindungan privasi, tidak ada data yang meninggalkan ponsel mereka selama proses tersebut.

Gemini Nano juga ada di Gboard, aplikasi keyboard Google, sebagai pratinjau pengembang. Di sana, ia menggerakkan fitur yang disebut Balasan Cerdas, yang membantu memberikan saran untuk apa yang akan Anda katakan selanjutnya saat berbicara di aplikasi pesan. Fitur ini awalnya hanya bekerja dengan WhatsApp, tetapi akan hadir di lebih banyak aplikasi pada tahun 2024, kata Google.

E. Gemini vs GPT-4

Apakah Gemini lebih baik daripada GPT-4 OpenAI?

Tidak mungkin mengetahui seberapa efektif keluarga Gemini ini sampai Google merilis Ultra nanti tahun ini, tetapi perusahaan telah mengklaim adanya perbaikan pada teknologi terkini — yang biasanya diwakili oleh GPT-4 milik OpenAI.

Google beberapa kali menonjolkan superioritas Gemini dalam berbagai uji kinerja, menyatakan bahwa Gemini Ultra melampaui hasil terkini pada "30 dari 32 benchmark akademis yang luas digunakan dalam penelitian dan pengembangan model bahasa besar." Perusahaan tersebut mengklaim bahwa Gemini Pro, di sisi lain, lebih mampu dalam tugas seperti merangkum konten, berpikir kreatif, dan menulis dibandingkan dengan GPT-3.5.

Namun, meskipun meninggalkan pertanyaan apakah benchmark benar-benar menunjukkan model yang lebih baik, skor yang diacu oleh Google tampaknya hanya sedikit lebih baik dari model-model yang sesuai milik OpenAI. Dan — seperti yang disebutkan sebelumnya — beberapa kesan awal tidak begitu baik, dengan pengguna dan akademisi menunjukkan bahwa Gemini Pro cenderung memberikan informasi dasar yang salah, kesulitan dalam terjemahan, dan memberikan saran koding yang kurang baik.


Untuk selengkapnya mengenai Google Gemini, silakan lihat di sini.

Terima Kasih 😄😊👌👍 :)

Wassalammu‘alaikum wr. wb.

Post a Comment

Previous Post Next Post