Assalamu‘alaikum wr. wb.
Halo gais! Dua minggu yang lalu pada Tanggal 13 Mei 2024 (5 Dzulqa'dah 1445 H), OpenAI telah merilis Model AI yang bernama GPT-4o yang merupakan Peningkatan dari GPT-4 untuk ChatGPT. Sehingga, Pengguna ChatGPT Gratisan bisa mencicipi Fitur-fitur ChatGPT Plus (Berbayar) seperti Input Audio, Gambar, dan Video.
Sumber Artikel : Datacamp.com (Blog), Blog.Roboflow.com, Builtin.com, Techtarget.com, Gadget.Viva.co.id, Eraspace.com, dan Kompas.com
OpenAI secara resmi mengumumkan peluncuran model kecerdasan buatan generatif terbaru mereka, GPT-4o, pada Senin (13/5/2024 | 15/11/1445). Model ini menawarkan berbagai fitur premium yang memperbaiki kinerja dan penggunaan dibandingkan pendahulunya, GPT-4.
Dalam pengumuman GPT-4o, OpenAI menekankan kemampuan model untuk "interaksi manusia-komputer yang jauh lebih alami". Dalam artikel ini, kita akan membahas apa itu GPT-4o, bagaimana perbedaannya dengan model sebelumnya, mengevaluasi kinerjanya, dan kasus penggunaan untuk GPT-4o.
GPT-4o adalah iterasi utama ketiga dari model multimodal besar yang populer dari OpenAI, GPT-4, yang memperluas kemampuan GPT-4 dengan Visi. Model yang baru dirilis ini mampu berbicara, melihat, dan berinteraksi dengan pengguna secara terpadu dan mulus, lebih dari versi sebelumnya saat menggunakan antarmuka ChatGPT.
A. Pengertian GPT-4o
Apa itu GPT-4o?
GPT-4o dari OpenAI, dengan "o" yang berarti omni (berarti 'semua' atau 'universal'), diumumkan dan didemonstrasikan secara langsung pada 13 Mei 2024 (15 Dzulqa'dah 1445 H). Ini adalah model multimodal dengan kemampuan input dan output teks, visual, dan audio, yang dibangun di atas iterasi sebelumnya dari model GPT-4 dengan Visi, GPT-4 Turbo. Kekuatan dan kecepatan GPT-4o berasal dari menjadi model tunggal yang menangani berbagai modalitas. Versi GPT-4 sebelumnya menggunakan beberapa model dengan tujuan tunggal (suara ke teks, teks ke suara, teks ke gambar) yang menciptakan pengalaman yang terfragmentasi saat beralih antara model untuk tugas yang berbeda.
Dibandingkan dengan GPT-4T, OpenAI mengklaim bahwa GPT-4o dua kali lebih cepat, 50% lebih murah untuk token input ($5 per juta) dan token output ($15 per juta), dan memiliki lima kali batas laju (hingga 10 juta token per menit). GPT-4o memiliki jendela konteks sebesar 128K dan memiliki batas pengetahuan hingga Oktober 2023. Beberapa kemampuan baru saat ini tersedia secara online melalui ChatGPT, melalui aplikasi ChatGPT di perangkat desktop dan mobile, melalui API OpenAI (lihat catatan rilis API), dan melalui Microsoft Azure.
B. Fitur-fitur GPT-4o
Apa yang Baru di GPT-4o?
Meskipun demo peluncuran hanya menunjukkan kemampuan visual dan audio dari GPT-4o, blog rilisnya berisi contoh-contoh yang melampaui kemampuan GPT-4 sebelumnya. Seperti pendahulunya, GPT-4o memiliki kemampuan teks dan visi, tetapi GPT-4o juga memiliki kemampuan pemahaman dan generasi asli di semua modalitas yang didukungnya, termasuk video.
Sebagaimana yang disoroti oleh Sam Altman dalam blog pribadinya, kemajuan yang paling menarik adalah kecepatan model ini, terutama ketika berkomunikasi dengan suara. Ini adalah pertama kalinya ada penundaan hampir nol dalam respons, sehingga Anda dapat berinteraksi dengan GPT-4o mirip dengan bagaimana Anda berinteraksi dalam percakapan sehari-hari dengan orang lain.
Kurang dari setahun setelah merilis GPT-4 dengan Visi (lihat analisis kami tentang GPT-4 dari September 2023), OpenAI telah membuat kemajuan yang berarti dalam hal kinerja dan kecepatan yang tidak boleh Anda lewatkan.
Evaluasi Teks GPT-4o
Untuk teks, GPT-4o menampilkan skor yang sedikit lebih baik atau serupa dibandingkan dengan model multimodal besar (LMM) lainnya seperti iterasi GPT-4 sebelumnya, Claude 3 Opus dari Anthropic, Gemini dari Google, dan Llama3 dari Meta, menurut hasil benchmark yang dirilis oleh OpenAI sendiri.
Perlu dicatat bahwa dalam hasil benchmark evaluasi teks yang disediakan, OpenAI membandingkan varian 400b dari Llama3 milik Meta. Pada saat publikasi hasil tersebut, Meta belum menyelesaikan pelatihan model varian 400b-nya.
Sumber : Blog.Roboflow.com |
Apa yang Dapat Dilakukan GPT-4o?
Pada saat peluncurannya, GPT-4o adalah model OpenAI yang paling mampu dalam hal fungsionalitas dan performa.
Banyak hal yang dapat dilakukan oleh GPT-4o meliputi :
- Interaksi Realtime. Model GPT-4o dapat terlibat dalam percakapan Verbal Realtime tanpa penundaan yang terlihat.
- Tanya jawab berbasis pengetahuan. Seperti halnya dengan semua model GPT-4 sebelumnya, GPT-4o telah dilatih dengan basis pengetahuan dan mampu merespons pertanyaan.
- Ringkasan dan pembuatan teks. Seperti halnya dengan semua model GPT-4 sebelumnya, GPT-4o dapat melakukan tugas-tugas LLM teks umum termasuk meringkas dan membuat teks.
- Penalaran dan pembuatan multimodal. GPT-4o mengintegrasikan teks, suara, dan visual ke dalam satu model, memungkinkan untuk memproses dan merespons kombinasi jenis data. Model ini dapat memahami audio, gambar, dan teks dengan kecepatan yang sama. Model ini juga dapat menghasilkan respons melalui audio, gambar, dan teks.
- Pemrosesan bahasa dan audio. GPT-4o memiliki kemampuan lanjutan dalam menangani lebih dari 50 bahasa berbeda.
- Analisis sentimen. Model ini memahami sentimen pengguna di berbagai modalitas teks, audio, dan video.
- Nuansa suara. GPT-4o dapat menghasilkan ucapan dengan nuansa emosional. Ini membuatnya efektif untuk aplikasi yang memerlukan komunikasi sensitif dan bernuansa.
- Analisis konten audio. Model ini dapat menghasilkan dan memahami bahasa yang diucapkan, yang dapat diterapkan dalam sistem yang diaktifkan suara, analisis konten audio, dan penceritaan interaktif.
- Terjemahan waktu nyata. Kemampuan multimodal GPT-4o dapat mendukung terjemahan waktu nyata dari satu bahasa ke bahasa lain.
- Pemahaman dan penglihatan gambar. Model ini dapat menganalisis gambar dan video, memungkinkan pengguna mengunggah konten visual yang akan dipahami, dijelaskan, dan dianalisis oleh GPT-4o.
- Analisis data. Kemampuan penglihatan dan penalaran dapat memungkinkan pengguna untuk menganalisis data yang terdapat dalam grafik data. GPT-4o juga dapat membuat grafik data berdasarkan analisis atau permintaan.
- Unggahan file. Di luar batasan pengetahuan, GPT-4o mendukung unggahan file, memungkinkan pengguna menganalisis data spesifik untuk analisis.
- Memori dan kesadaran kontekstual. GPT-4o dapat mengingat interaksi sebelumnya dan mempertahankan konteks selama percakapan yang lebih panjang.
- Jendela konteks besar. Dengan jendela konteks yang mendukung hingga 128.000 token, GPT-4o dapat mempertahankan koherensi selama percakapan atau dokumen yang lebih panjang, membuatnya cocok untuk analisis yang mendetail.
- Mengurangi halusinasi dan meningkatkan keamanan. Model ini dirancang untuk meminimalkan pembuatan informasi yang salah atau menyesatkan. GPT-4o mencakup protokol keamanan yang ditingkatkan untuk memastikan keluaran yang tepat dan aman bagi pengguna.
GPT-4o is truly remarkable on 18th handwriting. I gave it the following letter and asked it for a transcription. A couple of very minor errors…amazing! pic.twitter.com/3JevZvd5p5
— Generative History (@HistoryGPT) May 14, 2024
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
Pemahaman Visual GPT-4o
Meskipun kemampuan pemahaman visual sudah sangat canggih di iterasi sebelumnya, GPT-4o telah ditingkatkan lebih jauh, mencapai tingkat terdepan dalam berbagai benchmark pemahaman visual dibandingkan dengan GPT-4T, Gemini, dan Claude. Roboflow menyelenggarakan serangkaian evaluasi pemahaman visual yang lebih informal, lihat hasil dari kasus penggunaan visi dunia nyata untuk model multimodal besar open source.
Meskipun kemampuan OCR GPT-4o tidak dipublikasikan oleh OpenAI, kami akan mengevaluasinya nanti di artikel ini.
C. Contoh Penggunaan GPT-4o
Seiring OpenAI terus mengembangkan kemampuan GPT-4 dan persiapan rilis GPT-5, berbagai penggunaan teknologi ini akan berkembang secara eksponensial. Rilis GPT-4 memudahkan klasifikasi dan penandaan gambar, meskipun model open source CLIP dari OpenAI juga memberikan hasil serupa dengan biaya yang lebih rendah. Dengan penambahan kemampuan visual, GPT-4 bisa digabungkan dengan model lain dalam rangkaian komputer visi, yang menciptakan peluang untuk meningkatkan model open source dengan GPT-4, menghasilkan aplikasi kustom yang lebih lengkap menggunakan visi.
Beberapa elemen kunci dari GPT-4 membuka serangkaian kasus penggunaan baru yang sebelumnya tidak mungkin dilakukan, dan semua ini tidak ada hubungannya dengan peningkatan kinerja model pada tolok ukur. Blog pribadi Sam Altman menyatakan niat mereka dengan jelas untuk "Menciptakan AI dan kemudian orang lain akan menggunakannya untuk menciptakan berbagai hal menakjubkan yang kita semua dapatkan manfaatnya." Jika tujuan OpenAI adalah terus menurunkan biaya dan meningkatkan kinerja, bagaimana hal itu akan berkembang?
Mari kita pertimbangkan beberapa kasus penggunaan baru.
1. Kasus Penggunaan Visi Komputer Waktu Nyata
Peningkatan kecepatan yang baru dipadukan dengan kemampuan visual dan audio akhirnya membuka kasus penggunaan waktu nyata untuk GPT-4, yang sangat menarik untuk kasus penggunaan visi komputer. Menggunakan tampilan waktu nyata dari dunia sekitar Anda dan bisa berbicara dengan model GPT-4o berarti Anda bisa dengan cepat mengumpulkan informasi dan membuat keputusan. Ini berguna untuk segala hal mulai dari navigasi hingga terjemahan, instruksi terpandu, hingga memahami data visual yang kompleks.
Berinteraksi dengan GPT-4o pada kecepatan yang sama seperti berinteraksi dengan manusia yang sangat cakap berarti lebih sedikit waktu mengetik teks kepada AI dan lebih banyak waktu berinteraksi dengan dunia sekitar Anda saat AI memenuhi kebutuhan Anda.
2. Kasus Penggunaan Multimodal pada Satu Perangkat
Memungkinkan GPT-4o berjalan di perangkat untuk desktop dan mobile (dan jika tren ini berlanjut, perangkat yang dapat dikenakan seperti Apple VisionPro) memungkinkan Anda menggunakan satu antarmuka untuk memecahkan banyak tugas. Alih-alih mengetik teks untuk meminta jawaban, Anda dapat menunjukkan layar desktop Anda. Alih-alih menyalin dan menempelkan konten ke dalam jendela ChatGPT, Anda dapat menyampaikan informasi visual sambil sekaligus mengajukan pertanyaan. Ini mengurangi perpindahan antara berbagai layar dan model serta persyaratan pemintaan untuk menciptakan pengalaman yang terintegrasi.
Model multimodal tunggal GPT-4o menghilangkan gesekan, meningkatkan kecepatan, dan menyederhanakan koneksi input perangkat Anda untuk mengurangi kesulitan berinteraksi dengan model.
3. Aplikasi Umum di Perusahaan
Dengan modalitas tambahan yang terintegrasi ke dalam satu model dan peningkatan kinerja, GPT-4o cocok untuk aspek tertentu dari pipeline aplikasi perusahaan yang tidak memerlukan penyesuaian pada data khusus. Meskipun jauh lebih mahal daripada menjalankan model sumber terbuka, performa yang lebih cepat membawa GPT-4o lebih dekat untuk menjadi berguna saat membangun aplikasi visi khusus.
Anda dapat menggunakan GPT-4o di tempat model sumber terbuka atau model yang disesuaikan belum tersedia, dan kemudian menggunakan model khusus Anda untuk langkah-langkah lain dalam aplikasi Anda untuk meningkatkan pengetahuan GPT-4o atau mengurangi biaya. Ini berarti Anda dapat dengan cepat memulai prototipe alur kerja yang kompleks dan tidak terhambat oleh kemampuan model untuk banyak kasus penggunaan.
Untuk melihat selengkapnya terkait GPT-4o dari OpenAI, silakan lihat di sini. Dan untuk membaca Artikel sebelumnya tentang GPT-4, silakan lihat di sini.
Nantinya tidak hanya OpenAI saja yang menggunakan GPT-4o pada ChatGPT, tapi Microsoft juga akan menggunakan GPT-4o pada Copilot.
Terima Kasih 😄😊👌👍 :)
Wassalammu‘alaikum wr. wb.