Pengamat AI berbahasa Tionghoa, xiaohu, pada 10 Mei membagikan contoh alur kerja yang menggabungkan GPT dan Gemini 3.1 Pro: pertama menggunakan GPT untuk menghasilkan gambar, lalu Gemini 3.1 Pro mengubah gambar tersebut menjadi konten interaktif 3D, yang dapat mengubah topik pengetahuan apa pun menjadi aplikasi ilmiah yang bisa diputar dan dapat dioperasikan. Contoh yang ditunjukkan xiaohu di cuitannya mencakup pameran planet 3D, model sains interaktif, dan lainnya—ini merupakan praktik nyata dari “alur kerja lintas model” (multi-model workflow).
Struktur alur kerja: GPT gambar-ke-bangun → Gemini 3.1 Pro 3D
Desain dua tahap dari seluruh alur kerja:
Tahap satu: gunakan GPT (GPT-image-1 atau gambar generator bawaan di ChatGPT) untuk menghasilkan gambar utama topik serta menyediakan dasar visual
Tahap dua: masukkan gambar ke Gemini 3.1 Pro, lalu Gemini mengubah gambar 2D menjadi konten interaktif 3D
Format keluaran: objek 3D yang bisa diputar, dizoom, dan diinteraksikan langsung di dalam browser
Skenario yang cocok: pendidikan sains, pameran produk, konten pengetahuan interaktif
“Alur kerja lintas model” adalah salah satu tren kunci di lapisan aplikasi AI tahun 2026—bukan lagi satu model saja yang bisa menyelesaikan semuanya. Pengembang merangkai bagian terbaik dari berbagai model untuk membuat aplikasi yang tidak bisa dicapai oleh satu model.
Tampilan spesifik: planet 3D, konten sains interaktif, situs web penjualan robot
Beberapa contoh yang juga dipublikasikan xiaohu secara bersamaan:
Pameran planet 3D: tata surya yang dapat diputar atau model planet tunggal
Konten sains interaktif: mengubah pengetahuan abstrak menjadi visualisasi 3D yang cocok untuk tujuan edukasi
Situs web masa depan mesin penjual otomatis robot: menggunakan GPT untuk menghasilkan gambar, lalu ditambah platform Tripo 3D untuk membuat halaman web yang bersifat pameran
Ciri bersama dari contoh-contoh ini adalah “generasi visual + konversi interaktif”—GPT bertanggung jawab atas visual kreatif, sementara Gemini atau alat 3D lainnya bertanggung jawab untuk mengubah gambar statis menjadi bentuk interaktif yang bisa dioperasikan. Mengambil setiap bagian secara terpisah tidak dianggap baru, tetapi setelah dirangkai, pengalaman akhirnya lebih kuat daripada alat tunggal mana pun.
Makna: alur kerja lintas model secara bertahap menjadi pola pengembangan arus utama
Implikasi spesifik bagi pengembang:
Memilih alat yang tepat lebih penting daripada memilih model paling kuat—GPT kuat di sisi visual, Gemini kuat di pemahaman multimoda, Claude kuat di long context, masing-masing punya “titik manis” sendiri
Biaya integrasi API model menurun, merangkai beberapa model dalam implementasi menjadi layak
Aplikasi tipe baru kemungkinan besar adalah “multi-model pipeline”, bukan sekadar pengembangan dari “model tunggal paling kuat”
Nilai dari kasus ini tidak terletak pada terobosan teknis, melainkan pada templat desain alur kerja
Peristiwa spesifik yang bisa diikuti selanjutnya: apakah kemampuan generasi 3D Gemini 3.1 Pro akan diumumkan Google secara resmi sebagai fitur produk dalam aktivitas berikutnya; apakah alur kerja lintas model akan memperoleh dukungan templat bawaan dalam framework seperti LangChain/LlamaIndex; serta contoh penerapan kasus komersial (misalnya pendidikan, e-commerce, pemasaran) yang spesifik.
Artikel ini yang mendemonstrasikan alur kerja lintas model xiaohu: GPT menghasilkan gambar + Gemini 3.1 Pro mengubahnya menjadi konten interaktif 3D, pertama kali muncul di 鏈新聞 ABMedia.
Artikel Terkait
Alibaba Cloud Meluncurkan Rencana Token Tim dengan 10+ Model Hari Ini
Dongguan Mengirimkan Setengah dari Kacamata AI Global pada 2025
UXLINK Mengintegrasikan Infrastruktur Komputasi AI dari Origins Network untuk Skalabilitas Web3
Tencent Cloud Menggerakkan Layanan Perbankan AI Ryt Bank untuk 50.000 Pengguna pada Hari Peluncuran
Reactor Meluncurkan Demo Model Dunia Real-Time, Mengumpulkan 7,8 Juta Tampilan
Minara Meluncurkan AI Copilot Pasar Prediksi Hyperliquid HIP-4 Pertama Hari Ini