Alat baru optimasi data AI perusahaan Blockify, disusun dan dipromosikan oleh akshay_pachaar pada 9 Mei, mengklaim bahwa dalam proses RAG (Retrieval-Augmented Generation), alat ini dapat mengompresi basis data perusahaan 40 kali, menurunkan penggunaan token kueri 3 kali, dan meningkatkan akurasi pencarian berbasis vektor 2,3 kali. Penjelasan resmi GitHub Blockify menyebutkan: produk diluncurkan oleh Iternal Technologies, menggunakan struktur unit pengetahuan terstruktur “IdeaBlock” untuk menggantikan chunking tradisional, serta menjaga basis pengetahuan tetap ringkas, konsisten, dan dapat dikelola melalui penggabungan de-duplikasi.
Konsep inti: mengganti chunking tradisional dengan IdeaBlock
Rancangan teknis Blockify:
Pendekatan tradisional: memotong dokumen panjang menjadi chunk berukuran tetap, menyematkan vektor, lalu mengambil top-k saat melakukan pencarian
Pendekatan Blockify: mengubah konten mentah menjadi IdeaBlock—unit pengetahuan terstruktur berbasis XML
Setiap IdeaBlock berisi: pertanyaan bawaan, jawaban tepercaya, tag, entitas, kata kunci
IdeaBlock yang serupa otomatis dihapus duplikasinya dan digabung, sehingga basis pengetahuan tidak membengkak seiring pertumbuhan konten
Masalah chunking tradisional adalah informasi yang sama dapat muncul berulang di beberapa chunk, menyebabkan redundansi pada hasil pencarian dan pemborosan token; IdeaBlock meningkatkan kepadatan informasi melalui de-duplikasi, dengan konten yang sama diekspresikan menggunakan ruang penyimpanan yang lebih kecil.
Manfaat spesifik: kompresi 40 kali, token turun 3 kali, akurasi naik 2,3 kali
Indikator manfaat spesifik yang dipublikasikan Blockify:
Kompresi data: basis data perusahaan menyusut menjadi sekitar 2,5% dari ukuran semula (kompresi 40 kali), mempertahankan lebih dari 99% informasi
Token per kueri: dari sekitar 303 (chunk tradisional) turun menjadi sekitar 98 (IdeaBlock)—efisiensi 3,09 kali
Akurasi pencarian vektor: meningkat 2,29 kali
Peningkatan akurasi keseluruhan: sekitar 78 kali (termasuk efek gabungan de-duplikasi dan perbaikan pencarian)
Simulasi penghematan biaya: 100 juta kueri/tahun, menghemat biaya token sekitar 738 ribu dolar AS
Peningkatan akurasi keseluruhan 78 kali adalah efek komprehensif—de-duplikasi mengurangi noise, konten terstruktur IdeaBlock ramah untuk pencarian berbasis vektor, jumlah token untuk jawaban sekali jalan turun sekaligus mengurangi ruang model untuk melakukan kesalahan.
Cakupan integrasi: LlamaIndex, LangChain, Milvus, Cloudflare, dan kerangka kerja arus utama lainnya
Alat pengembang dan infrastruktur yang sudah terintegrasi dengan Blockify:
Kerangka kerja RAG: LlamaIndex, LangChain
Manajemen pengetahuan: Obsidian
Basis data vektor: Milvus, Elastic, Supabase
Komputasi tepi: Cloudflare
Integrasi low-code: n8n (melalui template workflow)
Strategi integrasi Blockify adalah “tidak menggantikan kerangka RAG yang sudah ada, melainkan sebagai lapisan optimasi data di depan”. Pengembang dapat mengganti langkah chunking yang semula dengan Blockify di dalam alur LlamaIndex atau LangChain yang sudah ada, sementara alur lainnya tetap.
Peristiwa spesifik yang bisa ditindaklanjuti: pertumbuhan jumlah bintang GitHub Blockify dan tingkat adopsi komunitas, apakah Iternal Technologies akan mengajukan atau mengungkap rincian teknis terkait struktur IdeaBlock (saat ini menonjolkan “patented ingestion”), serta apakah kerangka RAG arus utama akan membenamkan logika de-duplikasi serupa sebagai fitur bawaan default.
Artikel ini tentang Blockify yang mengubah enterprise RAG: menggunakan IdeaBlock alih-alih chunking, mengompresi 40 kali, dan token turun 3 kali pertama kali muncul di 鏈新聞 ABMedia.
Artikel Terkait
Alibaba Cloud Meluncurkan Rencana Token Tim dengan 10+ Model Hari Ini
Dongguan Mengirimkan Setengah dari Kacamata AI Global pada 2025
UXLINK Mengintegrasikan Infrastruktur Komputasi AI dari Origins Network untuk Skalabilitas Web3
Tencent Cloud Menggerakkan Layanan Perbankan AI Ryt Bank untuk 50.000 Pengguna pada Hari Peluncuran
Reactor Meluncurkan Demo Model Dunia Real-Time, Mengumpulkan 7,8 Juta Tampilan
Minara Meluncurkan AI Copilot Pasar Prediksi Hyperliquid HIP-4 Pertama Hari Ini