Published November 11, 2025

Retrieval-Augmented Generation

RAG adalah teknik untuk meretrieve informasi yang akurat dari konteks yang diberikan. LLM punya limitasi, yaitu akses ke knowledge dan konteks yang terbatas. LLM mempunyai context window yang terbatas, jadi kita tidak bisa secara langsung memasukkan semua knowledgenya ketika inference.

Jadi, agar LLM dapat memberikan respon yang lebih baik, kita seharusnya hanya memberikan knowledge yang sesuai dengan query yang diberikan oleh user.

Beberapa metode RAG

Ada beberapa metode untuk melakukan RAG:

2-steps RAG

Cara paling simpel untuk melakukan RAG adalah dengan step ini:

User bertanya
Ambil relevant context dari vector database
Generate jawaban
Return jawaban ke user

Agentic RAG

Jika di 2-steps RAG kita meretrieve langsung informasi dari vector database, pada agentic RAG ini kita hanya membuat vector search itu sebagai sebuah tool yang dapat digunakan. Stepnya adalah begini:

User bertanya
Kirim ke LLM, apakah LLM itu membutuhkan external knowledge?
Jika iya, maka LLM memanggil tool untuk mendapatkan external knowledge tersebut (vector search).
Jika tidak, maka LLM langsung memberikan jawaban dari knowledge yang sudah dipunyai.

Hybrid RAG

Ada sebuah problem yang dapat ditemukan ketika kita mengimplementasikan 2-steps RAG, dimana teks pertanyaan tersebut tidak selalu semantically similar dengan knowledge yang kita punya. Jadi, pada Hybrid RAG ini, kita merefine query kita dengan LLM sampai LLM dapat mereturn informasi yang akurat.

Jadi stepnya adalah:

User bertanya
Pertanyaan user tersebut dienhance agar dapat mendapatkan knowledge yang lebih akurat di vector search
Apakah knowledgenya sufficient? Jika iya, maka generate answer. Jika tidak, maka balik ke nomor 2 sampai knowledgenya sufficient.
Generate answer.
Jika jawabannya memuaskan, return ke user. Jika tidak, cari approach lain (browser search tool, dll).

Contoh

Jadi, let’s say kita ingin membuat AI chat app dengan knowledge tertentu (contoh: hukum dan pasal-pasal indonesia). Step yang akan dilakukan untuk membuat aplikasi tersebut adalah:

Kumpulkan semua data hukum dan pasal-pasal di Indonesia. Semakin banyak semakin baik. Bisa didapatkan melalui cara apapun (scraping atau minta data ke suatu pihak)
Load semua document tersebut
Split ke banyak chunks
Ubah setiap chunk tersebut jadi embeddings.
Simpan ke vector store

Ketika user bertanya:

Vector search dari pertanyaan yang diberikan untuk mendapatkan relevant information
Pass knowledgenya ke LLM
Return jawaban ke user