Introduction
Le RAG (Retrieval-Augmented Generation) est LA technique dominante pour brancher un LLM sur vos données en 2026. Voici l'architecture exacte utilisée en production par nos clients (santé, legal, finance).
Prérequis
- Python avancé
- Bases LLM + embeddings
- Docker + cloud (AWS/GCP)
- Dataset documentaire 1K-1M documents
Étapes (7)
1. Architecturer le pipeline
Stack minimale 2026 : ingestion (Unstructured.io ou custom) → chunking (LangChain recursive) → embeddings (OpenAI text-embedding-3-large ou Cohere embed-v3) → vector DB (Qdrant self-hosted ou Pinecone) → retrieval (top-k=20) → reranker (Cohere rerank-v3) → LLM (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro).
2. Ingérer et chunker les documents
Unstructured.io gère PDF, Word, PPT, HTML. Chunks : 512-1024 tokens avec 10-20% overlap. Préservez la structure (headers, tables) dans les metadata — essentiel pour retrieval précis. Stockez source + page dans metadata pour citations.
3. Générer les embeddings
text-embedding-3-large (3072 dims, 0.13$/1M tokens) = baseline solide. Alternative open-source : BGE-M3 (multilingue, self-hosted). Batch par 100 textes pour optimiser coûts API. Stockez embeddings en float16 pour diviser storage par 2.
4. Choisir et configurer le vector DB
Qdrant self-hosted (gratuit, docker) pour < 10M vecteurs. Pinecone managed pour scale (10M+). Config : HNSW index (m=16, ef_construct=200). Distance : cosine (best pour embeddings normalisés). Payload indexing sur metadata pour filtres rapides.
5. Implémenter retrieval + reranking
Stage 1 : top-20 vector search rapide. Stage 2 : rerank avec cross-encoder (Cohere rerank ou bge-reranker-v2-m3) → top-5. Gain qualité : +25-40% vs vector search seul. Coût reranker : ~2ms/doc, négligeable.
6. Construire le prompt augmenté
Template : system prompt (rôle + contraintes) + context (top-5 chunks avec sources) + query utilisateur. Demandez citations explicites ([source_1], [source_2]) dans la réponse. Gardez context < 50% de la window LLM (60K tokens max pour GPT-4o 128K).
7. Évaluer et déployer
Évaluation : Ragas (faithfulness, context_relevance, answer_relevance) sur 50-200 Q/R golden set. Déploiement : FastAPI + Redis cache (cache 70% des queries similaires). Coût prod typique : 0.01-0.05€/query. Scale : 10K queries/jour ~ 100-500€/mois.
Astuces de pro
- •Reranking est le plus gros gain qualité pour le moindre coût
- •Caching aggressif sur queries + embeddings divise les coûts par 3-10
- •Citations explicites = confiance utilisateur + débuggage facile
FAQ
RAG vs fine-tuning : que choisir ?
RAG dans 90% des cas : données à jour, sources citables, coût maîtrisé. Fine-tuning seulement pour style/format très spécifique. Les deux combinés = state-of-the-art pour cas critiques.
Coût mensuel d'un RAG production 10K queries/jour ?
Embeddings (one-time + incremental) : 50-200€/mois. Vector DB (Qdrant dédié) : 150-400€/mois. LLM (GPT-4o) : 500-2000€/mois selon context size. Total typique : 800-2500€/mois pour 10K queries/jour.
Pour aller plus loin
Envie d'aller plus loin ?
AI2 forme à l'IA et à la data avec des programmes certifiés RNCP.
Autres guides HowTo
Comment déployer un modèle IA en production en 2026
Méthode éprouvée en 8 étapes pour passer un modèle ML du notebook à la production. MLOps pratique avec Docker, Kubernetes, monitoring.
Comment fine-tuner un LLM personnalisé en 2026
Guide fine-tuning LLM 2026 : LoRA, QLoRA, datasets custom, Hugging Face, déploiement. Créez un modèle adapté à votre cas d'usage en 1 week-end.
Comment créer un agent IA autonome en 2026
Guide agent IA 2026 : LangGraph, AutoGen, CrewAI. Architecture, tools, memory, orchestration multi-agents. Cas d'usage concrets et coûts réels.