Introduction
Fine-tuner un LLM open-source (Llama 3, Mistral, Qwen) permet de créer un modèle ultra-spécialisé à votre domaine pour 20-100€ de compute. Voici la méthode LoRA/QLoRA qui tourne sur un simple GPU cloud.
Prérequis
- Python + PyTorch maîtrisés
- Compte Hugging Face
- GPU cloud (Colab Pro, Runpod, Lambda) ~1€/h
- Dataset de 500-5000 exemples
Étapes (7)
1. Choisir le modèle de base
2026 best picks : Llama 3.1 8B (polyvalent), Mistral Small 24B (SOTA ratio perf/taille), Qwen 2.5 7B (multilingue fort), Phi-4 14B (raisonnement). Évitez modèles < 3B en production. Licence : vérifiez usage commercial.
2. Construire le dataset
Format JSONL instruction-tuning : { 'instruction': '...', 'input': '...', 'output': '...' }. Visez 500-5000 exemples de haute qualité (curé main > 50K exemples bruits). Split 90/10 train/val. Outils : Argilla, Label Studio, ou simple Google Sheets.
3. Préparer l'environnement
pip install transformers peft accelerate bitsandbytes trl datasets. Runpod A40 48GB ~0.40€/h suffit pour 7B. Colab Pro A100 pour 13B+. Vérifiez que le modèle chargé tient en VRAM (4-bit = ~4 GB pour 7B).
4. Configurer LoRA/QLoRA
QLoRA = quantization 4-bit + LoRA adapters. Config standard : r=16, alpha=32, dropout=0.05, target_modules=['q_proj','v_proj','k_proj','o_proj']. QLoRA divise la VRAM par 4 vs full fine-tuning, qualité quasi équivalente sur 90% des cas.
5. Lancer l'entraînement
Utilisez SFTTrainer de TRL. Hyperparams start : lr=2e-4, batch_size=4 (gradient accumulation 4 pour effective 16), epochs=3, warmup 10%. Monitoring : loss doit descendre smooth. Durée : 2-8h pour 7B sur 1000 exemples.
6. Évaluer le modèle fine-tuné
Test set holdout + évaluation manuelle sur 50 prompts diversifiés. Métriques : BLEU/ROUGE (traduction), accuracy (classification), LLM-as-judge (génération ouverte). Comparez vs base model : amélioration doit être évidente sinon refaites le dataset.
7. Déployer en production
Push sur Hugging Face Hub (adapter LoRA = ~50 MB). Inference : vLLM ou TGI pour prod, Ollama pour local. Coût GPU prod : A10 ~0.80€/h (~600€/mois 24/7). Alternative : inference serverless Replicate/Modal ~0.003€/req.
Astuces de pro
- •Qualité > quantité : 500 exemples parfaits valent mieux que 50K médiocres
- •Commencez petit (7B) avant de scaler (70B coûte 10x plus)
- •Toujours garder le checkpoint base pour comparer
FAQ
Faut-il fine-tuner ou utiliser le RAG ?
RAG d'abord (90% des cas). Fine-tuning si : (a) format de sortie très spécifique, (b) style/ton propriétaire, (c) vocabulaire métier rare, (d) latence critique. Les deux sont complémentaires.
Coût total d'un fine-tuning 7B ?
Dataset curation : 10-40h humain. Compute : 20-80€ (A40 4-8h). Déploiement : 0 si serverless, 500-1500€/mois si dédié. Ordre de grandeur total : 200-500€ pour un modèle custom qui tourne.
Pour aller plus loin
Envie d'aller plus loin ?
AI2 forme à l'IA et à la data avec des programmes certifiés RNCP.
Autres guides HowTo
Comment déployer un modèle IA en production en 2026
Méthode éprouvée en 8 étapes pour passer un modèle ML du notebook à la production. MLOps pratique avec Docker, Kubernetes, monitoring.
Comment construire un système RAG en production en 2026
Guide RAG production 2026 : architecture, embeddings, vector DB (Pinecone/Qdrant), reranking, évaluation, déploiement scalable. Stack complète et coûts réels.
Comment créer un agent IA autonome en 2026
Guide agent IA 2026 : LangGraph, AutoGen, CrewAI. Architecture, tools, memory, orchestration multi-agents. Cas d'usage concrets et coûts réels.