Introduction
Passer un modèle du notebook à la production casse 70% des projets ML. Voici la méthode industrielle 2026 qui permet de réussir le passage.
Prérequis
- Modèle ML entraîné et testé (scikit-learn, PyTorch, etc.)
- Bases Docker + Git
- Cloud account (AWS, GCP ou Azure) — free tier suffit
Étapes (8)
1. Sauvegarder le modèle proprement
Pickle pour scikit-learn, torch.save pour PyTorch, SavedModel pour TensorFlow. Ajoutez versioning : `model_v1.2.0.pkl` avec hash du training data. MLflow est la référence 2026.
2. Créer l'API d'inférence
FastAPI en Python : endpoint POST /predict qui prend les features en JSON, charge le modèle, renvoie la prédiction. Validation via Pydantic. Latence cible < 200 ms.
3. Containeriser avec Docker
Dockerfile minimal avec python:3.11-slim + requirements.txt + votre code. Taille image cible < 500 MB. Multi-stage build pour optimiser.
4. Tester localement
`docker build && docker run`. Vérifier endpoint /predict via curl ou Postman. Test de charge basique avec ab ou wrk : 100 req/s minimum pour un petit modèle.
5. Déployer sur cloud
Options : (a) Cloud Run / Lambda (serverless, $0 si pas de trafic), (b) ECS / GKE (Kubernetes, pour scale), (c) SageMaker / Vertex AI (managed ML). Commencer simple = Cloud Run ou Lambda.
6. Mettre en place le monitoring
Prometheus + Grafana pour métriques système (latence, erreurs). MLflow ou Evidently pour drift de données et model performance. Alertes si latence > 1s ou accuracy drop > 5%.
7. CI/CD automatisé
GitHub Actions : à chaque merge sur main → tests + build Docker + deploy. Infrastructure as code : Terraform pour les ressources cloud. Rollback automatique si health check échoue.
8. Re-entraîner régulièrement
Scheduled job (Airflow, Cloud Scheduler) qui re-entraîne le modèle hebdomadairement/mensuellement sur données fraîches. A/B test le nouveau modèle avant rollout 100%.
Astuces de pro
- •Commencez par déployer un modèle simple même moyen — vaut mieux itérer sur la prod qu'attendre la perfection
- •L'inférence est le goulot : cache Redis les requêtes fréquentes, batch les prédictions si possible
- •Logs structurés (JSON) dès le début — indispensable pour debug en prod
FAQ
Cloud Run vs SageMaker : lequel choisir ?
Cloud Run : moins cher, plus flexible, requiert plus de config. SageMaker : managed complet, monitoring inclus, plus cher mais gain de temps énorme.
Combien ça coûte d'avoir un modèle en prod ?
Modèle léger (< 500 MB) Cloud Run faible trafic : 0-50 €/mois. Modèle lourd (LLM custom) GKE haute dispo : 500-5000 €/mois. Budget selon trafic + taille.
Pour aller plus loin
Envie d'aller plus loin ?
AI2 forme à l'IA et à la data avec des programmes certifiés RNCP.
Autres guides HowTo
Comment fine-tuner un LLM personnalisé en 2026
Guide fine-tuning LLM 2026 : LoRA, QLoRA, datasets custom, Hugging Face, déploiement. Créez un modèle adapté à votre cas d'usage en 1 week-end.
Comment construire un système RAG en production en 2026
Guide RAG production 2026 : architecture, embeddings, vector DB (Pinecone/Qdrant), reranking, évaluation, déploiement scalable. Stack complète et coûts réels.
Comment créer un agent IA autonome en 2026
Guide agent IA 2026 : LangGraph, AutoGen, CrewAI. Architecture, tools, memory, orchestration multi-agents. Cas d'usage concrets et coûts réels.