Introduction
Entraîner son premier modèle de machine learning est un moment clé. Voici comment passer de zéro à 3 modèles déployés en un week-end, avec un dataset simple.
Prérequis
- Python + pandas installés
- Notions de base Python (variables, fonctions)
- Dataset CSV simple (ex: Titanic, Iris, Boston Housing)
Étapes (8)
1. Charger et explorer le dataset
Avec pandas, chargez votre CSV, regardez les colonnes, les types, les valeurs manquantes. Objectif : comprendre la data avant de modéliser.
2. Préparer les features
Encodage des variables catégorielles (one-hot, label encoder). Normalisation des variables numériques (StandardScaler). Création de nouvelles features utiles (feature engineering).
3. Split train/test
`from sklearn.model_selection import train_test_split`. Ratio 80/20. Random state fixé pour reproductibilité. Stratification sur la target si classes déséquilibrées.
4. Modèle 1 : Régression linéaire
`from sklearn.linear_model import LinearRegression`. Fit sur train, predict sur test. Métrique : RMSE, MAE, R². Cas d'usage : prédire un prix, une quantité, une durée.
5. Modèle 2 : Random Forest
`from sklearn.ensemble import RandomForestClassifier`. Plus puissant que régression simple. Hyperparamètres : n_estimators=100, max_depth=10. Métrique : accuracy, precision, recall, F1.
6. Modèle 3 : Clustering K-means
`from sklearn.cluster import KMeans`. Non supervisé : pas de target. Objectif : grouper les clients par similarité. Méthode du coude pour choisir K. Visualisation via PCA 2D.
7. Évaluer rigoureusement
Cross-validation (5 folds minimum). Analyse des erreurs : où le modèle se trompe ? Biais-variance : overfitting ou underfitting ? Comparez vos 3 modèles avec même métrique.
8. Déployer en prod (Streamlit)
Enregistrez votre modèle avec pickle. Créez une app Streamlit qui prend des inputs user → prédiction. Deployez sur Streamlit Cloud (gratuit). Démo accessible à tous avec une URL.
Astuces de pro
- •Commencez toujours par le modèle le plus simple. Ne sautez pas à XGBoost d'emblée
- •Gardez votre notebook propre : sections, commentaires, hypothèses documentées
- •Publiez sur GitHub dès le début — c'est votre portfolio
FAQ
Quel dataset pour démarrer ?
Titanic (classification binaire), Iris (classification multi-classe), Boston Housing (régression). Disponibles gratuitement via sklearn ou Kaggle.
Jupyter Notebook ou VS Code pour démarrer ?
Jupyter Notebook pour l'exploration et l'apprentissage. VS Code quand vous passez à du code de production. Les deux sont gratuits.
Pour aller plus loin
Envie d'aller plus loin ?
AI2 forme à l'IA et à la data avec des programmes certifiés RNCP.
Autres guides HowTo
Comment analyser des données avec Python et l'IA en 2026
Méthode pratique en 8 étapes pour analyser un dataset avec Python, Pandas et ChatGPT Code Interpreter. Pour débutants.
Comment automatiser ses tâches répétitives avec l'IA en 2026
8 workflows IA concrets pour automatiser vos tâches de bureau en 2026. Make, Zapier, n8n + ChatGPT. Gain : 10h/semaine.
Comment trouver une entreprise d'alternance en IA en 2026
Méthode éprouvée en 6 étapes pour décrocher une alternance data/IA rapidement. Taux de succès 96% chez AI2.