Définition complète
Le RLHF combine apprentissage supervisé classique et apprentissage par renforcement guidé par des évaluations humaines. Chaîne typique : modèle de base pré-entraîné → fine-tuning supervisé → reward model (basé sur feedbacks humains) → optimisation RL (PPO, DPO). C'est ce qui différencie GPT-4 de GPT-3 pour l'alignement et la sécurité.
Termes liés
LLM (Large Language Model)
Grand modèle de langage entraîné sur de vastes corpus textuels pour comprendre et générer du texte naturel.
Fine-tuning
Adaptation d'un modèle pré-entraîné à une tâche ou domaine spécifique via entraînement supplémentaire.
Apprentissage par renforcement
Paradigme ML où un agent apprend par essai/erreur avec récompenses et punitions.
Autres termes NLP / LLM
Envie d'aller plus loin que la définition ?
AI2 forme à l'IA et à la data avec des programmes certifiés RNCP.