Full definition

Le RLHF combine apprentissage supervisé classique et apprentissage par renforcement guidé par des évaluations humaines. Chaîne typique : modèle de base pré-entraîné → fine-tuning supervisé → reward model (basé sur feedbacks humains) → optimisation RL (PPO, DPO). C'est ce qui différencie GPT-4 de GPT-3 pour l'alignement et la sécurité.

Related terms

LLM (Large Language Model)

Grand modèle de langage entraîné sur de vastes corpus textuels pour comprendre et générer du texte naturel.

Fine-tuning

Adaptation d'un modèle pré-entraîné à une tâche ou domaine spécifique via entraînement supplémentaire.

Apprentissage par renforcement

Paradigme ML où un agent apprend par essai/erreur avec récompenses et punitions.

Other NLP / LLM terms

LLM (Large Language Model) — Grand modèle de langage entraîné sur de vastes corpus textue...Prompt engineering — Art et science de rédiger des instructions efficaces pour ob...RAG (Retrieval Augmented Generation) — Technique qui enrichit les réponses d'un LLM par récupératio...Fine-tuning — Adaptation d'un modèle pré-entraîné à une tâche ou domaine s...Embedding — Représentation numérique (vecteur) d'un objet (mot, phrase, ...Hallucination — Production par un LLM d'informations factuellement fausses m...

Want to go beyond the definition?

AI2 trains in AI and data with RNCP-certified programs.

📘 Brochure ← Back to glossary

RLHF (Reinforcement Learning from Human Feedback)

Full definition

Related terms

Other NLP / LLM terms

Want to go beyond the definition?

RLHF (Reinforcement Learning from Human Feedback)

Full definition

Related terms

Other NLP / LLM terms

Want to go beyond the definition?

RLHF (Reinforcement Learning from Human Feedback)

Full definition

Related terms

Other NLP / LLM terms

Want to go beyond the definition?

Keyboard Shortcuts

RLHF (Reinforcement Learning from Human Feedback)

Full definition

Related terms

Other NLP / LLM terms

Want to go beyond the definition?