Définition complète
Introduit en 2017 par Google dans l'article « Attention Is All You Need », le Transformer a remplacé les RNN/LSTM pour la plupart des tâches NLP. Son mécanisme d'attention permet de capter les dépendances à longue distance dans les séquences. Architecture en couches d'encodeurs/décodeurs (BERT) ou décodeurs seuls (GPT). Base de tous les LLMs actuels, des modèles de vision (ViT) et des modèles multimodaux.
Termes liés
LLM (Large Language Model)
Grand modèle de langage entraîné sur de vastes corpus textuels pour comprendre et générer du texte naturel.
Mécanisme d'attention
Technique permettant à un modèle de se concentrer sur les parties pertinentes d'une séquence.
BERT
Modèle Transformer bidirectionnel de Google pour la compréhension du langage.
Autres termes Deep Learning
Envie d'aller plus loin que la définition ?
AI2 forme à l'IA et à la data avec des programmes certifiés RNCP.