Hallucinations des modèles de langage : comprendre et limiter le phénomène
Qu’entend‑on par « hallucination » ?
Dans le jargon des modèles de langage, une hallucination désigne une réponse qui paraît plausible mais qui est incorrecte, inexistante ou inventée. Par exemple, un modèle peut citer des livres ou des faits qui n’existent pas, fournir des réponses contradictoires ou inventer des citations de personnes réelles. Ce comportement est problématique, notamment lorsque les systèmes sont utilisés pour des tâches sensibles (santé, droit, finance) où l’exactitude est cruciale.
Les causes profondes
Plusieurs facteurs expliquent ces hallucinations :
- Objectif de prédiction du mot suivant: les LLM sont entraînés à prédire la suite la plus probable d’une séquence. Ils n’ont pas conscience de la vérité ou de la fausseté des propositions. Si le contexte suggère une réponse, le modèle la génèrera même si elle est inexacte.
- Biais et lacunes dans les données: les corpus d’entraînement contiennent des erreurs, des biais ou des informations obsolètes. Le modèle les reproduit, voire les amplifie.
- Absence d’incertitude explicite: un LLM ne signale pas spontanément qu’il ne sait pas. Il a été récompensé lors de son ajustement pour produire une réponse plutôt que d’admettre son ignorance. Les méthodes d’évaluation incitent les développeurs à privilégier des réponses complètes, ce qui renforce la propension à inventer.
- Température et décodage: des paramètres de génération élevés encouragent la diversité, augmentant la probabilité de sorties erronées. Des techniques comme le top‑p sampling sélectionnent des tokens moins probables, ce qui peut amplifier l’imprécision.
- Mauvaise formulation du prompt: des instructions ambiguës, contradictoires ou incomplètes conduisent le modèle à extrapoler au-delà des informations disponibles.
Typologie des hallucinations
On peut distinguer plusieurs types d’erreurs :
- Factual hallucination: le modèle fournit une information factuelle incorrecte (dates, noms, chiffres). Exemple : attribuer un livre à un auteur qui ne l’a jamais écrit.
- Logical hallucination: contradictions internes ou conclusions illogiques. Exemple : affirmer qu’une personne est à la fois vivante et décédée.
- Instructional hallucination: inventer des règles ou des instructions inexistantes. Exemple : donner une procédure médicale sans base scientifique.
- Citation hallucination: citer des références, des lois ou des articles de recherche qui n’existent pas.
Mesures pour atténuer les hallucinations
Face à ces risques, plusieurs approches sont développées :
- Retrieval Augmented Generation (RAG): cette technique combine un LLM avec un module de recherche qui récupère des informations pertinentes dans une base de connaissances. Le modèle génère alors sa réponse en s’appuyant sur ces documents, réduisant la probabilité d’inventions.
- Apprentissage par renforcement avec refus: on apprend au modèle à dire « je ne sais pas » ou à demander plus d’informations plutôt que d’inventer. Des exemples annotés récompensent la retenue lorsque le modèle n’est pas certain.
- Filtrage post‑génération: des algorithmes détectent les incohérences ou vérifient les citations. Ils peuvent faire appel à d’autres modèles ou à des systèmes de fact‑checking.
- Réduction de la température et réglages prudents: choisir des températures basses, restreindre le top‑p ou le top‑k, et fixer des longueurs de sortie raisonnables diminue la variance et donc les réponses farfelues.
- Amélioration des données: nettoyage des corpus d’entraînement, ajout de sources fiables, mise à jour régulière des données pour réduire l’obsolescence.
- Formation des utilisateurs: sensibiliser les utilisateurs à vérifier les informations, à formuler des prompts précis et à identifier les signes d’une hallucination.
Évaluation et suivi
Des benchmarks spécifiques comme TruthfulQA ou l’analyse manuelle permettent de mesurer la fréquence des hallucinations. Des métriques telles que le « hallucination rate » (nombre de réponses incorrectes sur un échantillon) ou la « score consistency » évaluent la cohérence entre la question et la réponse. Les équipes techniques utilisent ces outils pour suivre l’évolution des modèles et mettre en place des garde‑fous.
Conclusion
Les hallucinations demeurent l’un des principaux défis des grands modèles de langage. Elles découlent de leur objectif de prédiction et des biais inhérents aux données. Pour réduire ce phénomène, chercheurs et développeurs explorent des méthodes hybrides mêlant LLM et récupération d’informations, ajustent les algorithmes et incitent les modèles à exprimer leur incertitude. Les utilisateurs, quant à eux, doivent rester vigilants, vérifier les informations et adapter les paramètres de génération. La quête d’un assistant conversationnel fiable et précis passe par cette compréhension et par une amélioration continue des modèles et des outils de contrôle.