Leaderboards des benchmarks LLM
Publiée le janvier 8, 2026
Publiée le janvier 8, 2026
À mesure que les modèles de langage se multiplient, il devient difficile de suivre leurs performances sur l’ensemble des benchmarks. C’est pour cette raison que des leaderboards, ou tableaux de classement, ont vu le jour. Ces plateformes compilent les résultats de nombreux modèles sur une sélection de tests et mettent à jour les scores au fil des publications. Elles jouent un rôle de vitrine de la recherche : les laboratoires y publient leurs avancées, tandis que les ingénieurs ou décideurs peuvent y consulter des données synthétiques pour choisir un modèle. Les leaderboards apportent également de la transparence, en révélant quel modèle domine sur quelles tâches et en invitant à analyser la pertinence des écarts.
Plusieurs leaderboards se distinguent par leur approche et les métriques qu’ils mettent en avant. Voici un tour d’horizon des plateformes les plus reconnues en 2026 :
| Leaderboard | Particularités | Types de tâches et métriques utilisés |
| Vellum | Met l’accent sur des tests récents et supprime les benchmarks saturés. Classe les modèles selon un score global mais fournit aussi le détail par tâche. | Une quinzaine d’épreuves (raisonnement, math, code). Score moyen, rang par catégorie, coût d’utilisation. |
| LLM‑Stats | Projet open source privilégiant les modèles ouverts. Chaque résultat est accompagné d’informations sur la taille du modèle et la reproductibilité. | Benchmarks de compréhension (MMLU, ARC), de code (HumanEval) et de synthèse. Métriques standard comme l’exactitude et le pass@1. |
| LiveBench | Tableau dynamique qui exécute régulièrement des épreuves sur les modèles et met à jour les scores en temps réel. | Mélange de tests classiques et de nouveaux jeux générés automatiquement pour détecter la régression. Mesures de latence et de coût. |
| SEAL | Initiative académique avec des « super‑benchmarks » combinant plusieurs jeux dans un seul score. | Donne un score unifié (SuperScore) basé sur un mélange de MMLU, TruthfulQA, HellaSwag, etc. Fournit aussi des pondérations par catégorie. |
| Chatbot Arena | Plateforme communautaire où des utilisateurs comparent directement deux modèles en situation réelle (chat en ligne). | Résultats basés sur des milliers de duels anonymes notés par des internautes. Établit un classement Elo reflétant la préférence des utilisateurs. |
Chacune de ces plateformes propose des fonctionnalités spécifiques. Vellum, par exemple, met en avant les modèles les plus performants sur les dernières versions de benchmarks et retire ceux qui sont devenus trop faciles ou contaminés. LLM‑Stats, orienté open source, permet de reproduire les résultats localement. LiveBench mesure non seulement l’exactitude mais aussi la rapidité et le coût d’inférence, des facteurs cruciaux pour l’industrialisation. SEAL cherche à résumer la performance en un indice unique afin de simplifier les comparaisons. Enfin, Chatbot Arena se distingue par son approche participative : ce sont les utilisateurs eux‑mêmes qui décident quel modèle leur semble meilleur en les confrontant dans des duels à l’aveugle.
Les modèles sont souvent classés selon un score agrégé, calculé comme la moyenne (ou une combinaison pondérée) des résultats sur différents benchmarks. Cependant, cette moyenne masque parfois d’importantes disparités. Par exemple, un modèle peut obtenir 95 % sur des questions mathématiques mais 70 % en culture générale. Selon l’usage envisagé, il peut être préférable de privilégier un modèle équilibré plutôt qu’un champion de niche. De plus, certains leaderboards normalisent les scores pour tenir compte de la taille ou du coût du modèle, tandis que d’autres ne prennent en compte que l’exactitude brute.
Outre les pourcentages d’exactitude, de nouveaux indicateurs apparaissent sur les tableaux de classement :
Même si les leaderboards sont pratiques, il convient de garder à l’esprit quelques points :
Pour exploiter au mieux ces classements :
Les leaderboards jouent un rôle essentiel pour suivre l’évolution rapide des grands modèles de langage. Ils synthétisent des centaines de résultats, facilitant la comparaison et la veille technologique. Cependant, l’utilisateur éclairé doit garder un œil critique : comprendre la méthodologie de chaque classement, analyser les scores détaillés et compléter l’évaluation par des tests propres. En combinant ces sources, il est possible de sélectionner un modèle en connaissance de cause, en tenant compte de la précision, du coût, de la rapidité et de l’adéquation avec les cas d’usage envisagés.