1 sur 1

Classement des modèles

Ce document a été traducido del chino por IA y aún no ha sido revisado.

Ce classement est généré automatiquement à partir des données de Chatbot Arena (lmarena.ai).

Date de mise à jour des données : 2025-09-11 11:40:35 UTC / 2025-09-11 19:40:35 CST (Heure de Pékin)

Cliquez sur le nom du modèle dans le classement pour accéder à sa page de détails ou d'essai.

Classement

Rang (UB)

Rang (StyleCtrl)

Modèle

Score

Intervalle de confiance

Votes

Fournisseur

Licence

Date de fin de connaissance

Gemini-2.5-Pro

1470

+5/-5

26,019

Google

Propriétaire

nan

Gemini-2.5-Pro-Preview-05-06

1446

+6/-6

13,715

Google

Propriétaire

nan

GLM-4.5

1434

+9/-9

4,112

Z.ai

MIT

nan

Grok-4-0709

1434

+6/-6

13,058

xAI

Propriétaire

nan

...

266

264

LLaMA-13B

840

+16/-16

2,446

Explications

Rang (UB) : Classement calculé à partir du modèle Bradley-Terry. Ce rang reflète la performance globale du modèle dans l'arène et fournit une estimation de la borne supérieure de son score Elo, aidant à comprendre sa compétitivité potentielle.
Rang (StyleCtrl) : Classement après contrôle du style conversationnel. Ce rang vise à réduire les biais de préférence liés au style des réponses (par exemple verbose ou concis), évaluant plus purement les capacités fondamentales du modèle.
Modèle : Nom du grand modèle de langage (LLM). Cette colonne intègre des liens vers les modèles ; cliquez pour accéder au détail.
Score : Score Elo obtenu par le modèle via les votes des utilisateurs dans l'arène. Le score Elo est un système de classement relatif : plus le score est élevé, meilleure est la performance du modèle. Ce score est dynamique et reflète la position concurrentielle actuelle du modèle.
Intervalle de confiance : Intervalle de confiance à 95% du score Elo (par exemple : +6/-6). Plus cet intervalle est petit, plus le score est stable et fiable ; inversement, un intervalle large peut indiquer des données insuffisantes ou une performance variable. Il fournit une évaluation quantitative de la précision du score.
Votes : Nombre total de votes reçus par le modèle dans l'arène. Plus le nombre de votes est élevé, plus la fiabilité statistique du score est généralement importante.
Fournisseur : Organisation ou entreprise fournissant le modèle.
Licence : Type de licence du modèle (ex : propriétaire, Apache 2.0, MIT, etc.).
Date de fin de connaissance : Date limite des données d'entraînement. Aucune donnée signifie que l'information n'est pas fournie ou inconnue.

Source des données et fréquence de mise à jour

Les données de ce classement sont générées automatiquement par le projet fboulnois/llm-leaderboard-csv, qui collecte et traite les données de lmarena.ai. Ce classement est mis à jour quotidiennement par GitHub Actions.

Clause de non-responsabilité

Ce rapport est fourni à titre informatif uniquement. Les données du classement sont dynamiques et basées sur les votes de préférence des utilisateurs de Chatbot Arena pendant une période spécifique. L'exhaustivité et l'exactitude des données dépendent de la source amont et des mises à jour du projet fboulnois/llm-leaderboard-csv. Différents modèles peuvent utiliser différentes licences ; veuillez vous référer aux instructions officielles des fournisseurs de modèles avant toute utilisation.