Ce document a été traducido del chino por IA y aún no ha sido revisado.
Ce classement est généré automatiquement à partir des données de Chatbot Arena (lmarena.ai).
Date de mise à jour des données : 2025-09-11 11:40:35 UTC / 2025-09-11 19:40:35 CST (Heure de Pékin)
...
...
...
...
...
...
...
...
...
Rang (UB) : Classement calculé à partir du modèle Bradley-Terry. Ce rang reflète la performance globale du modèle dans l'arène et fournit une estimation de la borne supérieure de son score Elo, aidant à comprendre sa compétitivité potentielle.
Rang (StyleCtrl) : Classement après contrôle du style conversationnel. Ce rang vise à réduire les biais de préférence liés au style des réponses (par exemple verbose ou concis), évaluant plus purement les capacités fondamentales du modèle.
Modèle : Nom du grand modèle de langage (LLM). Cette colonne intègre des liens vers les modèles ; cliquez pour accéder au détail.
Score : Score Elo obtenu par le modèle via les votes des utilisateurs dans l'arène. Le score Elo est un système de classement relatif : plus le score est élevé, meilleure est la performance du modèle. Ce score est dynamique et reflète la position concurrentielle actuelle du modèle.
Intervalle de confiance : Intervalle de confiance à 95% du score Elo (par exemple : +6/-6
). Plus cet intervalle est petit, plus le score est stable et fiable ; inversement, un intervalle large peut indiquer des données insuffisantes ou une performance variable. Il fournit une évaluation quantitative de la précision du score.
Votes : Nombre total de votes reçus par le modèle dans l'arène. Plus le nombre de votes est élevé, plus la fiabilité statistique du score est généralement importante.
Fournisseur : Organisation ou entreprise fournissant le modèle.
Licence : Type de licence du modèle (ex : propriétaire, Apache 2.0, MIT, etc.).
Date de fin de connaissance : Date limite des données d'entraînement. Aucune donnée signifie que l'information n'est pas fournie ou inconnue.
Les données de ce classement sont générées automatiquement par le projet fboulnois/llm-leaderboard-csv, qui collecte et traite les données de lmarena.ai. Ce classement est mis à jour quotidiennement par GitHub Actions.
Ce rapport est fourni à titre informatif uniquement. Les données du classement sont dynamiques et basées sur les votes de préférence des utilisateurs de Chatbot Arena pendant une période spécifique. L'exhaustivité et l'exactitude des données dépendent de la source amont et des mises à jour du projet fboulnois/llm-leaderboard-csv
. Différents modèles peuvent utiliser différentes licences ; veuillez vous référer aux instructions officielles des fournisseurs de modèles avant toute utilisation.