Classement des modèles
Ce document a été traducido del chino por IA y aún no ha sido revisado.
Ce classement est généré automatiquement à partir des données de Chatbot Arena (lmarena.ai).
Dernière mise à jour des données: 2025-08-11 11:44:05 UTC / 2025-08-11 19:44:05 CST (Heure de Beijing)
Classement
...
...
...
...
...
...
...
...
...
Explications
Rang (UB) : Classement calculé basé sur le modèle Bradley-Terry. Ce rang reflète la performance globale d'un modèle dans l'arène et fournit une estimation de la limite supérieure de son score Elo, aidant à comprendre son potentiel compétitif.
Rang (StyleCtrl) : Classement après contrôle du style de conversation. Ce classement vise à réduire les biais de préférence causés par le style de réponse (par exemple, détaillé vs concis), évaluant plus précisément les capacités fondamentales des modèles.
Nom du modèle : Nom du grand modèle de langage (LLM). Cette colonne contient des liens vers les informations des modèles.
Score : Score Elo obtenu par le modèle via les votes des utilisateurs dans l'arène. Le score Elo est un système de classement relatif : plus le score est élevé, meilleure est la performance du modèle. Ce score est dynamique et reflète la force relative du modèle dans l'environnement compétitif actuel.
Intervalle de confiance : Intervalle de confiance à 95% du score Elo (par exemple :
+6/-6
). Un intervalle plus petit indique un score plus stable et fiable ; un intervalle plus large peut suggérer des données insuffisantes ou une performance variable du modèle. Il fournit une évaluation quantitative de la fiabilité du score.Votes : Nombre total de votes reçus par le modèle dans l'arène. Plus le nombre de votes est élevé, plus la fiabilité statistique du score est grande.
Fournisseur : Organisation ou entreprise proposant le modèle.
Licence : Type de licence du modèle, par exemple propriétaire (Proprietary), Apache 2.0, MIT, etc.
Date de fin des connaissances : Date à laquelle les données d'entraînement du modèle cessent d'être actualisées. Données non disponibles indique que l'information n'est pas fournie ou est inconnue.
Source des données et fréquence de mise à jour
Ce classement est généré automatiquement par le projet fboulnois/llm-leaderboard-csv, qui collecte et traite les données de lmarena.ai. Le classement est mis à jour quotidiennement via GitHub Actions.
Clause de non-responsabilité
Ce rapport est fourni à titre informatif uniquement. Les données du classement sont dynamiques et basées sur les votes de préférence des utilisateurs dans Chatbot Arena pendant une période spécifique. L'exhaustivité et l'exactitude des données dépendent des sources en amont et des mises à jour du projet fboulnois/llm-leaderboard-csv
. Les différents modèles peuvent avoir des licences distinctes : veuillez consulter les instructions officielles des fournisseurs avant toute utilisation.
最后更新于
这有帮助吗?