Classement des modèles

Ce document a été traducido del chino por IA y aún no ha sido revisado.

Ce classement est généré automatiquement à partir des données de Chatbot Arena (lmarena.ai).

Dernière mise à jour des données: 2025-08-11 11:44:05 UTC / 2025-08-11 19:44:05 CST (Heure de Beijing)

Cliquez sur le nom du modèle dans le classement pour accéder à ses détails ou à une page d'essai.

Classement

Rang (UB)

Rang (StyleCtrl)

Nom du modèle

Score

Intervalle de confiance

Votes

Fournisseur

Licence

Date de fin des connaissances

Gemini-2.5-Pro

1470

+5/-5

26,019

Google

Proprietary

nan

Gemini-2.5-Pro-Preview-05-06

1446

+6/-6

13,715

Google

Proprietary

nan

GLM-4.5

1434

+9/-9

4,112

Z.ai

MIT

nan

Grok-4-0709

1434

+6/-6

13,058

xAI

Proprietary

nan

ChatGPT-4o-latest (2025-03-26)

1429

+4/-4

30,777

OpenAI

Proprietary

nan

o3-2025-04-16

1428

+4/-4

32,033

OpenAI

Proprietary

nan

Qwen3-235B-A22B-Instruct-2507

1427

+9/-9

4,154

Alibaba

Apache 2.0

nan

DeepSeek-R1-0528

1427

+5/-5

18,284

DeepSeek

MIT

nan

Grok-3-Preview-02-24

1423

+4/-4

31,757

xAI

Proprietary

nan

Llama-4-Maverick-03-26-Experimental

1416

+4/-4

26,604

Explications

Rang (UB) : Classement calculé basé sur le modèle Bradley-Terry. Ce rang reflète la performance globale d'un modèle dans l'arène et fournit une estimation de la limite supérieure de son score Elo, aidant à comprendre son potentiel compétitif.
Rang (StyleCtrl) : Classement après contrôle du style de conversation. Ce classement vise à réduire les biais de préférence causés par le style de réponse (par exemple, détaillé vs concis), évaluant plus précisément les capacités fondamentales des modèles.
Nom du modèle : Nom du grand modèle de langage (LLM). Cette colonne contient des liens vers les informations des modèles.
Score : Score Elo obtenu par le modèle via les votes des utilisateurs dans l'arène. Le score Elo est un système de classement relatif : plus le score est élevé, meilleure est la performance du modèle. Ce score est dynamique et reflète la force relative du modèle dans l'environnement compétitif actuel.
Intervalle de confiance : Intervalle de confiance à 95% du score Elo (par exemple : +6/-6). Un intervalle plus petit indique un score plus stable et fiable ; un intervalle plus large peut suggérer des données insuffisantes ou une performance variable du modèle. Il fournit une évaluation quantitative de la fiabilité du score.
Votes : Nombre total de votes reçus par le modèle dans l'arène. Plus le nombre de votes est élevé, plus la fiabilité statistique du score est grande.
Fournisseur : Organisation ou entreprise proposant le modèle.
Licence : Type de licence du modèle, par exemple propriétaire (Proprietary), Apache 2.0, MIT, etc.
Date de fin des connaissances : Date à laquelle les données d'entraînement du modèle cessent d'être actualisées. Données non disponibles indique que l'information n'est pas fournie ou est inconnue.

Source des données et fréquence de mise à jour

Ce classement est généré automatiquement par le projet fboulnois/llm-leaderboard-csv, qui collecte et traite les données de lmarena.ai. Le classement est mis à jour quotidiennement via GitHub Actions.

Clause de non-responsabilité

Ce rapport est fourni à titre informatif uniquement. Les données du classement sont dynamiques et basées sur les votes de préférence des utilisateurs dans Chatbot Arena pendant une période spécifique. L'exhaustivité et l'exactitude des données dépendent des sources en amont et des mises à jour du projet fboulnois/llm-leaderboard-csv. Les différents modèles peuvent avoir des licences distinctes : veuillez consulter les instructions officielles des fournisseurs avant toute utilisation.

上一页Informations de référence sur les modèles courants

最后更新于4小时前

这有帮助吗？