Classement des modèles

Ce classement est généré automatiquement à partir des données de Chatbot Arena (lmarena.ai).

Dernière mise à jour des données: 2025-08-11 11:44:05 UTC / 2025-08-11 19:44:05 CST (Heure de Beijing)

Cliquez sur le nom du modèle dans le classement pour accéder à ses détails ou à une page d'essai.

Classement

Rang (UB)
Rang (StyleCtrl)
Nom du modèle
Score
Intervalle de confiance
Votes
Fournisseur
Licence
Date de fin des connaissances

1

1

1470

+5/-5

26,019

Google

Proprietary

nan

2

2

1446

+6/-6

13,715

Google

Proprietary

nan

3

2

1434

+9/-9

4,112

Z.ai

MIT

nan

4

2

1434

+6/-6

13,058

xAI

Proprietary

nan

5

3

1429

+4/-4

30,777

OpenAI

Proprietary

nan

6

3

1428

+4/-4

32,033

OpenAI

Proprietary

nan

7

3

1427

+9/-9

4,154

Alibaba

Apache 2.0

nan

8

3

1427

+5/-5

18,284

DeepSeek

MIT

nan

9

4

1423

+4/-4

31,757

xAI

Proprietary

nan

10

8

1416

+4/-4

26,604

Meta

nan

nan

11

8

1415

+5/-5

15,271

OpenAI

Proprietary

nan

12

7

1413

+9/-9

3,715

Alibaba

Apache 2.0

nan

13

8

1412

+6/-6

13,837

xAI

Proprietary

nan

14

10

1411

+4/-4

31,359

Google

Proprietary

nan

15

15

1397

+4/-4

27,552

Google

Proprietary

nan

16

15

1397

+5/-5

20,120

Google

Proprietary

nan

17

15

1396

+5/-5

18,655

Google

Proprietary

nan

18

15

1393

+9/-9

4,306

Z.ai

MIT

nan

19

15

1391

+5/-5

24,372

Alibaba

Apache 2.0

nan

20

15

1389

+4/-4

23,657

Google

Proprietary

nan

21

15

1389

+4/-4

23,858

OpenAI

Proprietary

nan

22

19

1381

+3/-3

40,509

OpenAI

Proprietary

nan

23

18

1380

+6/-6

11,676

Moonshot

Modified MIT

nan

24

19

1380

+5/-5

24,834

OpenAI

Proprietary

nan

25

16

1380

+12/-12

2,258

Alibaba

Apache 2.0

nan

26

22

1379

+5/-5

17,328

Google

Proprietary

nan

27

22

1378

+5/-5

16,963

Google

Proprietary

nan

28

22

1376

+6/-6

11,657

Tencent

Proprietary

nan

29

22

1376

+4/-4

27,391

DeepSeek

MIT

nan

30

22

1373

+5/-5

17,970

Anthropic

Proprietary

nan

31

23

1372

+4/-4

19,430

DeepSeek

MIT

nan

32

24

1370

+4/-4

22,500

Google

Proprietary

nan

33

极略

1370

+5/-5

28,010

Mistral

Proprietary

nan

34

24

1368

+5/-5 极

17,088

Google

Proprietary

nan

...

...

...

...

...

...

...

...

...

267

264

840

+16/-16

2,446

Meta

Non-commercial

2023/2

Explications

  • Rang (UB) : Classement calculé basé sur le modèle Bradley-Terry. Ce rang reflète la performance globale d'un modèle dans l'arène et fournit une estimation de la limite supérieure de son score Elo, aidant à comprendre son potentiel compétitif.

  • Rang (StyleCtrl) : Classement après contrôle du style de conversation. Ce classement vise à réduire les biais de préférence causés par le style de réponse (par exemple, détaillé vs concis), évaluant plus précisément les capacités fondamentales des modèles.

  • Nom du modèle : Nom du grand modèle de langage (LLM). Cette colonne contient des liens vers les informations des modèles.

  • Score : Score Elo obtenu par le modèle via les votes des utilisateurs dans l'arène. Le score Elo est un système de classement relatif : plus le score est élevé, meilleure est la performance du modèle. Ce score est dynamique et reflète la force relative du modèle dans l'environnement compétitif actuel.

  • Intervalle de confiance : Intervalle de confiance à 95% du score Elo (par exemple : +6/-6). Un intervalle plus petit indique un score plus stable et fiable ; un intervalle plus large peut suggérer des données insuffisantes ou une performance variable du modèle. Il fournit une évaluation quantitative de la fiabilité du score.

  • Votes : Nombre total de votes reçus par le modèle dans l'arène. Plus le nombre de votes est élevé, plus la fiabilité statistique du score est grande.

  • Fournisseur : Organisation ou entreprise proposant le modèle.

  • Licence : Type de licence du modèle, par exemple propriétaire (Proprietary), Apache 2.0, MIT, etc.

  • Date de fin des connaissances : Date à laquelle les données d'entraînement du modèle cessent d'être actualisées. Données non disponibles indique que l'information n'est pas fournie ou est inconnue.

Source des données et fréquence de mise à jour

Ce classement est généré automatiquement par le projet fboulnois/llm-leaderboard-csv, qui collecte et traite les données de lmarena.ai. Le classement est mis à jour quotidiennement via GitHub Actions.

Clause de non-responsabilité

Ce rapport est fourni à titre informatif uniquement. Les données du classement sont dynamiques et basées sur les votes de préférence des utilisateurs dans Chatbot Arena pendant une période spécifique. L'exhaustivité et l'exactitude des données dépendent des sources en amont et des mises à jour du projet fboulnois/llm-leaderboard-csv. Les différents modèles peuvent avoir des licences distinctes : veuillez consulter les instructions officielles des fournisseurs avant toute utilisation.

最后更新于

这有帮助吗?