Ranking de Modelos
Este documento foi traduzido do chinês por IA e ainda não foi revisado.
Este é um leaderboard baseado em dados do Chatbot Arena (lmarena.ai), gerado automaticamente.
Data de atualização dos dados: 2025-06-25 11:42:53 UTC / 2025-06-25 19:42:53 CST (Horário de Beijing)
Leaderboard
...
...
...
...
...
...
...
...
...
Explicação
Rank (UB): Classificação calculada com base no modelo Bradley-Terry. Esta classificação reflete o desempenho global do modelo na arena e fornece uma estimativa do limite superior de sua pontuação Elo, ajudando a entender a competitividade potencial do modelo.
Rank (StyleCtrl): Classificação após controle de estilo de conversa. Esta classificação visa reduzir o viés de preferência causado pelo estilo de resposta do modelo (por exemplo, verbosidade, concisão), avaliando mais puramente a capacidade central do modelo.
Nome do Modelo: Nome do modelo de linguagem grande (LLM). Esta coluna contém links relacionados aos modelos; clique para acessar.
Pontuação: Pontuação Elo obtida pelo modelo na arena por meio de votos dos usuários. O Elo é um sistema de classificação relativa; quanto maior a pontuação, melhor o desempenho do modelo. Esta pontuação é dinâmica, refletindo a força relativa do modelo no ambiente competitivo atual.
Intervalo de Confiança: Intervalo de confiança de 95% da pontuação Elo do modelo (por exemplo:
+6/-6
). Quanto menor o intervalo, mais estável e confiável é a pontuação; inversamente, um intervalo maior pode indicar dados insuficientes ou desempenho volátil do modelo. Fornece uma avaliação quantificada da precisão da pontuação.Votos: Número total de votos recebidos pelo modelo na arena. Geralmente, mais votos indicam maior confiabilidade estatística da pontuação.
Fornecedor: Organização ou empresa que fornece o modelo.
Licença: Tipo de licença do modelo, por exemplo: Proprietária (Proprietary), Apache 2.0, MIT, etc.
Data de Conhecimento: Data de corte dos dados de treinamento do modelo. Dados não disponíveis indica que as informações não foram fornecidas ou são desconhecidas.
Fonte de Dados e Frequência de Atualização
Os dados deste leaderboard são gerados e fornecidos automaticamente pelo projeto fboulnois/llm-leaderboard-csv, que obtém e processa dados do lmarena.ai. Este leaderboard é atualizado automaticamente diariamente pelo GitHub Actions.
Isenção de Responsabilidade
Este relatório é apenas para referência. Os dados do leaderboard são dinâmicos e baseados em votos de preferência dos usuários no Chatbot Arena durante períodos específicos. A integridade e precisão dos dados dependem da fonte upstream e das atualizações/processamento do projeto fboulnois/llm-leaderboard-csv
. Diferentes modelos podem ter licenças distintas; ao usar, consulte sempre as instruções oficiais do fornecedor do modelo.
最后更新于
这有帮助吗?