Ranking de Modelos
Este documento foi traduzido do chinês por IA e ainda não foi revisado.
Este é um leaderboard baseado em dados do Chatbot Arena (lmarena.ai), gerado por meio de processos automatizados.
Data de atualização: 2025-07-09 11:44:37 UTC / 2025-07-09 19:44:37 CST (Horário de Pequim)
Leaderboard
Explicações
Rank(UB): Ranking calculado com base no modelo Bradley-Terry. Este ranking reflete o desempenho abrangente do modelo na arena e fornece uma estimativa do limite superior de sua pontuação Elo, ajudando a entender sua competitividade potencial.
Rank(StyleCtrl): Ranking após controle de estilo de conversa. Este ranking visa reduzir o viés de preferência causado pelo estilo de resposta do modelo (por exemplo, verbosidade ou concisão), avaliando de forma mais pura suas capacidades fundamentais.
Modelo: Nome do Modelo de Linguagem Grande (LLM). Esta coluna incorpora links relacionados ao modelo; clique para acessar.
Pontuação: Pontuação Elo obtida pelo modelo através de votos dos usuários na arena. A pontuação Elo é um sistema de ranking relativo; valores mais altos indicam melhor desempenho. Esta pontuação é dinâmica e reflete a força relativa do modelo no ambiente competitivo atual.
Intervalo de Confiança: Intervalo de confiança de 95% para a pontuação Elo do modelo (por exemplo:
+6/-6
). Intervalos menores indicam maior estabilidade e confiabilidade da pontuação; intervalos maiores podem sugerir dados insuficientes ou maior volatilidade no desempenho. Fornece uma avaliação quantificada da precisão da pontuação.Votos: Número total de votos recebidos pelo modelo na arena. Mais votos geralmente indicam maior confiabilidade estatística da pontuação.
Provedor: Organização ou empresa que fornece o modelo.
Licença: Tipo de licença do modelo, por exemplo: proprietária (Proprietary), Apache 2.0, MIT, etc.
Data de Corte do Conhecimento: Data de corte dos dados de treinamento do modelo. Dados não disponíveis indica que a informação não foi fornecida ou é desconhecida.
Fonte de Dados e Frequência de Atualização
Os dados deste leaderboard são gerados e fornecidos automaticamente pelo projeto fboulnois/llm-leaderboard-csv, que obtém e processa dados de lmarena.ai. Este leaderboard é atualizado automaticamente diariamente pelo GitHub Actions.
Aviso Legal
Este relatório é apenas para referência. Os dados do leaderboard são dinâmicos e baseados em votos de preferência dos usuários no Chatbot Arena durante períodos específicos. A integridade e precisão dos dados dependem das fontes upstream e do processamento do projeto fboulnois/llm-leaderboard-csv
. Modelos diferentes podem usar licenças distintas; consulte sempre as instruções oficiais dos provedores.
最后更新于
这有帮助吗?