Ranking de modelos
Este documento ha sido traducido del chino por IA y aún no ha sido revisado.
Este es un ranking basado en datos de Chatbot Arena (lmarena.ai), generado automáticamente mediante procesos automatizados.
Hora de actualización de datos: 2025-07-09 11:44:37 UTC / 2025-07-09 19:44:37 CST (Hora de Pekín)
Leaderboard
Explicación
Ranking (UB): Clasificación calculada mediante el modelo Bradley-Terry. Este ranking refleja el rendimiento integral del modelo en la arena y proporciona una estimación del límite superior de su puntuación Elo, ayudando a comprender su potencial competitivo.
Ranking (StyleCtrl): Clasificación después del control de estilo conversacional. Este ranking busca reducir el sesgo de preferencia causado por el estilo de respuesta del modelo (por ejemplo, verbosidad, concisión), evaluando más puramente sus capacidades fundamentales.
Nombre del modelo: Nombre del modelo de lenguaje grande (LLM). Esta columna contiene enlaces relacionados con el modelo; haga clic para acceder.
Puntuación: Puntuación Elo obtenida por el modelo mediante votos de usuarios en la arena. El sistema Elo es un ranking relativo donde puntuaciones más altas indican mejor rendimiento. Esta puntuación cambia dinámicamente, reflejando la capacidad relativa del modelo en el entorno competitivo actual.
Intervalo de confianza: Intervalo de confianza del 95% para la puntuación Elo del modelo (ejemplo:
+6/-6
). Un intervalo más pequeño indica mayor estabilidad y confiabilidad en la puntuación; un intervalo más grande puede sugerir datos insuficientes o fluctuaciones en el rendimiento. Proporciona una evaluación cuantitativa de la precisión de la puntuación.Votos: Número total de votos recibidos por el modelo en la arena. Más votos generalmente implican mayor confiabilidad estadística en su puntuación.
Proveedor: Organización o empresa que proporciona el modelo.
Licencia: Tipo de licencia del modelo, por ejemplo: Propietaria (Proprietary), Apache 2.0, MIT, etc.
Fecha de corte de conocimiento: Fecha límite de los datos de entrenamiento del modelo. Datos no disponibles indica que la información no fue proporcionada o es desconocida.
Fuente de datos y frecuencia de actualización
Los datos de este ranking son generados y proporcionados automáticamente por el proyecto fboulnois/llm-leaderboard-csv, que obtiene y procesa datos de lmarena.ai. Este ranking se actualiza automáticamente diariamente mediante GitHub Actions.
Descargo de responsabilidad
Este informe es solo para referencia. Los datos del ranking son dinámicos y se basan en votos de preferencia de usuarios en Chatbot Arena durante períodos específicos. La integridad y precisión de los datos dependen de las fuentes ascendentes y las actualizaciones/procesamiento del proyecto fboulnois/llm-leaderboard-csv
. Diferentes modelos pueden usar diferentes licencias; consulte siempre las instrucciones oficiales del proveedor del modelo.
最后更新于
这有帮助吗?