Ranking de modelos
Este documento ha sido traducido del chino por IA y aún no ha sido revisado.
Esta es una clasificación basada en los datos de Chatbot Arena (lmarena.ai), generada mediante un proceso automatizado.
Fecha de actualización de datos: 2025-08-29 11:40:45 UTC / 2025-08-29 19:40:45 CST (Hora de Pekín)
Clasificación
Explicaciones
Ranking(UB): Clasificación basada en el modelo Bradley-Terry. Refleja el rendimiento integral del modelo en la arena y proporciona una estimación del límite superior de su puntuación Elo, ayudando a comprender su potencial competitivo.
Ranking(StyleCtrl): Clasificación después del control de estilo conversacional. Busca reducir el sesgo de preferencia causado por el estilo de respuesta (ej. extenso vs. conciso), evaluando más puramente la capacidad central del modelo.
Nombre del Modelo: Nombre del modelo de lenguaje grande (LLM). Esta columna incluye enlaces a los modelos.
Puntuación: Calificación Elo obtenida por votación de usuarios en la arena. Una puntuación más alta indica mejor rendimiento. Es dinámica y refleja la fuerza relativa actual.
Intervalo de Confianza: Intervalo de confianza del 95% para la puntuación Elo (ej:
+6/-6
). Un intervalo menor indica mayor estabilidad.Votos: Número total de votos recibidos por el modelo. Más votos suelen indicar mayor fiabilidad estadística.
Proveedor: Organización o empresa que proporciona el modelo.
Licencia: Tipo de licencia del modelo (ej: Propietaria, Apache 2.0, MIT).
Fecha Límite de Conocimiento: Fecha de corte de los datos de entrenamiento. Sin datos indica información no disponible.
Fuente de Datos y Frecuencia de Actualización
Esta clasificación es generada automáticamente por el proyecto fboulnois/llm-leaderboard-csv, que obtiene y procesa datos de lmarena.ai. Se actualiza diariamente mediante GitHub Actions.
Descargo de Responsabilidad
Este informe es solo para referencia. La clasificación es dinámica y se basa en votos de preferencia de usuarios en Chatbot Arena durante períodos específicos. La integridad y precisión dependen de las fuentes de datos ascendentes y del procesamiento del proyecto fboulnois/llm-leaderboard-csv
. Los diferentes modelos pueden tener licencias distintas: consulte siempre las indicaciones oficiales del proveedor.
最后更新于
这有帮助吗?