Ranking de modelos

Esta es una clasificación basada en los datos de Chatbot Arena (lmarena.ai), generada mediante un proceso automatizado.

Fecha de actualización de datos: 2025-08-29 11:40:45 UTC / 2025-08-29 19:40:45 CST (Hora de Pekín)

Haz clic en el nombre del modelo en la clasificación para ir a su página de detalles o prueba.

Clasificación

Ranking(UB)
Ranking(StyleCtrl)
Nombre del Modelo
Puntuación
Intervalo de Confianza
Votos
Proveedor
Licencia
Fecha Límite de Conocimiento

1

1

1470

+5/-5

26,019

Google

Propietaria

nan

2

2

1446

+6/-6

13,715

Google

Propietaria

nan

Explicaciones

  • Ranking(UB): Clasificación basada en el modelo Bradley-Terry. Refleja el rendimiento integral del modelo en la arena y proporciona una estimación del límite superior de su puntuación Elo, ayudando a comprender su potencial competitivo.

  • Ranking(StyleCtrl): Clasificación después del control de estilo conversacional. Busca reducir el sesgo de preferencia causado por el estilo de respuesta (ej. extenso vs. conciso), evaluando más puramente la capacidad central del modelo.

  • Nombre del Modelo: Nombre del modelo de lenguaje grande (LLM). Esta columna incluye enlaces a los modelos.

  • Puntuación: Calificación Elo obtenida por votación de usuarios en la arena. Una puntuación más alta indica mejor rendimiento. Es dinámica y refleja la fuerza relativa actual.

  • Intervalo de Confianza: Intervalo de confianza del 95% para la puntuación Elo (ej: +6/-6). Un intervalo menor indica mayor estabilidad.

  • Votos: Número total de votos recibidos por el modelo. Más votos suelen indicar mayor fiabilidad estadística.

  • Proveedor: Organización o empresa que proporciona el modelo.

  • Licencia: Tipo de licencia del modelo (ej: Propietaria, Apache 2.0, MIT).

  • Fecha Límite de Conocimiento: Fecha de corte de los datos de entrenamiento. Sin datos indica información no disponible.

Fuente de Datos y Frecuencia de Actualización

Esta clasificación es generada automáticamente por el proyecto fboulnois/llm-leaderboard-csv, que obtiene y procesa datos de lmarena.ai. Se actualiza diariamente mediante GitHub Actions.

Descargo de Responsabilidad

Este informe es solo para referencia. La clasificación es dinámica y se basa en votos de preferencia de usuarios en Chatbot Arena durante períodos específicos. La integridad y precisión dependen de las fuentes de datos ascendentes y del procesamiento del proyecto fboulnois/llm-leaderboard-csv. Los diferentes modelos pueden tener licencias distintas: consulte siempre las indicaciones oficiales del proveedor.

最后更新于

这有帮助吗?