Бенчмарки моделей
Этот документ переведен с китайского языка с помощью ИИ и еще не был проверен.
Этот рейтинг основан на данных Chatbot Arena (lmarena.ai) и генерируется автоматически.
Время обновления данных: 2025-07-24 11:44:24 UTC / 2025-07-24 19:44:24 CST (время по Пекину)
Таблица лидеров
Пояснения
Рейтинг (UB): Рейтинг, рассчитанный на основе модели Брэдли-Терри. Отражает общую производительность модели в арене и показывает верхнюю границу оценки рейтинга Эло, что помогает понять потенциал модели.
Рейтинг (StyleCtrl): Рейтинг после контроля стиля общения. Уменьшает влияние предпочтений из-за стиля ответов моделей (например, длинные или краткие ответы), более точно оценивая их ключевые способности.
Название модели: Название большой языковой модели (LLM). Колонка содержит ссылки — нажмите для перехода к детальной информации или тестированию модели.
Очки: Рейтинг Эло, полученный через голоса пользователей в арене. Чем выше балл, тем лучше производительность модели. Значение динамическое и отражает текущую конкурентную среду.
Доверительный интервал: 95% доверительный интервал оценки Эло (например,
+6/-6
). Чем меньше интервал, тем стабильнее рейтинг; широкий интервал может означать недостаточные данные или нестабильную производительность модели.Количество голосов: Общее число голосов, полученных моделью в арене. Чем больше голосов, тем выше статистическая надежность оценки.
Провайдер: Организация или компания, предоставляющая модель.
Лицензия: Тип лицензии (e.g., собственническая (Proprietary), Apache 2.0, MIT и т.д.).
Дата обновления знаний: Срок актуальности обучающих данных. Нет данных означает отсутствие информации.
Источник данных и частота обновлений
Данные для этого рейтинга автоматически предоставляются и генерируются проектом fboulnois/llm-leaderboard-csv, который получает и обрабатывает данные с lmarena.ai. Рейтинг обновляется ежедневно через GitHub Actions.
Отказ от ответственности
Этот отчёт предназначен только для справки. Данные в таблице лидеров динамичны и основаны на предпочтениях пользователей в Chatbot Arena за определённый период. Полнота и точность данных зависят от первоисточника и обработки в проекте fboulnois/llm-leaderboard-csv
. Разные модели могут использовать разные лицензии; при использовании обращайтесь к официальной документации провайдеров моделей.
最后更新于
这有帮助吗?