Бенчмарки моделей
Этот документ переведен с китайского языка с помощью ИИ и еще не был проверен.
Этот рейтинг автоматически генерируется на основе данных Chatbot Arena (lmarena.ai).
Время обновления данных: 2025-07-13 11:43:48 UTC / 2025-07-13 19:43:48 CST (Пекинское время)
Рейтинговая таблица
Пояснения
Рейтинг(UB): Рейтинг, рассчитанный на основе модели Брэдли-Терри. Отражает общую производительность модели в арене и предоставляет верхнюю границу оценки Elo, помогая понять потенциальную конкурентоспособность модели.
Рейтинг(StyleCtrl): Рейтинг после контроля стиля диалога. Нацелен на уменьшение предвзятости предпочтений, вызванной стилем ответов модели (например, многословность, краткость), для более чистой оценки основных способностей модели.
Название модели: Название большой языковой модели (LLM). Эта колонка содержит ссылки на модели — нажмите для перехода.
Очки: Рейтинг Elo, полученный моделью через пользовательские голоса в арене. Рейтинг Elo — это относительная система ранжирования: чем выше балл, тем лучше производительность модели. Этот балл динамически изменяется, отражая относительную силу модели в текущей конкурентной среде.
Доверительный интервал: 95% доверительный интервал рейтинга Elo модели (например:
+6/-6
). Чем меньше интервал, тем стабильнее и надежнее оценка; больший интервал может указывать на недостаточность данных или нестабильность производительности модели. Предоставляет количественную оценку точности рейтинга.Голоса: Общее количество голосов, полученных моделью в арене. Чем больше голосов, тем выше статистическая надежность оценки.
Провайдер: Организация или компания, предоставляющая модель.
Лицензия: Тип лицензионного соглашения модели, например: проприетарная (Proprietary), Apache 2.0, MIT и т.д.
Дата обновления знаний: Дата актуальности обучающих данных модели. Нет данных означает, что информация не предоставлена или неизвестна.
Источник данных и частота обновлений
Данные для этого рейтинга автоматически генерируются проектом fboulnois/llm-leaderboard-csv, который получает и обрабатывает данные с lmarena.ai. Этот рейтинг автоматически обновляется ежедневно через GitHub Actions.
Отказ от ответственности
Этот отчет предоставлен исключительно в информационных целях. Данные рейтинга динамичны и основаны на предпочтениях пользователей в Chatbot Arena за определенный период. Полнота и точность данных зависят от обновлений и обработки исходных данных проектом fboulnois/llm-leaderboard-csv
. Разные модели могут использовать различные лицензионные соглашения — при использовании обязательно обращайтесь к официальной документации поставщика модели.
最后更新于
这有帮助吗?