模型榜单
这是一个基于 Chatbot Arena (lmarena.ai) 数据的排行榜,通过自动化流程生成。
数据更新时间: 2025-06-21 09:44:44 UTC / 2025-06-21 17:44:44 CST (北京时间)
排行榜
说明
排名(UB):基于 Bradley-Terry 模型计算的排名。此排名反映了模型在竞技场中的综合表现,并提供了其 Elo 分数的 上界 估计,帮助理解模型的潜在竞争力。
排名(StyleCtrl):经过对话风格控制后的排名。此排名旨在减少因模型回复风格(例如冗长、简洁)带来的偏好偏差,更纯粹地评估模型的核心能力。
模型名:大型语言模型 (LLM) 的名称。此列已嵌入模型相关链接,点击可跳转。
分数:模型在竞技场中通过用户投票获得的 Elo 评分。Elo 评分是一种相对排名系统,分数越高表示模型表现越好。该分数是动态变化的,反映了模型在当前竞争环境中的相对实力。
置信区间:模型 Elo 评分的95%置信区间(例如:
+6/-6
)。这个区间越小,表示模型的评分越稳定和可靠;反之,区间越大可能意味着数据量不足或模型表现波动较大。它提供了对评分准确性的量化评估。票数:该模型在竞技场中收到的总投票数量。投票数越多,通常意味着其评分的统计可靠性越高。
服务商:提供该模型的组织或公司。
许可协议:模型的许可协议类型,例如专有 (Proprietary)、Apache 2.0、MIT 等。
知识截止日期:模型训练数据的知识截止日期。暂无数据 表示相关信息未提供或未知。
数据来源与更新频率
本排行榜数据由 fboulnois/llm-leaderboard-csv 项目自动生成并提供,该项目从 lmarena.ai 获取并处理数据。此排行榜由 GitHub Actions 每天自动更新。
免责声明
本报告仅供参考。排行榜数据是动态变化的,并基于特定时间段内用户在 Chatbot Arena 上的偏好投票。数据的完整性和准确性取决于上游数据源及 fboulnois/llm-leaderboard-csv
项目的更新和处理。不同模型可能采用不同的许可协议,使用时请务必参考模型提供商的官方说明。
最后更新于
这有帮助吗?