モデルランキング
このドキュメントはAIによって中国語から翻訳されており、まだレビューされていません。
これはChatbot Arena (lmarena.ai)のデータに基づくランキングで、自動化プロセスにより生成されています。
データ更新時刻: 2025-08-11 11:44:05 UTC / 2025-08-11 19:44:05 CST (北京時間)
ランキング
説明
順位(UB): Bradley-Terryモデルに基づくランキング。アリーナでのモデルの総合的なパフォーマンスを反映し、Eloスコアの上限推定を提供し、モデルの潜在的な競争力を理解するのに役立ちます。
順位(StyleCtrl): 会話スタイル制御後のランキング。モデルの応答スタイル(冗長さ、簡潔さなど)による嗜好の偏りを減らし、モデルの核心的な能力をより純粋に評価します。
モデル名: 大規模言語モデル(LLM)の名前。関連リンクが埋め込まれており、クリックするとジャンプします。
スコア: アリーナでのユーザー投票により獲得したElo評価スコア。Elo評価は相対的なランキングシステムで、スコアが高いほどモデルのパフォーマンスが優れていることを示します。このスコアは動的に変化し、現在の競争環境におけるモデルの相対的な実力を反映します。
信頼区間: モデルのElo評価スコアの95%信頼区間(例:
+6/-6
)。この区間が小さいほど、スコアが安定していて信頼性が高いことを示します。逆に区間が大きい場合は、データ量が不足しているか、モデルのパフォーマンスが変動しやすい可能性があります。スコアの正確性を定量化します。投票数: アリーナでそのモデルが受けた総投票数。投票数が多いほど、通常、その評価の統計的信頼性が高くなります。
プロバイダ: モデルを提供する組織または企業。
ライセンス: モデルのライセンスタイプ(例: 専有(Proprietary)、Apache 2.0、MITなど)。
ナレッジカットオフ: モデル訓練データの知識カットオフ日。データなしは情報が提供されていないか不明であることを示します。
データソースと更新頻度
このランキングのデータはfboulnois/llm-leaderboard-csvプロジェクトによって自動生成・提供されており、lmarena.aiからデータを取得・処理しています。このランキングはGitHub Actionsにより毎日自動更新されます。
免責事項
本レポートは参考情報としてご利用ください。ランキングデータは動的に変化し、特定の期間におけるChatbot Arena上でのユーザーの嗜好投票に基づいています。データの完全性と正確性は、上流のデータソースおよびfboulnois/llm-leaderboard-csv
プロジェクトの更新と処理に依存します。異なるモデルは異なるライセンスを採用している場合があるため、ご利用の際は必ずモデルプロバイダの公式説明を参照してください。
最后更新于
这有帮助吗?