# 模型數據

{% hint style="info" %}

* 以下資訊只供參考，如有錯誤可聯絡更正，部分模型嘅服務商唔同，其上下文大小同模型資訊都可能會有分別；
* 喺客戶端輸入資料時需要將「k」轉換成實際數值（理論上1k=1024 tokens；1m=1024k tokens），例如8k即係8×1024=8192 tokens。建議實際使用時×1000就得，避免報錯，例如8k即係8×1000=8000，1m=1×1000000=1000000；
* 最大輸出為「-」嘅，代表未喺官方查到該模型明確嘅最大輸出資訊。
  {% endhint %}

<table><thead><tr><th width="313">模型名稱</th><th width="158">最大輸入</th><th width="72">最大輸出</th><th width="95">函數調用</th><th width="142">模型能力</th><th width="540">服務商</th><th width="257">簡介</th></tr></thead><tbody><tr><td>360gpt-pro</td><td>8k</td><td>-</td><td>唔支援</td><td>對話</td><td>360AI_360gpt</td><td>360智腦系列效果最好嘅主力千億級大模型，廣泛適用於各領域複雜任務場景。</td></tr><tr><td>360gpt-turbo</td><td>7k</td><td>-</td><td>唔支援</td><td>對話</td><td>360AI_360gpt</td><td>兼顧性能同效果嘅百億級大模型，適合對性能／成本要求較高嘅場景。</td></tr><tr><td>360gpt-turbo-responsibility-8k</td><td>8k</td><td>-</td><td>唔支援</td><td>對話</td><td>360AI_360gpt</td><td>兼顧性能同效果嘅百億級大模型，適合對性能／成本要求較高嘅場景。</td></tr><tr><td>360gpt2-pro</td><td>8k</td><td>-</td><td>唔支援</td><td>對話</td><td>360AI_360gpt</td><td>360智腦系列效果最好嘅主力千億級大模型，廣泛適用於各領域複雜任務場景。</td></tr><tr><td>claude-3-5-sonnet-20240620</td><td>200k</td><td>16k</td><td>唔支援</td><td>對話,識圖</td><td>Anthropic_claude</td><td>於2024年6月20日發布嘅快照版本，Claude 3.5 Sonnet 係一個平衡咗性能同速度嘅模型，喺保持高速嘅同時提供頂級性能，支援多模態輸入。</td></tr><tr><td>claude-3-5-haiku-20241022</td><td>200k</td><td>16k</td><td>唔支援</td><td>對話</td><td>Anthropic_claude</td><td>於2024年10月22日發布嘅快照版本，Claude 3.5 Haiku 喺各項技能上都有提升，包括編碼、工具使用同推理。作為Anthropic系列入面速度最快嘅模型，佢提供快速回應時間，適合需要高互動性同低延遲嘅應用，例如面向用戶嘅聊天機械人同即時代碼補全。佢喺資料提取同實時內容審核等專業任務中亦表現出色，令佢成為各行各業都可以廣泛應用嘅多功能工具。佢唔支援圖像輸入。</td></tr><tr><td>claude-3-5-sonnet-20241022</td><td>200k</td><td>8K</td><td>唔支援</td><td>對話,識圖</td><td>Anthropic_claude</td><td>於2024年10月22日發布嘅快照版本，Claude 3.5 Sonnet 提供咗超越 Opus 嘅能力同比 Sonnet 更快嘅速度，同時保持同 Sonnet 一樣嘅價格。Sonnet 特別擅長編程、數據科學、視覺處理、代理任務。</td></tr><tr><td>claude-3-5-sonnet-latest</td><td>200K</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Anthropic_claude</td><td>動態指向最新嘅Claude 3.5 Sonnet版本，Claude 3.5 Sonnet 提供咗超越 Opus 嘅能力同比 Sonnet 更快嘅速度，同時保持同 Sonnet 一樣嘅價格。Sonnet 特別擅長編程、數據科學、視覺處理、代理任務，呢個模型會指向最新版本。</td></tr><tr><td>claude-3-haiku-20240307</td><td>200k</td><td>4k</td><td>唔支援</td><td>對話,識圖</td><td>Anthropic_claude</td><td>Claude 3 Haiku 係 Anthropic 最快同最緊湊嘅模型，旨在實現近乎即時嘅回應。佢有快速而準確嘅定向性能。</td></tr><tr><td>claude-3-opus-20240229</td><td>200k</td><td>4k</td><td>唔支援</td><td>對話,識圖</td><td>Anthropic_claude</td><td>Claude 3 Opus 係 Anthropic 用嚟處理高度複雜任務嘅最強大模型。佢喺性能、智能、流暢性同理解力方面表現卓越。</td></tr><tr><td>claude-3-sonnet-20240229</td><td>200k</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Anthropic_claude</td><td>於2024年2月29日發布嘅快照版本，Sonnet 特別擅長於：<br><br>- 編碼：能夠自主編寫、編輯同運行代碼，並具備推理同故障排除能力<br>- 數據科學：增強人類嘅數據科學專業知識；喺使用多種工具獲取洞察時，能夠處理非結構化數據<br>- 視覺處理：擅長解讀圖表、圖形同圖像，準確轉錄文字以獲取超越文本本身嘅洞察<br>- 代理任務：工具使用出色，非常適合處理代理任務（即需要同其他系統互動嘅複雜多步問題解決任務）</td></tr><tr><td>google/gemma-2-27b-it</td><td>8k</td><td>-</td><td>唔支援</td><td>對話</td><td>Google_gamma</td><td>Gemma 係由 Google 開發嘅輕量級、最先進嘅開放模型系列，採用同 Gemini 模型相同嘅研究同技術構建。呢啲模型係只解碼器大型語言模型，支援英文，提供預訓練同指令微調兩種變體嘅開放權重。Gemma 模型適用於各種文本生成任務，包括問答、摘要同推理。</td></tr><tr><td>google/gemma-2-9b-it</td><td>8k</td><td>-</td><td>唔支援</td><td>對話</td><td>Google_gamma</td><td>Gemma 係 Google 開發嘅輕量級、最先進嘅開放模型系列之一。佢係一個只解碼器大型語言模型，支援英文，提供開放權重、預訓練變體同指令微調變體。Gemma 模型適用於各種文本生成任務，包括問答、摘要同推理。呢個 9B 模型係用 8 萬億個 tokens 訓練而成。</td></tr><tr><td>gemini-1.5-pro</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話</td><td>Google_gemini</td><td>Gemini 1.5 Pro 嘅最新穩定版本。作為一個強大嘅多模態模型，佢可以處理長達6萬行代碼或者2,000頁文本。特別適合需要複雜推理嘅任務。</td></tr><tr><td>gemini-1.0-pro-001</td><td>33k</td><td>8k</td><td>唔支援</td><td>對話</td><td>Google_gemini</td><td>呢個係 Gemini 1.0 Pro 嘅穩定版本。作為一個 NLP 模型，佢專門處理多輪文本同代碼聊天，以及代碼生成等任務。呢個模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。</td></tr><tr><td>gemini-1.0-pro-002</td><td>32k</td><td>8k</td><td>唔支援</td><td>對話</td><td>Google_gemini</td><td>呢個係 Gemini 1.0 Pro 嘅穩定版本。作為一個 NLP 模型，佢專門處理多輪文本同代碼聊天，以及代碼生成等任務。呢個模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。</td></tr><tr><td>gemini-1.0-pro-latest</td><td>33k</td><td>8k</td><td>唔支援</td><td>對話,已廢棄或即將廢棄</td><td>Google_gemini</td><td>呢個係 Gemini 1.0 Pro 嘅最新版本。作為一個 NLP 模型，佢專門處理多輪文本同代碼聊天，以及代碼生成等任務。呢個模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。</td></tr><tr><td>gemini-1.0-pro-vision-001</td><td>16k</td><td>2k</td><td>唔支援</td><td>對話</td><td>Google_gemini</td><td>呢個係 Gemini 1.0 Pro 嘅視覺版本。呢個模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。</td></tr><tr><td>gemini-1.0-pro-vision-latest</td><td>16k</td><td>2k</td><td>唔支援</td><td>識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.0 Pro 嘅視覺最新版本。呢個模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。</td></tr><tr><td>gemini-1.5-flash</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Flash 嘅最新穩定版本。作為一個平衡嘅多模態模型，佢可以處理音頻、圖片、視頻同文本輸入。</td></tr><tr><td>gemini-1.5-flash-001</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Flash 嘅穩定版本。佢哋提供同 gemini-1.5-flash 一樣嘅基本功能，但版本固定，適合生產環境使用。</td></tr><tr><td>gemini-1.5-flash-002</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Flash 嘅穩定版本。佢哋提供同 gemini-1.5-flash 一樣嘅基本功能，但版本固定，適合生產環境使用。</td></tr><tr><td>gemini-1.5-flash-8b</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 1.5 Flash-8B 係 Google 最新推出嘅一款多模態人工智能模型，專為高效處理大規模任務而設計。呢個模型有80億個參數，能夠支援文本、圖像、音頻同視頻輸入，適用於多種應用場景，例如聊天、轉錄同翻譯等。相比其他 Gemini 模型，Flash-8B 喺速度同成本效益上做咗優化，特別適合對成本敏感嘅用戶。佢嘅速率限制提高咗一倍，令開發者可以更高效咁進行大規模任務處理。此外，Flash-8B 仲採用咗「知識蒸餾」技術，由更大模型中提煉出關鍵知識，確保喺保持核心能力嘅同時實現輕量化同高效化。</td></tr><tr><td>gemini-1.5-flash-exp-0827</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Flash 嘅實驗版本，會定期更新以包含最新改進。適合探索性測試同原型開發，不建議用於生產環境。</td></tr><tr><td>gemini-1.5-flash-latest</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Flash 嘅尖端版本，會定期更新以包含最新改進。適合探索性測試同原型開發，不建議用於生產環境。</td></tr><tr><td>gemini-1.5-pro-001</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Pro 嘅穩定版本，提供固定嘅模型行為同性能特徵。適合需要穩定性嘅生產環境使用。</td></tr><tr><td>gemini-1.5-pro-002</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Pro 嘅穩定版本，提供固定嘅模型行為同性能特徵。適合需要穩定性嘅生產環境使用。</td></tr><tr><td>gemini-1.5-pro-exp-0801</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 1.5 Pro 嘅試驗版本。作為一個強大嘅多模態模型，佢可以處理長達6萬行代碼或者2,000頁文本。特別適合需要複雜推理嘅任務。</td></tr><tr><td>gemini-1.5-pro-exp-0827</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 1.5 Pro 嘅試驗版本。作為一個強大嘅多模態模型，佢可以處理長達6萬行代碼或者2,000頁文本。特別適合需要複雜推理嘅任務。</td></tr><tr><td>gemini-1.5-pro-latest</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.5 Pro 嘅最新版本，動態指向最新嘅快照版本</td></tr><tr><td>gemini-2.0-flash</td><td>1m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 2.0 Flash 係 Google 最新推出嘅模型，相比1.5版本有更快嘅首次生成速度(TTFT)，同時保持咗同 Gemini Pro 1.5 相當嘅質素水平；呢個模型喺多模態理解、代碼能力、複雜指令執行同函數調用等方面都有明顯提升，從而可以提供更流暢同更強大嘅智能體驗。</td></tr><tr><td>gemini-2.0-flash-exp</td><td>100k</td><td>8k</td><td>支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 2.0 Flash 引入多模態實時API、改進速度同性能、提升質量、增強代理能力，並增加圖像生成同語音轉換功能。</td></tr><tr><td>gemini-2.0-flash-lite-preview-02-05</td><td>1M</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 2.0 Flash-Lite 係 Google 最新發布嘅高性價比AI模型，喺保持同1.5 Flash相同速度嘅同時質量更好；支援100萬tokens嘅上下文窗口，能夠處理圖像、音頻同代碼等多模態任務；作為目前 Google 成本效益最高嘅模型，採用簡化嘅單一定價策略，特別適合需要控制成本嘅大規模應用場景。</td></tr><tr><td>gemini-2.0-flash-thinking-exp</td><td>40k</td><td>8k</td><td>唔支援</td><td>對話,推理</td><td>Google_gemini</td><td>gemini-2.0-flash-thinking-exp 係一個實驗模型，佢可以生成喺作出反應時所經歷嘅「思考過程」。因此，同基本嘅 Gemini 2.0 Flash 模型相比，「思考模式」嘅反應有更強嘅推理能力。</td></tr><tr><td>gemini-2.0-flash-thinking-exp-01-21</td><td>1m</td><td>64k</td><td>唔支援</td><td>對話,推理</td><td>Google_gemini</td><td>Gemini 2.0 Flash Thinking EXP-01-21 係 Google 最新推出嘅人工智能模型，專注於提升推理能力同用戶互動體驗。呢個模型具備強大推理能力，尤其喺數學同編程領域表現突出，並支援高達100萬token嘅上下文窗口，適用於複雜任務同深入分析場景。佢嘅獨特之處在於可以生成思考過程，提高AI思維嘅可理解性，同時支援原生代碼執行，增強咗互動嘅靈活性同實用性。通過優化算法，模型減少咗邏輯矛盾，進一步提升咗回答嘅準確性同一致性。</td></tr><tr><td>gemini-2.0-flash-thinking-exp-1219</td><td>40k</td><td>8k</td><td>唔支援</td><td>對話,推理,識圖</td><td>Google_gemini</td><td>gemini-2.0-flash-thinking-exp-1219 係一個實驗模型，佢可以生成喺作出反應時所經歷嘅「思考過程」。因此，同基本嘅 Gemini 2.0 Flash 模型相比，「思考模式」嘅反應有更強嘅推理能力。</td></tr><tr><td>gemini-2.0-pro-exp-01-28</td><td>2m</td><td>64k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>預加模型,仲未上線</td></tr><tr><td>gemini-2.0-pro-exp-02-05</td><td>2m</td><td>8k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>Gemini 2.0 Pro Exp 02-05 係 Google 2024年2月發布嘅最新實驗性模型，喺世界知識、代碼生成同長文本理解方面表現突出；呢個模型支援200萬tokens嘅超長上下文窗口，能處理2小時視頻、22小時音頻、6萬幾行代碼同140萬幾個單詞嘅內容；作為 Gemini 2.0 系列一部分，呢個模型採用了新嘅 Flash Thinking 訓練策略，性能得到明顯提升，喺多個 LLM 評分榜單中名列前茅，展現出強大嘅綜合能力。</td></tr><tr><td>gemini-exp-1114</td><td>8k</td><td>4k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係一個實驗性模型，於 2024 年 11 月 14 日發布，主要關注質量改進。</td></tr><tr><td>gemini-exp-1121</td><td>8k</td><td>4k</td><td>唔支援</td><td>對話,識圖,代碼</td><td>Google_gemini</td><td>呢個係一個實驗性模型，於 2024 年 11 月 21 日發布，改進咗編碼、推理同視覺能力。</td></tr><tr><td>gemini-exp-1206</td><td>8k</td><td>4k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係一個實驗性模型，於 2024 年 12 月 6 日發布，改進咗編碼、推理同視覺能力。</td></tr><tr><td>gemini-exp-latest</td><td>8k</td><td>4k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係一個實驗性模型，動態指向最新版本</td></tr><tr><td>gemini-pro</td><td>33k</td><td>8k</td><td>唔支援</td><td>對話</td><td>Google_gemini</td><td>同gemini-1.0-pro一樣，係gemini-1.0-pro嘅別名</td></tr><tr><td>gemini-pro-vision</td><td>16k</td><td>2k</td><td>唔支援</td><td>對話,識圖</td><td>Google_gemini</td><td>呢個係 Gemini 1.0 Pro 嘅視覺版本。呢個模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。</td></tr><tr><td>grok-2</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>Grok_grok</td><td>X.ai於2024.12.12發布嘅新版本grok模型。</td></tr><tr><td>grok-2-1212</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>Grok_grok</td><td>X.ai於2024.12.12發布嘅新版本grok模型。</td></tr><tr><td>grok-2-latest</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>Grok_grok</td><td>X.ai於2024.12.12發布嘅新版本grok模型。</td></tr><tr><td>grok-2-vision-1212</td><td>32k</td><td>-</td><td>唔支援</td><td>對話,識圖</td><td>Grok_grok</td><td>X.ai於2024.12.12發布嘅grok視覺版本模型。</td></tr><tr><td>grok-beta</td><td>100k</td><td>-</td><td>唔支援</td><td>對話</td><td>Grok_grok</td><td>性能同 Grok 2 相當，但效率、速度同功能都有提升。</td></tr><tr><td>grok-vision-beta</td><td>8k</td><td>-</td><td>唔支援</td><td>對話,識圖</td><td>Grok_grok</td><td>最新嘅圖像理解模型可以處理各種視覺資訊，包括文件、圖表、截圖同相片。</td></tr><tr><td>internlm/internlm2_5-20b-chat</td><td>32k</td><td>-</td><td>支援</td><td>對話</td><td>internlm</td><td>InternLM2.5-20B-Chat 係一個開源大規模對話模型，基於 InternLM2 架構開發。呢個模型有200億參數，喺數學推理方面表現出色，超越咗同量級嘅 Llama3 同 Gemma2-27B 模型。InternLM2.5-20B-Chat 喺工具調用能力方面有明顯提升，支援由上百個網頁收集資訊進行分析推理，並具備更強嘅指令理解、工具選擇同結果反思能力。</td></tr><tr><td>meta-llama/Llama-3.2-11B-Vision-Instruct</td><td>8k</td><td>-</td><td>唔支援</td><td>對話,識圖</td><td>Meta_llama</td><td>而家 Llama 系列模型唔單止可以處理文本數據，仲可以處理圖像數據；Llama3.2 嘅部分模型加入咗視覺理解功能，呢個模型支援同時輸入文本同圖像數據，對圖像進行理解並輸出文本資訊。</td></tr><tr><td>meta-llama/Llama-3.2-3B-Instruct</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>Meta_llama</td><td>Meta Llama 3.2多語言大語言模型（LLM），其中1B、3B係可以喺邊緣同移動設備上運行嘅輕量級模型，本模型為3B版本。</td></tr><tr><td>meta-llama/Llama-3.2-90B-Vision-Instruct</td><td>8k</td><td>-</td><td>唔支援</td><td>對話,識圖</td><td>Meta_llama</td><td>而家 Llama 系列模型唔單止可以處理文本數據，仲可以處理圖像數據；Llama3.2 嘅部分模型加入咗視覺理解功能，呢個模型支援同時輸入文本同圖像數據，對圖像進行理解並輸出文本資訊。</td></tr><tr><td>meta-llama/Llama-3.3-70B-Instruct</td><td>131k</td><td>-</td><td>唔支援</td><td>對話</td><td>Meta_llama</td><td>Meta 最新款 70B LLM，性能同 llama 3.1 405B 相當。</td></tr><tr><td>meta-llama/Meta-Llama-3.1-405B-Instruct</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>Meta_llama</td><td>Meta Llama 3.1多語言大語言模型（LLM）集合係8B、70B同405B尺寸嘅預訓練同指令微調生成模型集合，本模型為405B版本。Llama 3.1指令微調文本模型（8B、70B、405B）針對多語言對話進行咗優化，喺常見行業基準上優於好多可用嘅開源同閉源聊天模型。</td></tr><tr><td>meta-llama/Meta-Llama-3.1-70B-Instruct</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>Meta_llama</td><td>Meta Llama 3.1 係由 Meta 開發嘅多語言大型語言模型家族，包括 8B、70B 同 405B 三種參數規模嘅預訓練同指令微調變體。呢個 70B 指令微調模型針對多語言對話場景進行咗優化，喺多項行業基準測試中表現優異。模型訓練使用咗超過 15 萬億個 tokens 嘅公開數據，並採用咗監督微調同人類反饋強化學習等技術去提升模型嘅有用性同安全性。</td></tr><tr><td>meta-llama/Meta-Llama-3.1-8B-Instruct</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>Meta_llama</td><td>Meta Llama 3.1多語言大語言模型（LLM）集合係8B、70B同405B尺寸嘅預訓練同指令微調生成模型集合，本模型為8B版本。Llama 3.1指令微調文本模型（8B、70B、405B）針對多語言對話進行咗優化，喺常見行業基準上優於好多可用嘅開源同閉源聊天模型。</td></tr><tr><td>abab5.5-chat</td><td>16k</td><td>-</td><td>支援</td><td>對話</td><td>Minimax_abab</td><td>中文人設對話場景</td></tr><tr><td>abab5.5s-chat</td><td>8k</td><td>-</td><td>支援</td><td>對話</td><td>Minimax_abab</td><td>中文人設對話場景</td></tr><tr><td>abab6.5g-chat</td><td>8k</td><td>-</td><td>支援</td><td>對話</td><td>Minimax_abab</td><td>英文等多語種人設對話場景</td></tr><tr><td>abab6.5s-chat</td><td>245k</td><td>-</td><td>支援</td><td>對話</td><td>Minimax_abab</td><td>通用場景</td></tr><tr><td>abab6.5t-chat</td><td>8k</td><td>-</td><td>支援</td><td>對話</td><td>Minimax_abab</td><td>中文人設對話場景</td></tr><tr><td>chatgpt-4o-latest</td><td>128k</td><td>16k</td><td>唔支援</td><td>對話,識圖</td><td>OpenAI</td><td>chatgpt-4o-latest 模型版本持續指向 ChatGPT 中使用嘅 GPT-4o 版本，並會喺有重大變化時最快更新。</td></tr><tr><td>gpt-4o-2024-11-20</td><td>128k</td><td>16k</td><td>支援</td><td>對話</td><td>OpenAI</td><td>2024 年 11 月 20 日嘅最新 gpt-4o 快照版本。</td></tr><tr><td>gpt-4o-audio-preview</td><td>128k</td><td>16k</td><td>唔支援</td><td>對話</td><td>OpenAI</td><td>OpenAI嘅實時語音對話模型</td></tr><tr><td>gpt-4o-audio-preview-2024-10-01</td><td>128k</td><td>16k</td><td>支援</td><td>對話</td><td>OpenAI</td><td>OpenAI嘅實時語音對話模型</td></tr><tr><td>o1</td><td>128k</td><td>32k</td><td>唔支援</td><td>對話,推理,識圖</td><td>OpenAI</td><td>OpenAI針對需要廣泛常識嘅複雜任務推出嘅新推理模型。呢個模型有 200k 上下文，而家係全球最強模型，支援圖片識別</td></tr><tr><td>o1-mini-2024-09-12</td><td>128k</td><td>64k</td><td>唔支援</td><td>對話,推理</td><td>OpenAI</td><td>o1-mini嘅固定快照版本，比 o1-preview 更細、更快，成本低80%，喺代碼生成同小上下文操作方面表現良好。</td></tr><tr><td>o1-preview-2024-09-12</td><td>128k</td><td>32k</td><td>唔支援</td><td>對話,推理</td><td>OpenAI</td><td>o1-preview嘅固定快照版本</td></tr><tr><td>gpt-3.5-turbo</td><td>16k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-3</td><td>基於 GPT-3.5： GPT-3.5 Turbo 係建基於 GPT-3.5 模型嘅改進版本，由 OpenAI 開發。<br>性能目標： 設計目的係通過優化模型結構同算法，提高模型嘅推理速度、處理效率同資源利用率。<br>提升嘅推理速度： 相對於 GPT-3.5，GPT-3.5 Turbo 喺相同硬件條件下通常可以提供更快嘅推理速度，對需要大規模文本處理嘅應用特別有幫助。<br>更高嘅吞吐量： 喺處理大量請求或數據時，GPT-3.5 Turbo 可以實現更高嘅並發處理能力，從而提升整體系統吞吐量。<br>優化嘅資源消耗： 喺保持性能嘅同時，可能降低咗對硬件資源（例如內存同計算資源）嘅需求，有助降低運行成本同提高系統可擴展性。<br>廣泛嘅自然語言處理任務： GPT-3.5 Turbo 適用於多種自然語言處理任務，包括但不限於文本生成、語義理解、對話系統、機器翻譯等。<br>開發者工具同API支援： 提供咗方便開發者整合同使用嘅 API 接口，支援快速開發同部署應用程式。</td></tr><tr><td>gpt-3.5-turbo-0125</td><td>16k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-3</td><td>更新後嘅 GPT 3.5 Turbo，對請求格式嘅準確性更高，並修復咗一個導致非英語語言函數調用文本編碼問題嘅錯誤。最多返回 4,096 個輸出令牌。</td></tr><tr><td>gpt-3.5-turbo-0613</td><td>16k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-3</td><td>更新後嘅 GPT 3.5 Turbo固定快照版本。目前已棄用</td></tr><tr><td>gpt-3.5-turbo-1106</td><td>16k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-3</td><td>具有改進嘅指令跟隨、JSON 模式、可重現輸出、並行函數調用等。最多返回 4,096 個輸出令牌。</td></tr><tr><td>gpt-3.5-turbo-16k</td><td>16k</td><td>4k</td><td>支援</td><td>對話,已廢棄或即將廢棄</td><td>OpenAI_gpt-3</td><td>（已棄用）</td></tr><tr><td>gpt-3.5-turbo-16k-0613</td><td>16k</td><td>4k</td><td>支援</td><td>對話,已廢棄或即將廢棄</td><td>OpenAI_gpt-3</td><td>gpt-3.5-turbo 於 2023年6月13日嘅快照。（已棄用）</td></tr><tr><td>gpt-3.5-turbo-instruct</td><td>4k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-3</td><td>同 GPT-3 時代模型類似嘅能力。兼容遺留 Completions 端點，不適用於 Chat Completions。</td></tr><tr><td>gpt-3.5o</td><td>16k</td><td>4k</td><td>唔支援</td><td>對話</td><td>OpenAI_gpt-3</td><td>同gpt-4o-lite</td></tr><tr><td>gpt-4</td><td>8k</td><td>8k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>而家指向 gpt-4-0613。</td></tr><tr><td>gpt-4-0125-preview</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>最新嘅 GPT-4 模型，旨在減少「懶惰」情況，即模型未完成任務。最多返回 4,096 個輸出令牌。</td></tr><tr><td>gpt-4-0314</td><td>8k</td><td>8k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>gpt-4 2023年3月14日嘅快照</td></tr><tr><td>gpt-4-0613</td><td>8k</td><td>8k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>gpt-4 2023年6月13日嘅快照，增強咗函數調用支援。</td></tr><tr><td>gpt-4-1106-preview</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>GPT-4 Turbo 模型，具有改進嘅指令跟隨、JSON 模式、可重現輸出、函數調用等。最多返回 4,096 個輸出令牌。呢個係預覽模型。</td></tr><tr><td>gpt-4-32k</td><td>32k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>gpt-4-32k將於2025-06-06棄用。</td></tr><tr><td>gpt-4-32k-0613</td><td>32k</td><td>4k</td><td>支援</td><td>對話,已廢棄或即將廢棄</td><td>OpenAI_gpt-4</td><td>將於2025-06-06棄用。</td></tr><tr><td>gpt-4-turbo</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>最新版嘅 GPT-4 Turbo 模型新增咗視覺功能，支援透過 JSON 模式同函數調用去處理視覺請求。呢個模型目前版本係 gpt-4-turbo-2024-04-09。</td></tr><tr><td>gpt-4-turbo-2024-04-09</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>OpenAI_gpt-4</td><td>帶視覺功能嘅 GPT-4 Turbo 模型。依家，視覺請求可以透過 JSON 模式同函數調用去實現。gpt-4-turbo 目前版本就係呢一版。</td></tr><tr><td>gpt-4-turbo-preview</td><td>128k</td><td>4k</td><td>支援</td><td>對話,識圖</td><td>OpenAI_gpt-4</td><td>而家指向 gpt-4-0125-preview。</td></tr><tr><td>gpt-4o</td><td>128k</td><td>16k</td><td>支援</td><td>對話,識圖</td><td>OpenAI_gpt-4</td><td>OpenAI嘅高智能旗艦模型，適用於複雜嘅多步驟任務。GPT-4o 比 GPT-4 Turbo 更平、更快。</td></tr><tr><td>gpt-4o-2024-05-13</td><td>128k</td><td>4k</td><td>支援</td><td>對話,識圖</td><td>OpenAI_gpt-4</td><td>2024 年 5 月 13 日嘅原始 gpt-4o 快照。</td></tr><tr><td>gpt-4o-2024-08-06</td><td>128k</td><td>16k</td><td>支援</td><td>對話,識圖</td><td>OpenAI_gpt-4</td><td>支援結構化輸出嘅第一個快照。gpt-4o目前指向呢個版本。</td></tr><tr><td>gpt-4o-mini</td><td>128k</td><td>16k</td><td>支援</td><td>對話,識圖</td><td>OpenAI_gpt-4</td><td>OpenAI經濟實惠嘅gpt-4o版本，適合快速、輕量級任務。GPT-4o mini 比 GPT-3.5 Turbo 更平、更強大。目前指向 gpt-4o-mini-2024-07-18。</td></tr><tr><td>gpt-4o-mini-2024-07-18</td><td>128k</td><td>16k</td><td>支援</td><td>對話,識圖</td><td>OpenAI_gpt-4</td><td>gpt-4o-mini嘅固定快照版本。</td></tr><tr><td>gpt-4o-realtime-preview</td><td>128k</td><td>4k</td><td>支援</td><td>對話,實時語音</td><td>OpenAI_gpt-4</td><td>OpenAI嘅實時語音對話模型</td></tr><tr><td>gpt-4o-realtime-preview-2024-10-01</td><td>128k</td><td>4k</td><td>支援</td><td>對話,實時語音,識圖</td><td>OpenAI_gpt-4</td><td>gpt-4o-realtime-preview目前指向呢個快照版本</td></tr><tr><td>o1-mini</td><td>128k</td><td>64k</td><td>唔支援</td><td>對話,推理</td><td>OpenAI_o1</td><td>比 o1-preview 更細、更快，成本低80%，喺代碼生成同小上下文操作方面表現良好。</td></tr><tr><td>o1-preview</td><td>128k</td><td>32k</td><td>唔支援</td><td>對話,推理</td><td>OpenAI_o1</td><td>o1-preview 係針對需要廣泛常識嘅複雜任務推出嘅新推理模型。呢個模型有 128K 上下文同 2023 年 10 月嘅知識截止點。專注於高級推理同解決複雜問題，包括數學同科學任務。非常適合需要深度上下文理解同自主工作流程嘅應用。</td></tr><tr><td>o3-mini</td><td>200k</td><td>100k</td><td>支援</td><td>對話,推理</td><td>OpenAI_o1</td><td>o3-mini 係 OpenAI 最新嘅小型推理模型，喺保持同 o1-mini 相同成本同延遲嘅情況下提供高智能，專注於科學、數學同編碼任務，支援結構化輸出、函數調用、批量API等開發者功能，知識庫截止到2023年10月，展現出推理能力同經濟性方面嘅明顯平衡。</td></tr><tr><td>o3-mini-2025-01-31</td><td>200k</td><td>100k</td><td>支援</td><td>對話,推理</td><td>OpenAI_o1</td><td>o3-mini目前指向呢個版本，o3-mini-2025-01-31 係 OpenAI 最新嘅小型推理模型，喺保持同 o1-mini 相同成本同延遲嘅情況下提供高智能，專注於科學、數學同編碼任務，支援結構化輸出、函數調用、批量API等開發者功能，知識庫截止到2023年10月，展現出推理能力同經濟性方面嘅明顯平衡。</td></tr><tr><td>Baichuan2-Turbo</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>百川_baichuan</td><td>相對業界同等尺寸模型，模型效果喺保持行業領先嘅同時，大幅降低咗價格</td></tr><tr><td>Baichuan3-Turbo</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>百川_baichuan</td><td>相對業界同等尺寸模型，模型效果喺保持行業領先嘅同時，大幅降低咗價格</td></tr><tr><td>Baichuan3-Turbo-128k</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>百川_baichuan</td><td>百川模型通過128k超長上下文窗口處理複雜文本，針對金融等行業進行專門優化，同時喺保持高性能嘅前提下大幅降低成本，為企業提供高性價比嘅解決方案。</td></tr><tr><td>Baichuan4</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>百川_baichuan</td><td>百川嘅MoE模型通過專門優化、降低成本同提升性能，喺企業應用中提供咗高效性價比嘅解決方案。</td></tr><tr><td>Baichuan4-Air</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>百川_baichuan</td><td>百川嘅MoE模型通過專門優化、降低成本同提升性能，喺企業應用中提供咗高效性價比嘅解決方案。</td></tr><tr><td>Baichuan4-Turbo</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>百川_baichuan</td><td>基於海量優質場景數據訓練，企業高頻場景可用性相對Baichuan4提升10%+，資訊摘要提升50%，多語言提升31%，內容生成提升13%<br>針對推理性能專項優化，首token回應速度相對Baichuan4提升51%，token流速提升73%</td></tr><tr><td>ERNIE-3.5-128K</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅旗艦級大規模大語言模型，覆蓋海量中英文語料，具有強大嘅通用能力，可滿足絕大部分對話問答、創作生成、插件應用場景要求；支援自動對接百度搜索插件，保障問答資訊時效。</td></tr><tr><td>ERNIE-3.5-8K</td><td>8k</td><td>1k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅旗艦級大規模大語言模型，覆蓋海量中英文語料，具有強大嘅通用能力，可滿足絕大部分對話問答、創作生成、插件應用場景要求；支援自動對接百度搜索插件，保障問答資訊時效。</td></tr><tr><td>ERNIE-3.5-8K-Preview</td><td>8k</td><td>1k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅旗艦級大規模大語言模型，覆蓋海量中英文語料，具有強大嘅通用能力，可滿足絕大部分對話問答、創作生成、插件應用場景要求；支援自動對接百度搜索插件，保障問答資訊時效。</td></tr><tr><td>ERNIE-4.0-8K</td><td>8k</td><td>1k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅旗艦級超大規模大語言模型，相較 ERNIE 3.5 實現咗模型能力全面升級，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效。</td></tr><tr><td>ERNIE-4.0-8K-Latest</td><td>8k</td><td>2k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE-4.0-8K-Latest 相比 ERNIE-4.0-8K 能力全面提升，其中角色扮演能力同指令遵循能力提升較大；相較 ERNIE 3.5 實現咗模型能力全面升級，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效，支援5K tokens輸入+2K tokens輸出。本文介紹咗 ERNIE-4.0-8K-Latest 接口調用方法。</td></tr><tr><td>ERNIE-4.0-8K-Preview</td><td>8k</td><td>1k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅旗艦級超大規模大語言模型，相較 ERNIE 3.5 實現咗模型能力全面升級，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效。</td></tr><tr><td>ERNIE-4.0-Turbo-128K</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo 係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效。相較於 ERNIE 4.0 喺性能表現上更優秀。ERNIE-4.0-Turbo-128K 係模型嘅一個版本，長文檔整體效果優於 ERNIE-3.5-128K。本文介紹咗相關API及使用。</td></tr><tr><td>ERNIE-4.0-Turbo-8K</td><td>8k</td><td>2k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo 係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效。相較於 ERNIE 4.0 喺性能表現上更優秀。ERNIE-4.0-Turbo-8K 係模型嘅一個版本。本文介紹咗相關API及使用。</td></tr><tr><td>ERNIE-4.0-Turbo-8K-Latest</td><td>8k</td><td>2k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo 係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效。相較於 ERNIE 4.0 喺性能表現上更優秀。ERNIE-4.0-Turbo-8K 係模型嘅一個版本。</td></tr><tr><td>ERNIE-4.0-Turbo-8K-Preview</td><td>8k</td><td>2k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo 係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支援自動對接百度搜索插件，保障問答資訊時效。ERNIE-4.0-Turbo-8K-Preview 係模型嘅一個版本</td></tr><tr><td>ERNIE-Character-8K</td><td>8k</td><td>1k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅垂直場景大語言模型，適合遊戲NPC、客服對話、對話角色扮演等應用場景，人設風格更鮮明、一致，指令遵循能力更強，推理性能更優</td></tr><tr><td>ERNIE-Lite-8K</td><td>8k</td><td>4k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅輕量級大語言模型，兼顧優異嘅模型效果同推理性能，適合低算力AI加速卡推理使用。</td></tr><tr><td>ERNIE-Lite-Pro-128K</td><td>128k</td><td>2k</td><td>支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅輕量級大語言模型，效果比 ERNIE Lite 更優，兼顧優異嘅模型效果同推理性能，適合低算力AI加速卡推理使用。ERNIE-Lite-Pro-128K 支援128K上下文長度，效果比 ERNIE-Lite-128K 更優。</td></tr><tr><td>ERNIE-Novel-8K</td><td>8k</td><td>2k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE-Novel-8K 係百度自研通用大語言模型，喺小說續寫能力上有明顯優勢，亦可以用喺短劇、電影等場景。</td></tr><tr><td>ERNIE-Speed-128K</td><td>128k</td><td>4k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>百度2024年最新發布嘅自研高性能大語言模型，通用能力優異，適合作為基座模型進行精調，更好處理特定場景問題，同時具備極佳嘅推理性能。</td></tr><tr><td>ERNIE-Speed-8K</td><td>8k</td><td>1k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>百度2024年最新發布嘅自研高性能大語言模型，通用能力優異，適合作為基座模型進行精調，更好處理特定場景問題，同時具備極佳嘅推理性能。</td></tr><tr><td>ERNIE-Speed-Pro-128K</td><td>128k</td><td>4k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>ERNIE Speed Pro 係百度2024年最新發布嘅自研高性能大語言模型，通用能力優異，適合作為基座模型進行精調，更好處理特定場景問題，同時具備極佳嘅推理性能。ERNIE-Speed-Pro-128K 係2024年8月30日發布嘅初始版本，支援128K上下文長度，效果比 ERNIE-Speed-128K 更優。</td></tr><tr><td>ERNIE-Tiny-8K</td><td>8k</td><td>1k</td><td>唔支援</td><td>對話</td><td>百度_ernie</td><td>百度自研嘅超高性能大語言模型，部署同精調成本喺文心系列模型中最低。</td></tr><tr><td>Doubao-1.5-lite-32k</td><td>32k</td><td>12k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>Doubao1.5-lite 喺輕量版語言模型中都處於全球一流水平，喺綜合（MMLU_pro）、推理（BBH）、數學（MATH）、專業知識（GPQA）權威測評指標持平或者超越 GPT-4omini、Claude 3.5 Haiku。<br></td></tr><tr><td>Doubao-1.5-pro-256k</td><td>256k</td><td>12k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>Doubao-1.5-Pro-256k，基於 Doubao-1.5-Pro 全面升級版。相比 Doubao-pro-256k/241115，整體效果大幅提升10%。輸出長度大幅提升，支援最大12k tokens。</td></tr><tr><td>Doubao-1.5-pro-32k</td><td>32k</td><td>12k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>Doubao-1.5-pro，全新一代主力模型，性能全面升級，喺知識、代碼、推理等方面表現卓越。喺多項公開測評基準上達到全球領先水平，特別喺知識、代碼、推理、中文權威測評基準上獲得最佳成績，綜合得分優於GPT4o、Claude 3.5 Sonnet等業界一流模型。</td></tr><tr><td>Doubao-1.5-vision-pro</td><td>32k</td><td>12k</td><td>唔支援</td><td>對話,識圖</td><td>豆包_doubao</td><td>Doubao-1.5-vision-pro，全新升級嘅多模態大模型，支援任意分辨率同極端長寬比圖像識別，增強視覺推理、文檔識別、細節資訊理解同指令遵循能力。</td></tr><tr><td>Doubao-embedding</td><td>4k</td><td>-</td><td>支援</td><td>嵌入</td><td>豆包_doubao</td><td>Doubao-embedding 係一款由字節跳動研發嘅語義向量化模型，主要面向向量檢索使用場景，支援中、英雙語，最長 4K 上下文長度。目前提供以下版本：<br><br>text-240715：最高維度向量 2560，支援 512、1024、2048 降維使用。中英文 Retrieval 效果較 text-240515 版本有較大提升，推薦使用此版本。<br>text-240515：最高維度向量 2048，支援 512、1024 降維使用。</td></tr><tr><td>Doubao-embedding-large</td><td>4k</td><td>-</td><td>唔支援</td><td>嵌入</td><td>豆包_doubao</td><td><br>中英文Retrieval效果較Doubao-embedding/text-240715版本明顯提升</td></tr><tr><td>Doubao-embedding-vision</td><td>8k</td><td>-</td><td>唔支援</td><td>嵌入</td><td>豆包_doubao</td><td>Doubao-embedding-vision，全新升級圖文多模態向量化模型，主要面向圖文多模向量檢索使用場景，支援圖片輸入及中、英雙語文本輸入，最長 8K 上下文長度。</td></tr><tr><td>Doubao-lite-128k</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>Doubao-lite 擁有極致回應速度，更好嘅性價比，為客戶唔同場景提供更靈活嘅選擇。支援128k上下文窗口嘅推理同精調。</td></tr><tr><td>Doubao-lite-32k</td><td>32k</td><td>4k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>Doubao-lite 擁有極致回應速度，更好嘅性價比，為客戶唔同場景提供更靈活嘅選擇。支援32k上下文窗口嘅推理同精調。</td></tr><tr><td>Doubao-lite-4k</td><td>4k</td><td>4k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>Doubao-lite 擁有極致回應速度，更好嘅性價比，為客戶唔同場景提供更靈活嘅選擇。支援4k上下文窗口嘅推理同精調。</td></tr><tr><td>Doubao-pro-128k</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>效果最好嘅主力模型，適合處理複雜任務，喺參考問答、總結摘要、創作、文本分類、角色扮演等場景都有好好嘅效果。支援128k上下文窗口嘅推理同精調。</td></tr><tr><td>Doubao-pro-32k</td><td>32k</td><td>4k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>效果最好嘅主力模型，適合處理複雜任務，喺參考問答、總結摘要、創作、文本分類、角色扮演等場景都有好好嘅效果。支援32k上下文窗口嘅推理同精調。</td></tr><tr><td>Doubao-pro-4k</td><td>4k</td><td>4k</td><td>支援</td><td>對話</td><td>豆包_doubao</td><td>效果最好嘅主力模型，適合處理複雜任務，喺參考問答、總結摘要、創作、文本分類、角色扮演等場景都有好好嘅效果。支援4k上下文窗口嘅推理同精調。</td></tr><tr><td>step-1-128k</td><td>128k</td><td>-</td><td>支援</td><td>對話</td><td>階躍星辰</td><td>step-1-128k 模型係一個超大規模語言模型，能夠處理高達128,000個token嘅輸入。呢種能力令佢喺生成長篇內容同進行複雜推理時有顯著優勢，適合用於創作小說、劇本等需要豐富上下文嘅應用。</td></tr><tr><td>step-1-256k</td><td>256k</td><td>-</td><td>支援</td><td>對話</td><td>階躍星辰</td><td>step-1-256k 模型係目前最大嘅語言模型之一，支援256,000個token輸入。佢嘅設計旨在滿足極端複雜任務需求，例如大規模數據分析同多輪對話系統，能夠喺多個領域提供高質量輸出。</td></tr><tr><td>step-1-32k</td><td>32k</td><td>-</td><td>支援</td><td>對話</td><td>階躍星辰</td><td>step-1-32k 模型擴展咗上下文窗口，支援32,000個token輸入。呢個令佢喺處理長篇文章同複雜對話時表現出色，適合需要深入理解同分析嘅任務，例如法律文書同學術研究。</td></tr><tr><td>step-1-8k</td><td>8k</td><td>-</td><td>支援</td><td>對話</td><td>階躍星辰</td><td>step-1-8k 模型係一個高效語言模型，專為處理較短文本而設計。佢可以喺8,000個token嘅上下文中進行推理，適合需要快速回應嘅應用場景，例如聊天機械人同實時翻譯。</td></tr><tr><td>step-1-flash</td><td>8k</td><td>-</td><td>支援</td><td>對話</td><td>階躍星辰</td><td>step-1-flash 模型專注於快速回應同高效處理，適合實時應用。佢嘅設計令佢喺有限計算資源下仍然可以提供優質嘅語言理解同生成能力，適合移動設備同邊緣計算場景。</td></tr><tr><td>step-1.5v-mini</td><td>32k</td><td>-</td><td>支援</td><td>對話,識圖</td><td>階躍星辰</td><td>step-1.5v-mini 模型係一個輕量級版本，旨在喺資源受限嘅環境中運行。雖然體積細，但佢仍然保留咗良好嘅語言處理能力，適合嵌入式系統同低功耗設備。</td></tr><tr><td>step-1v-32k</td><td>32k</td><td>-</td><td>支援</td><td>對話,識圖</td><td>階躍星辰</td><td>step-1v-32k 模型支援32,000個token輸入，適合需要更長上下文嘅應用。佢喺處理複雜對話同長文本時表現出色，適合客服同內容創作等領域。</td></tr><tr><td>step-1v-8k</td><td>8k</td><td>-</td><td>支援</td><td>對話,識圖</td><td>階躍星辰</td><td>step-1v-8k 模型係一個優化版本，專為8,000個token輸入設計，適合快速生成同處理短文本。佢喺速度同準確性之間取得良好平衡，適合實時應用。</td></tr><tr><td>step-2-16k</td><td>16k</td><td>-</td><td>支援</td><td>對話</td><td>階躍星辰</td><td>step-2-16k 模型係一個中等規模語言模型，支援16,000個token輸入。佢喺多種任務中表現良好，適合教育、培訓同知識管理等應用場景。<br></td></tr><tr><td>yi-lightning</td><td>16k</td><td>-</td><td>支援</td><td>對話</td><td>零一萬物_yi</td><td>最新高性能模型，保證高質量輸出同時，推理速度大幅提升。<br>適用於實時互動、高複雜推理場景，極高嘅性價比能為商業產品提供好好嘅產品支撐。</td></tr><tr><td>yi-vision-v2</td><td>16K</td><td>-</td><td>支援</td><td>對話,識圖</td><td>零一萬物_yi</td><td>適合需要分析同解釋圖像、圖表嘅場景，例如圖片問答、圖表理解、OCR、視覺推理、教育、研究報告理解或多語種文檔閱讀等。</td></tr><tr><td>qwen-14b-chat</td><td>8k</td><td>2k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>阿里雲官方嘅通義千問-開源版。</td></tr><tr><td>qwen-72b-chat</td><td>32k</td><td>2k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>阿里雲官方嘅通義千問-開源版。</td></tr><tr><td>qwen-7b-chat</td><td>7.5k</td><td>1.5k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>阿里雲官方嘅通義千問-開源版。</td></tr><tr><td>qwen-coder-plus</td><td>128k</td><td>8k</td><td>支援</td><td>對話,代碼</td><td>千問_qwen</td><td>Qwen-Coder-Plus 係 Qwen 系列入面一款編程專用模型，旨在提升代碼生成同理解能力。呢個模型透過大規模編程數據訓練，能夠處理多種編程語言，支援代碼補全、錯誤檢測同代碼重構等功能。佢嘅設計目標係為開發者提供更高效嘅編程輔助，提升開發效率。</td></tr><tr><td>qwen-coder-plus-latest</td><td>128k</td><td>8k</td><td>支援</td><td>對話,代碼</td><td>千問_qwen</td><td>Qwen-Coder-Plus-Latest 係 Qwen-Coder-Plus 嘅最新版本，包含最新嘅算法優化同數據集更新。呢個模型喺性能上有明顯提升，能夠更準確咁理解上下文，生成更符合開發者需求嘅代碼。佢仲引入咗更多編程語言支援，增強多語言編程能力。</td></tr><tr><td>qwen-coder-turbo</td><td>128k</td><td>8k</td><td>支援</td><td>對話,代碼</td><td>千問_qwen</td><td>通義千問系列代碼及編程模型係專門用於編程同代碼生成嘅語言模型，推理速度快，成本低。呢個版本始終指向最新穩定版快照</td></tr><tr><td>qwen-coder-turbo-latest</td><td>128k</td><td>8k</td><td>支援</td><td>對話,代碼</td><td>千問_qwen</td><td>通義千問系列代碼及編程模型係專門用於編程同代碼生成嘅語言模型，推理速度快，成本低。呢個版本始終指向最新版快照</td></tr><tr><td>qwen-long</td><td>10m</td><td>6k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Long 係通義千問針對超長上下文處理場景嘅大語言模型，支援中文、英文等唔同語言輸入，支援最長1000萬tokens（約1500萬字或1.5萬頁文檔）嘅超長上下文對話。配合同步上線嘅文檔服務，可支援word、pdf、markdown、epub、mobi等多種文檔格式嘅解析同對話。 說明：通過HTTP直接提交請求，支援1M tokens長度，超過此長度建議透過文件方式提交。</td></tr><tr><td>qwen-math-plus</td><td>4k</td><td>3k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Math-Plus 係專注於數學問題解決嘅模型，旨在提供高效嘅數學推理同計算能力。呢個模型透過大量數學題庫訓練，能夠處理複雜嘅數學表達式同問題，支援由基礎算術到高等數學嘅多種計算需求。佢嘅應用場景包括教育、科研同工程等領域。</td></tr><tr><td>qwen-math-plus-latest</td><td>4k</td><td>3k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Math-Plus-Latest 係 Qwen-Math-Plus 嘅最新版本，整合咗最新嘅數學推理技術同算法改進。呢個模型喺處理複雜數學問題時表現更出色，能夠提供更準確嘅解答同推理過程。佢亦擴展咗對數學符號同公式嘅理解能力，適用於更廣泛嘅數學應用場景。</td></tr><tr><td>qwen-math-turbo</td><td>4k</td><td>3k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Math-Turbo 係一個高性能數學模型，專為快速計算同實時推理而設計。呢個模型優化咗計算速度，能夠喺極短時間內處理大量數學問題，適合需要快速回饋嘅應用場景，例如線上教育同實時數據分析。佢高效算法令用戶喺複雜計算中可以即時得到結果。</td></tr><tr><td>qwen-math-turbo-latest</td><td>4k</td><td>3k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Math-Turbo-Latest 係 Qwen-Math-Turbo 嘅最新版本，進一步提升咗計算效率同準確性。呢個模型喺算法上做咗多項優化，能夠處理更複雜嘅數學問題，並喺實時推理中保持高效性。佢適合用於需要快速回應嘅數學應用，例如金融分析同科學計算。</td></tr><tr><td>qwen-max</td><td>32k</td><td>8k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>通義千問2.5系列千億級別超大規模語言模型，支援中文、英文等唔同語言輸入。隨住模型升級，qwen-max會滾動更新升級。</td></tr><tr><td>qwen-max-latest</td><td>32k</td><td>8k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>通義千問系列效果最好嘅模型，本模型係動態更新版本，模型更新唔會提前通知，適合複雜、多步驟任務，模型中英文綜合能力明顯提升，模型人類偏好明顯提升，模型推理能力同複雜指令理解能力明顯增強，困難任務上表現更優，數學、代碼能力明顯提升，提升對Table、JSON等結構化數據嘅理解同生成能力。</td></tr><tr><td>qwen-plus</td><td>128k</td><td>8k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>通義千問系列能力均衡嘅模型，推理效果同速度介於通義千問-Max同通義千問-Turbo之間，適合中等複雜任務。模型中英文綜合能力明顯提升，模型人類偏好明顯提升，模型推理能力同複雜指令理解能力明顯增強，困難任務上表現更優，數學、代碼能力明顯提升。</td></tr><tr><td>qwen-plus-latest</td><td>128k</td><td>8k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Plus 係通義千問系列入面嘅增強版視覺語言模型，旨在提升細節識別能力同文字識別能力。呢個模型支援超百萬像素分辨率同任意長寬比規格嘅圖像，能夠喺多種視覺語言任務中表現出色，適合需要高精度圖像理解嘅應用場景。</td></tr><tr><td>qwen-turbo</td><td>128k</td><td>8k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>通義千問系列速度最快、成本好低嘅模型，適合簡單任務。模型中英文綜合能力明顯提升，模型人類偏好明顯提升，模型推理能力同複雜指令理解能力明顯增強，困難任務上表現更優，數學、代碼能力明顯提升。</td></tr><tr><td>qwen-turbo-latest</td><td>1m</td><td>8k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>Qwen-Turbo 係為簡單任務設計嘅高效模型，強調速度同成本效益。佢喺處理基本視覺語言任務時表現出色，適合對回應時間有嚴格要求嘅應用，例如實時圖像識別同簡單問答系統。</td></tr><tr><td>qwen-vl-max</td><td>32k</td><td>2k</td><td>支援</td><td>對話</td><td>千問_qwen</td><td>通義千問VL-Max（qwen-vl-max），即通義千問超大規模視覺語言模型。相比增強版，再次提升視覺推理能力同指令遵循能力，提供更高嘅視覺感知同認知水平。喺更多複雜任務上提供最佳性能。</td></tr><tr><td>qwen-vl-max-latest</td><td>32k</td><td>2k</td><td>支援</td><td>對話,識圖</td><td>千問_qwen</td><td>Qwen-VL-Max 係 Qwen-VL 系列中最高級版本，專為解決複雜多模態任務而設計。佢結合咗先進嘅視覺同語言處理技術，能夠理解同分析高分辨率圖像，推理能力極強，適合需要深度理解同複雜推理嘅應用場景。</td></tr><tr><td>qwen-vl-ocr</td><td>34k</td><td>4k</td><td>支援</td><td>對話,識圖</td><td>千問_qwen</td><td>只支援ocr，唔支援對話。</td></tr><tr><td>qwen-vl-ocr-latest</td><td>34k</td><td>4k</td><td>支援</td><td>對話,識圖</td><td>千問_qwen</td><td>只支援ocr，唔支援對話。</td></tr><tr><td>qwen-vl-plus</td><td>8k</td><td>2k</td><td>支援</td><td>對話,識圖</td><td>千問_qwen</td><td>通義千問VL-Plus（qwen-vl-plus），即通義千問大規模視覺語言模型增強版。大幅提升細節識別能力同文字識別能力，支援超百萬像素分辨率同任意長寬比規格嘅圖像。喺廣泛視覺任務上提供卓越性能。</td></tr><tr><td>qwen-vl-plus-latest</td><td>32k</td><td>2k</td><td>支援</td><td>對話,識圖</td><td>千問_qwen</td><td>Qwen-VL-Plus-Latest 係 Qwen-VL-Plus 嘅最新版本，增強咗模型嘅多模態理解能力。佢喺圖像同文本結合處理上表現出色，適合需要高效處理多種輸入格式嘅應用，例如智能客服同內容生成。</td></tr><tr><td>Qwen/Qwen2-1.5B-Instruct</td><td>32k</td><td>6k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2-1.5B-Instruct 係 Qwen2 系列入面嘅指令微調大語言模型，參數規模為 1.5B。呢個模型基於 Transformer 架構，採用咗 SwiGLU 激活函數、注意力 QKV 偏置同組查詢注意力等技術。佢喺語言理解、生成、多語言能力、編碼、數學同推理等多個基準測試中表現出色，超越咗大多數開源模型。</td></tr><tr><td>Qwen/Qwen2-72B-Instruct</td><td>128k</td><td>6k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2-72B-Instruct 係 Qwen2 系列入面嘅指令微調大語言模型，參數規模為 72B。呢個模型基於 Transformer 架構，採用咗 SwiGLU 激活函數、注意力 QKV 偏置同組查詢注意力等技術。佢能夠處理大規模輸入。呢個模型喺語言理解、生成、多語言能力、編碼、數學同推理等多個基準測試中表現出色，超越咗大多數開源模型</td></tr><tr><td>Qwen/Qwen2-7B-Instruct</td><td>128k</td><td>6k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2-7B-Instruct 係 Qwen2 系列入面嘅指令微調大語言模型，參數規模為 7B。呢個模型基於 Transformer 架構，採用咗 SwiGLU 激活函數、注意力 QKV 偏置同組查詢注意力等技術。佢能夠處理大規模輸入。呢個模型喺語言理解、生成、多語言能力、編碼、數學同推理等多個基準測試中表現出色，超越咗大多數開源模型</td></tr><tr><td>Qwen/Qwen2-VL-72B-Instruct</td><td>32k</td><td>2k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2-VL 係 Qwen-VL 模型嘅最新迭代版本，喺視覺理解基準測試中達到咗最先進嘅性能，包括 MathVista、DocVQA、RealWorldQA 同 MTVQA 等。Qwen2-VL 能夠理解超過 20 分鐘嘅視頻，用於高質量嘅基於視頻問答、對話同內容創作。佢仲具備複雜推理同決策能力，可以同移動設備、機械人等集成，基於視覺環境同文本指令進行自動操作。</td></tr><tr><td>Qwen/Qwen2-VL-7B-Instruct</td><td>32k</td><td>-</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2-VL-7B-Instruct 係 Qwen-VL 模型嘅最新迭代版本，喺視覺理解基準測試中達到咗最先進嘅性能，包括 MathVista、DocVQA、RealWorldQA 同 MTVQA 等。Qwen2-VL 能夠用於高質量嘅基於視頻問答、對話同內容創作，亦具備複雜推理同決策能力，可以同移動設備、機械人等集成，基於視覺環境同文本指令進行自動操作。</td></tr><tr><td>Qwen/Qwen2.5-72B-Instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2.5-72B-Instruct 係阿里雲發布嘅最新大語言模型系列之一。呢個 72B 模型喺編碼同數學等領域具有明顯改進嘅能力。佢支援長達 128K tokens 嘅輸入，可以生成超過 8K tokens 嘅長文本。</td></tr><tr><td>Qwen/Qwen2.5-72B-Instruct-128K</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2.5-72B-Instruct 係阿里雲發布嘅最新大語言模型系列之一。呢個 72B 模型喺編碼同數學等領域具有明顯改進嘅能力。佢支援長達 128K tokens 嘅輸入，可以生成超過 8K tokens 嘅長文本。</td></tr><tr><td>Qwen/Qwen2.5-7B-Instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2.5-7B-Instruct 係阿里雲發布嘅最新大語言模型系列之一。呢個 7B 模型喺編碼同數學等領域具有明顯改進嘅能力。呢個模型亦提供多語言支援，覆蓋超過 29 種語言，包括中文、英文等。模型喺指令跟隨、理解結構化數據以及生成結構化輸出（尤其係 JSON）方面都有明顯提升</td></tr><tr><td>Qwen/Qwen2.5-Coder-32B-Instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話,代碼</td><td>千問_qwen</td><td>Qwen2.5-32B-Instruct 係阿里雲發布嘅最新大語言模型系列之一。呢個 32B 模型喺編碼同數學等領域具有明顯改進嘅能力。呢個模型亦提供多語言支援，覆蓋超過 29 種語言，包括中文、英文等。模型喺指令跟隨、理解結構化數據以及生成結構化輸出（尤其係 JSON）方面都有明顯提升</td></tr><tr><td>Qwen/Qwen2.5-Coder-7B-Instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>Qwen2.5-7B-Instruct 係阿里雲發布嘅最新大語言模型系列之一。呢個 7B 模型喺編碼同數學等領域具有明顯改進嘅能力。呢個模型亦提供多語言支援，覆蓋超過 29 種語言，包括中文、英文等。模型喺指令跟隨、理解結構化數據以及生成結構化輸出（尤其係 JSON）方面都有明顯提升</td></tr><tr><td>Qwen/QwQ-32B-Preview</td><td>32k</td><td>16k</td><td>唔支援</td><td>對話,推理</td><td>千問_qwen</td><td>QwQ-32B-Preview 係由 Qwen 團隊開發嘅實驗性研究模型，旨在提升人工智能嘅推理能力。作為預覽版本，佢展示咗出色嘅分析能力，但亦有一啲重要限制：<br>1. 語言混合同代碼切換：模型可能會混合使用語言或者喺語言之間意外切換，影響回應清晰度。<br>2. 遞歸推理循環：模型可能會進入循環推理模式，導致冗長回答而冇明確結論。<br>3. 安全同倫理考量：模型需要加強安全措施以確保可靠同安全嘅性能，用戶使用時應該謹慎。<br>4. 性能同基準限制：模型喺數學同編程方面表現出色，但喺常識推理同細微語言理解等其他領域仍然有改進空間。</td></tr><tr><td>qwen1.5-110b-chat</td><td>32k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen1.5-14b-chat</td><td>8k</td><td>2k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen1.5-32b-chat</td><td>32k</td><td>2k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen1.5-72b-chat</td><td>32k</td><td>2k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen1.5-7b-chat</td><td>8k</td><td>2k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2-57b-a14b-instruct</td><td>65k</td><td>6k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>Qwen2-72B-Instruct</td><td>-</td><td>-</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2-7b-instruct</td><td>128k</td><td>6k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2-math-72b-instruct</td><td>4k</td><td>3k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2-math-7b-instruct</td><td>4k</td><td>3k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-14b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-32b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-72b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-7b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-coder-14b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話,代碼</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-coder-32b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話,代碼</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-coder-7b-instruct</td><td>128k</td><td>8k</td><td>唔支援</td><td>對話,代碼</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-math-72b-instruct</td><td>4k</td><td>3k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>qwen2.5-math-7b-instruct</td><td>4k</td><td>3k</td><td>唔支援</td><td>對話</td><td>千問_qwen</td><td>-</td></tr><tr><td>deepseek-ai/DeepSeek-R1</td><td>64k</td><td>-</td><td>唔支援</td><td>對話,推理</td><td>深度求索_deepseek</td><td>DeepSeek-R1模型係一款基於純強化學習嘅開源推理模型，喺數學、代碼同自然語言推理等任務上表現出色，性能可以同OpenAI嘅o1模型媲美，仲喺多個基準測試中攞到優異成績。</td></tr><tr><td>deepseek-ai/DeepSeek-V2-Chat</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>深度求索_deepseek</td><td>DeepSeek-V2 係一個強大、經濟高效嘅混合專家（MoE）語言模型。佢喺 8.1 萬億個 token 嘅高質量語料庫上做咗預訓練，並通過監督微調（SFT）同強化學習（RL）進一步提升咗模型能力。相比 DeepSeek 67B，DeepSeek-V2 喺性能更強嘅同時，節省咗 42.5% 嘅訓練成本，減少咗 93.3% 嘅 KV 緩存，並將最大生成吞吐量提高到 5.76 倍。</td></tr><tr><td>deepseek-ai/DeepSeek-V2.5</td><td>32k</td><td>-</td><td>支援</td><td>對話</td><td>深度求索_deepseek</td><td>DeepSeek-V2.5 係 DeepSeek-V2-Chat 同 DeepSeek-Coder-V2-Instruct 嘅升級版本，整合咗兩個先前版本嘅通用同編碼能力。呢個模型喺多個方面做咗優化，包括寫作同指令跟隨能力，同人類偏好更加一致。</td></tr><tr><td>deepseek-ai/DeepSeek-V3</td><td>128k</td><td>4k</td><td>唔支援</td><td>對話</td><td>深度求索_deepseek</td><td>deepseek開源版本，冇官方版咁長上下文，亦冇敏感詞拒答等問題。</td></tr><tr><td>deepseek-chat</td><td>64k</td><td>8k</td><td>支援</td><td>對話</td><td>深度求索_deepseek</td><td>236B 參數量,64K 上下文（API）,中文綜合能力（AlignBench）位列開源榜首,同 GPT-4-Turbo，文心 4.0 等閉源模型喺評測中處於同一梯隊</td></tr><tr><td>deepseek-coder</td><td>64k</td><td>8k</td><td>支援</td><td>對話,代碼</td><td>深度求索_deepseek</td><td>236B 參數量,64K 上下文（API）,中文綜合能力（AlignBench）位列開源榜首,同 GPT-4-Turbo，文心 4.0 等閉源模型喺評測中處於同一梯隊</td></tr><tr><td>deepseek-reasoner</td><td>64k</td><td>8k</td><td>支援</td><td>對話,推理</td><td>深度求索_deepseek</td><td>DeepSeek-Reasoner（DeepSeek-R1）係 DeepSeek 最新推出嘅推理模型，旨在通過強化學習訓練嚟提升推理能力。呢個模型嘅推理過程包含大量反思同驗證，能夠處理複雜嘅邏輯推理任務，佢嘅思維鏈長度可達數萬字。DeepSeek-R1 喺數學、代碼同其他複雜問題嘅解答上表現出色，已經被廣泛應用喺多種場景，顯示出強大嘅推理能力同靈活性。相比其他模型，DeepSeek-R1 喺推理性能上接近頂尖嘅閉源模型，展現咗開源模型喺推理領域嘅潛力同競爭力。</td></tr><tr><td>hunyuan-code</td><td>4k</td><td>4k</td><td>唔支援</td><td>對話,代碼</td><td>騰訊_hunyuan</td><td>混元最新代碼生成模型，經過 200B 高質量代碼數據增訓基座模型，迭代半年高質量 SFT 數據訓練，上下文長窗口長度增大到 8K，五大語言代碼生成自動評測指標上位居前列；五大語言10項考量各方面綜合代碼任務人工高質量評測上，性能處於第一梯隊。</td></tr><tr><td>hunyuan-functioncall</td><td>28k</td><td>4k</td><td>支援</td><td>對話</td><td>騰訊_hunyuan</td><td>混元最新 MOE 架構 FunctionCall 模型，經過高質量嘅 FunctionCall 數據訓練，上下文窗口達 32K，喺多個維度嘅評測指標上處於領先。</td></tr><tr><td>hunyuan-large</td><td>28k</td><td>4k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>Hunyuan-large 模型總參數量約 389B，激活參數量約 52B，係而家業界參數規模最大、效果最好嘅 Transformer 架構開源 MoE 模型。</td></tr><tr><td>hunyuan-large-longcontext</td><td>128k</td><td>6k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>擅長處理長文任務如文檔摘要同文檔問答等，同時亦具備處理通用文本生成任務嘅能力。喺長文本嘅分析同生成上表現優異，能夠有效應對複雜同詳盡嘅長文內容處理需求。</td></tr><tr><td>hunyuan-lite</td><td>250k</td><td>6k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>升級為 MOE 結構，上下文窗口為 256k，喺 NLP、代碼、數學、行業等多項評測集上領先好多開源模型。</td></tr><tr><td>hunyuan-pro</td><td>28k</td><td>4k</td><td>支援</td><td>對話</td><td>騰訊_hunyuan</td><td>萬億級參數規模 MOE-32K 長文模型。喺各種 benchmark 上達到絕對領先水平，支援複雜指令同推理，具備複雜數學能力，支援 functioncall，並喺多語言翻譯、金融法律醫療等領域應用上重點優化。</td></tr><tr><td>hunyuan-role</td><td>28k</td><td>4k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>混元最新版角色扮演模型，混元官方精調訓練推出嘅角色扮演模型，基於混元模型結合角色扮演場景數據集進行增訓，喺角色扮演場景有更好嘅基礎效果。</td></tr><tr><td>hunyuan-standard</td><td>30k</td><td>2k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>採用更優嘅路由策略，同時緩解咗負載均衡同專家趨同嘅問題。<br>MOE-32K 性價比相對更高，喺平衡效果、價格嘅同時，可以處理長文本輸入。</td></tr><tr><td>hunyuan-standard-256K</td><td>250k</td><td>6k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>採用更優嘅路由策略，同時緩解咗負載均衡同專家趨同嘅問題。長文方面，大海撈針指標達到99.9%。 MOE-256K 喺長度同效果上進一步突破，極大咁擴展咗可輸入長度。</td></tr><tr><td>hunyuan-translation-lite</td><td>4k</td><td>4k</td><td>唔支援</td><td>對話</td><td>騰訊_hunyuan</td><td>混元翻譯模型支援自然語言對話式翻譯；支援中文同英語、日語、法語、葡萄牙語、西班牙語、土耳其語、俄語、阿拉伯語、韓語、意大利語、德語、越南語、馬來語、印尼語15種語言互譯。</td></tr><tr><td>hunyuan-turbo</td><td>28k</td><td>4k</td><td>支援</td><td>對話</td><td>騰訊_hunyuan</td><td>Hunyuan-turbo 模型默認版本，採用全新嘅混合專家模型（MoE）結構，相比hunyuan-pro推理效率更快，效果表現更強。</td></tr><tr><td>hunyuan-turbo-latest</td><td>28k</td><td>4k</td><td>支援</td><td>對話</td><td>騰訊_hunyuan</td><td>Hunyuan-turbo 模型動態更新版本，係混元模型系列效果最好嘅版本，同C端（騰訊元寶）保持一致。</td></tr><tr><td>hunyuan-turbo-vision</td><td>8k</td><td>2k</td><td>支援</td><td>識圖,對話</td><td>騰訊_hunyuan</td><td>混元新一代視覺語言旗艦大模型，採用全新嘅混合專家模型（MoE）結構，喺圖文理解相關嘅基礎識別、內容創作、知識問答、分析推理等能力上相比前一代模型全面提升。最大輸入6k,最大輸出2k</td></tr><tr><td>hunyuan-vision</td><td>8k</td><td>2k</td><td>支援</td><td>對話,識圖</td><td>騰訊_hunyuan</td><td>混元最新多模態模型，支援圖片+文本輸入生成文本內容。<br>圖片基礎識別：對圖片中主體、元素、場景等進行識別<br>圖片內容創作：對圖片進行概述、創作廣告文案、朋友圈、詩詞等<br>圖片多輪對話：輸出單張圖片進行多輪互動問答<br>圖片分析推理：對圖片中邏輯關係、數學題、代碼、圖表進行統計分析<br>圖片知識問答：對圖片包含嘅知識點進行問答，例如歷史事件、電影海報<br>圖片 OCR：對自然生活場景、非自然場景嘅圖片識別文字。</td></tr><tr><td>SparkDesk-Lite</td><td>4k</td><td>-</td><td>唔支援</td><td>對話</td><td>星火_SparkDesk</td><td>支援在線聯網搜尋功能，反應快速、方便，適用於低算力推理同模型精調等定制化場景</td></tr><tr><td>SparkDesk-Max</td><td>128k</td><td>-</td><td>支援</td><td>對話</td><td>星火_SparkDesk</td><td>基於最新版星火大模型引擎4.0 Turbo 量化而來，支援聯網搜尋、天氣、日期等多個內置插件，核心能力全面升級，各場景應用效果普遍提升，支援System角色人設與FunctionCall函數調用</td></tr><tr><td>SparkDesk-Max-32k</td><td>32k</td><td>-</td><td>支援</td><td>對話</td><td>星火_SparkDesk</td><td>推理更強：更強嘅上下文理解同邏輯推理能力，輸入更長：支援32K tokens嘅文本輸入，適用於長文檔閱讀、私有知識問答等場景</td></tr><tr><td>SparkDesk-Pro</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>星火_SparkDesk</td><td>數學、代碼、醫療、教育等場景專項優化，支援聯網搜尋、天氣、日期等多個內置插件，覆蓋大部分知識問答、語言理解、文本創作等多個場景</td></tr><tr><td>SparkDesk-Pro-128K</td><td>128k</td><td>-</td><td>唔支援</td><td>對話</td><td>星火_SparkDesk</td><td>專業級大語言模型，具有百億級參數，喺醫療、教育同代碼等場景做咗專項優化，搜尋場景延時更低。適用於文本、智能問答等對性能同反應速度有更高要求嘅業務場景。</td></tr><tr><td>moonshot-v1-128k</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>月之暗面_moonshot</td><td>長度為 8k 嘅模型，適用於生成短文本。</td></tr><tr><td>moonshot-v1-32k</td><td>32k</td><td>4k</td><td>支援</td><td>對話</td><td>月之暗面_moonshot</td><td>長度為 32k 嘅模型，適用於生成長文本。</td></tr><tr><td>moonshot-v1-8k</td><td>8k</td><td>4k</td><td>支援</td><td>對話</td><td>月之暗面_moonshot</td><td>長度為 128k 嘅模型，適用於生成超長文本。</td></tr><tr><td>codegeex-4</td><td>128k</td><td>4k</td><td>唔支援</td><td>對話,代碼</td><td>智譜_codegeex</td><td>智譜嘅代碼模型：適用於代碼自動補全任務</td></tr><tr><td>charglm-3</td><td>4k</td><td>2k</td><td>唔支援</td><td>對話</td><td>智譜_glm</td><td>擬人模型</td></tr><tr><td>emohaa</td><td>8k</td><td>4k</td><td>唔支援</td><td>對話</td><td>智譜_glm</td><td>心理模型：具備專業諮詢能力，幫助用戶理解情感並應對情緒問題</td></tr><tr><td>glm-3-turbo</td><td>128k</td><td>4k</td><td>唔支援</td><td>對話</td><td>智譜_glm</td><td>即將棄用(2025年6月30日)</td></tr><tr><td>glm-4</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>舊版旗艦：發佈於2024年1月16日，目前已被GLM-4-0520取代</td></tr><tr><td>glm-4-0520</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>高智能模型：適用於處理高度複雜同多樣化嘅任務</td></tr><tr><td>glm-4-air</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>高性價比：推理能力同價格之間最平衡嘅模型</td></tr><tr><td>glm-4-airx</td><td>8k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>極速推理：具有超快嘅推理速度同強大嘅推理效果</td></tr><tr><td>glm-4-flash</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>高速低價：超快推理速度</td></tr><tr><td>glm-4-flashx</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>高速低價：Flash增強版本，超快推理速度</td></tr><tr><td>glm-4-long</td><td>1m</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>超長輸入：專為處理超長文本同記憶型任務設計</td></tr><tr><td>glm-4-plus</td><td>128k</td><td>4k</td><td>支援</td><td>對話</td><td>智譜_glm</td><td>高智能旗艦: 性能全面提升，長文本同複雜任務能力顯著增強</td></tr><tr><td>glm-4v</td><td>2k</td><td>-</td><td>唔支援</td><td>對話,識圖</td><td>智譜_glm</td><td>圖像理解：具備圖像理解能力同推理能力</td></tr><tr><td>glm-4v-flash</td><td>2k</td><td>1k</td><td>唔支援</td><td>對話,識圖</td><td>智譜_glm</td><td>免費模型：具備強大嘅圖片理解能力</td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/zhong-wen-fan-ti/other/models-info.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
