模型數據

以下信息僅供參考，如有錯誤可聯絡糾正，部分模型嘅服務商唔同其上下文大小同模型資訊可能都會有所不同；
喺客戶端輸入數據時需要將「k」轉換成實際數值（理論上1k=1024 tokens；1m=1024k tokens），例如8k為8×1024=8192 tokens。建議喺實際使用時×1000就得，避免報錯，例如8k為8×1000=8000，1m=1×1000000=1000000；
最大輸出為「-」嘅係未從官方查詢到該模型明確嘅最大輸出資訊。

模型名稱

最大輸入

最大輸出

函數調用

模型能力

服務商

簡介

360gpt-pro

不支持

對話

360AI_360gpt

360智腦系列效果最好嘅主力千億級大模型，廣泛適用於各領域複雜任務場景。

360gpt-turbo

不支持

對話

360AI_360gpt

兼顧性能同效果嘅百億級大模型，適合對性能/成本要求較高嘅場景。

360gpt-turbo-responsibility-8k

不支持

對話

360AI_360gpt

兼顧性能同效果嘅百億級大模型，適合對性能/成本要求較高嘅場景。

360gpt2-pro

不支持

對話

360AI_360gpt

360智腦系列效果最好嘅主力千億級大模型，廣泛適用於各領域複雜任務場景。

claude-3-5-sonnet-20240620

200k

16k

不支持

對話,識圖

Anthropic_claude

於2024年6月20日發佈嘅快照版本，Claude 3.5 Sonnet係一個平衡咗性能同速度嘅模型，喺保持高速嘅同時提供頂級性能，支持多模態輸入。

claude-3-5-haiku-20241022

200k

16k

不支持

對話

Anthropic_claude

於2024年10月22日發佈嘅快照版本，Claude 3.5 Haiku喺各項技能上都有所提升，包括編碼、工具使用同推理。作為Anthropic系列中速度最快嘅模型，佢提供快速響應時間，適用於需要高互動性同低延遲嘅應用，例如面向用戶嘅聊天機械人同即時代碼補全。佢喺數據提取同實時內容審核等專業任務中亦表現出色，令佢成為各行各業廣泛應用嘅多功能工具。佢唔支持圖像輸入。

claude-3-5-sonnet-20241022

200k

不支持

對話,識圖

Anthropic_claude

於2024年10月22日發佈嘅快照版本，Claude 3.5 Sonnet提供咗超越 Opus 嘅能力同比 Sonnet 更快嘅速度，同時保持與 Sonnet 相同嘅價格。Sonnet 特別擅長編程、數據科學、視覺處理、代理任務。

claude-3-5-sonnet-latest

200K

不支持

對話,識圖

Anthropic_claude

動態指向最新嘅Claude 3.5 Sonnet版本，Claude 3.5 Sonnet提供咗超越 Opus 嘅能力同比 Sonnet 更快嘅速度，同時保持與 Sonnet 相同嘅價格。Sonnet 特別擅長編程、數據科學、視覺處理、代理任務，該模型指向最新嘅版本。

claude-3-haiku-20240307

200k

不支持

對話,識圖

Anthropic_claude

Claude 3 Haiku 係 Anthropic 最快且最緊湊嘅模型，旨在實現近乎即時嘅響應。佢具有快速且準確嘅定向性能。

claude-3-opus-20240229

200k

不支持

對話,識圖

Anthropic_claude

Claude 3 Opus 係 Anthropic 用嚟處理高度複雜任務嘅最強大模型。佢喺性能、智能、流暢性同理解力方面表現卓越。

claude-3-sonnet-20240229

200k

不支持

對話,識圖

Anthropic_claude

於2024年2月29日發佈嘅快照版本，Sonnet 特別擅長於： - 編碼：能夠自主編寫、編輯同運行代碼，並具備推理同故障排除能力 - 數據科學：增強人類嘅數據科學專業知識；喺使用多種工具獲取洞察時，能夠處理非結構化數據 - 視覺處理：擅長解讀圖表、圖形同圖像，準確轉錄文本以獲取超越文本本身嘅洞察 - 代理任務：工具使用出色，非常適合處理代理任務（即需要與其他系統互動嘅複雜多步驟問題解決任務）

google/gemma-2-27b-it

不支持

對話

Google_gamma

Gemma 係由 Google 開發嘅輕量級、最先進嘅開放模型系列，採用與 Gemini 模型相同嘅研究同技術構建。呢啲模型係僅解碼器嘅大型語言模型，支持英文，提供預訓練同指令微調兩種變體嘅開放權重。Gemma 模型適用於各種文本生成任務，包括問答、摘要同推理。

google/gemma-2-9b-it

不支持

對話

Google_gamma

Gemma 係 Google 開發嘅輕量級、最先進嘅開放模型系列之一。佢係一個僅解碼器嘅大型語言模型，支持英文，提供開放權重、預訓練變體同指令微調變體。Gemma 模型適用於各種文本生成任務，包括問答、摘要同推理。該 9B 模型係通過 8 萬億個 tokens 訓練而成。

gemini-1.5-pro

不支持

對話

Google_gemini

Gemini 1.5 Pro 嘅最新穩定版本。作為一個強大嘅多模態模型，佢可以處理長達6 萬行代碼或 2,000 頁文本。特別適合需要複雜推理嘅任務。

gemini-1.0-pro-001

33k

不支持

對話

Google_gemini

呢個係 Gemini 1.0 Pro 嘅穩定版本。作為一個 NLP 模型，佢專門處理多輪文本同代碼聊天以及代碼生成等任務。該模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。

gemini-1.0-pro-002

32k

不支持

對話

Google_gemini

gemini-1.0-pro-latest

33k

不支持

對話,已廢棄或即將廢棄

Google_gemini

呢個係 Gemini 1.0 Pro 嘅最新版本。作為一個 NLP 模型，佢專門處理多輪文本同代碼聊天以及代碼生成等任務。該模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。

gemini-1.0-pro-vision-001

16k

不支持

對話

Google_gemini

呢個係 Gemini 1.0 Pro 嘅視覺版本。該模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。

gemini-1.0-pro-vision-latest

16k

不支持

識圖

Google_gemini

呢個係 Gemini 1.0 Pro 嘅視覺最新版本。該模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。

gemini-1.5-flash

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Flash 嘅最新穩定版本。作為一個平衡嘅多模態模型，佢可以處理音頻、圖片、視頻同文本輸入。

gemini-1.5-flash-001

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Flash 嘅穩定版本。佢提供與 gemini-1.5-flash 相同嘅基本功能，但版本固定，適合生產環境使用。

gemini-1.5-flash-002

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Flash 嘅穩定版本。佢提供與 gemini-1.5-flash 相同嘅基本功能，但版本固定，適合生產環境使用。

gemini-1.5-flash-8b

不支持

對話,識圖

Google_gemini

Gemini 1.5 Flash-8B係谷歌最新推出嘅一款多模態人工智能模型，專為高效處理大規模任務而設計。該模型具有80億個參數，能夠支持文本、圖像、音頻同視頻嘅輸入，適用於多種應用場景，如聊天、轉錄同翻譯等。與其他Gemini模型相比，Flash-8B喺速度同成本效益上進行咗優化，特別適合對成本敏感嘅用戶。其速率限制提高咗一倍，使得開發者能夠更高效咁進行大規模任務處理。此外，Flash-8B仲採用咗「知識蒸餾」技術，從更大嘅模型中提煉出關鍵知識，確保喺保持核心能力嘅同時實現輕量化同高效化

gemini-1.5-flash-exp-0827

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Flash 嘅實驗版本，會定期更新以包含最新嘅改進。適合探索性測試同原型開發，唔建議用於生產環境。

gemini-1.5-flash-latest

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Flash 嘅尖端版本，會定期更新以包含最新嘅改進。適合探索性測試同原型開發，唔建議用於生產環境。

gemini-1.5-pro-001

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Pro 嘅穩定版本，提供固定嘅模型行為同性能特徵。適合需要穩定性嘅生產環境使用。

gemini-1.5-pro-002

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Pro 嘅穩定版本，提供固定嘅模型行為同性能特徵。適合需要穩定性嘅生產環境使用。

gemini-1.5-pro-exp-0801

不支持

對話,識圖

Google_gemini

Gemini 1.5 Pro 嘅試驗版本。作為一個強大嘅多模態模型，佢可以處理長達6 萬行代碼或 2,000 頁文本。特別適合需要複雜推理嘅任務。

gemini-1.5-pro-exp-0827

不支持

對話,識圖

Google_gemini

Gemini 1.5 Pro 嘅試驗版本。作為一個強大嘅多模態模型，佢可以處理長達6 萬行代碼或 2,000 頁文本。特別適合需要複雜推理嘅任務。

gemini-1.5-pro-latest

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.5 Pro 嘅最新版本，動態指向最新嘅快照版本

gemini-2.0-flash

不支持

對話,識圖

Google_gemini

Gemini 2.0 Flash係谷歌最新推出嘅模型，相比1.5版本具有更快嘅首次生成速度(TTFT)，同時保持咗與Gemini Pro 1.5相當嘅質量水準；該模型喺多模態理解、代碼能力、複雜指令執行同函數調用等方面都有顯著提升，從而能夠提供更流暢同強大嘅智能體驗。

gemini-2.0-flash-exp

100k

支持

對話,識圖

Google_gemini

Gemini 2.0 Flash 引入多模態實時API、改進速度同性能、提升質量、增強代理能力，並增加圖像生成同語音轉換功能。

gemini-2.0-flash-lite-preview-02-05

不支持

對話,識圖

Google_gemini

Gemini 2.0 Flash-Lite係谷歌最新發佈嘅高性價比AI模型，喺保持與1.5 Flash相同速度嘅同時質量更好；支持100萬tokens嘅上下文窗口，能夠處理圖像、音頻同代碼等多模態任務；作為目前谷歌成本效益最高嘅模型，採用簡化嘅單一定價策略，特別適合需要控制成本嘅大規模應用場景。

gemini-2.0-flash-thinking-exp

40k

不支持

對話,推理

Google_gemini

gemini-2.0-flash-thinking-exp係一個實驗模型，佢能生成喺作出反應時所經歷嘅「思考過程」。因此，與基本嘅Gemini 2.0 Flash 模型相比，「思考模式」嘅反應具有更強嘅推理能力。

gemini-2.0-flash-thinking-exp-01-21

64k

不支持

對話,推理

Google_gemini

Gemini 2.0 Flash Thinking EXP-01-21 係谷歌最新推出嘅人工智能模型，專注於提升推理能力同用戶交互體驗。該模型具備強大嘅推理能力，尤其喺數學同編程領域表現突出，並支持高達100萬token嘅上下文窗口，適用於複雜任務同深入分析場景。其獨特之處在於能夠生成思考過程，提高AI思維嘅可理解性，同時支持原生代碼執行，增強咗交互嘅靈活性同實用性。通過優化算法，模型減少咗邏輯矛盾，進一步提升咗回答嘅準確性同一致性。

gemini-2.0-flash-thinking-exp-1219

40k

不支持

對話,推理,識圖

Google_gemini

gemini-2.0-flash-thinking-exp-1219係一個實驗模型，佢能生成喺作出反應時所經歷嘅「思考過程」。因此，與基本嘅Gemini 2.0 Flash 模型相比，「思考模式」嘅反應具有更強嘅推理能力。

gemini-2.0-pro-exp-01-28

64k

不支持

對話,識圖

Google_gemini

預加模型,還未上線

gemini-2.0-pro-exp-02-05

不支持

對話,識圖

Google_gemini

Gemini 2.0 Pro Exp 02-05係谷歌2024年2月發佈嘅最新實驗性模型，喺世界知識、代碼生成同長文本理解方面表現突出；該模型支持200萬tokens嘅超長上下文窗口，能處理2小時視頻、22小時音頻、6萬多行代碼同140萬多單詞嘅內容；作為Gemini 2.0系列嘅一部分，該模型採用咗新嘅Flash Thinking訓練策略，性能得到顯著提升，喺多個LLM評分榜單中名列前茅，展現咗強大嘅綜合能力。

gemini-exp-1114

不支持

對話,識圖

Google_gemini

呢個係一個實驗性模型，於 2024 年 11 月 14 日發佈，主要關注質量改進。

gemini-exp-1121

不支持

對話,識圖,代碼

Google_gemini

呢個係一個實驗性模型，於 2024 年 11 月 21 日發佈，改進咗編碼、推理同視覺能力。

gemini-exp-1206

不支持

對話,識圖

Google_gemini

呢個係一個實驗性模型，於 2024 年 12 月 6 日發佈，改進咗編碼、推理同視覺能力。

gemini-exp-latest

不支持

對話,識圖

Google_gemini

呢個係一個實驗性模型，動態指向最新版本

gemini-pro

33k

不支持

對話

Google_gemini

同gemini-1.0-pro，係gemini-1.0-pro嘅別名

gemini-pro-vision

16k

不支持

對話,識圖

Google_gemini

呢個係 Gemini 1.0 Pro 嘅視覺版本。該模型將於 2025 年 2 月 15 日停用，建議遷移到 1.5 系列模型。

grok-2

128k

不支持

對話

Grok_grok

X.ai於2024.12.12發佈嘅新版本grok模型。

grok-2-1212

128k

不支持

對話

Grok_grok

X.ai於2024.12.12發佈嘅新版本grok模型。

grok-2-latest

128k

不支持

對話

Grok_grok

X.ai於2024.12.12發佈嘅新版本grok模型。

grok-2-vision-1212

32k

不支持

對話,識圖

Grok_grok

X.ai於2024.12.12發佈嘅grok視覺版本模型。

grok-beta

100k

不支持

對話

Grok_grok

性能與 Grok 2 相當，但效率、速度同功能有所提高。

grok-vision-beta

不支持

對話,識圖

Grok_grok

最新嘅圖像理解模型可以處理各種視覺資訊，包括文件、圖表、截圖同相片。

internlm/internlm2_5-20b-chat

32k

支持

對話

internlm

InternLM2.5-20B-Chat 係一個開源嘅大規模對話模型，基於 InternLM2 架構開發。該模型擁有 200 億參數，喺數學推理方面表現出色，超越咗同量級嘅 Llama3 同 Gemma2-27B 模型。InternLM2.5-20B-Chat 喺工具調用能力方面有顯著提升，支持從上百個網頁收集資訊進行分析推理，並具備更強嘅指令理解、工具選擇同結果反思能力。

meta-llama/Llama-3.2-11B-Vision-Instruct

不支持

對話,識圖

Meta_llama

目前Llama系列模型唔單止能夠處理文本數據，仲能夠處理圖像數據；Llama3.2嘅部分模型加入咗視覺理解嘅功能，該模型支持同時輸入文本同圖像數據，對圖像進行理解並輸出文本資訊。

meta-llama/Llama-3.2-3B-Instruct

32k

不支持

對話

Meta_llama

Meta Llama 3.2多語言大型語言模型（LLM），其中1B、3B係可以喺邊緣同移動設備上運行嘅輕量級模型，呢個模型係3B版本。

meta-llama/Llama-3.2-90B-Vision-Instruct

不支持

對話,識圖

Meta_llama

meta-llama/Llama-3.3-70B-Instruct

131k

不支持

對話

Meta_llama

Meta 最新款 70B LLM，性能與 llama 3.1 405B 相當。

meta-llama/Meta-Llama-3.1-405B-Instruct

32k

不支持

對話

Meta_llama

Meta Llama 3.1多語言大型語言模型（LLM）集合係 8B、70B 同 405B 尺寸嘅預訓練同指令微調生成模型集合，呢個模型係405B版本。Llama 3.1指令微調文本模型（8B、70B、405B）針對多語言對話進行咗優化，喺常見嘅行業基準上優於好多野用嘅開源同閉源聊天模型。

meta-llama/Meta-Llama-3.1-70B-Instruct

32k

不支持

對話

Meta_llama

Meta Llama 3.1 係由 Meta 開發嘅多語言大型語言模型家族，包括 8B、70B 同 405B 三種參數規模嘅預訓練同指令微調變體。該 70B 指令微調模型針對多語言對話場景進行咗優化，喺多項行業基準測試中表現優異。模型訓練使用咗超過 15 萬億個 tokens 嘅公開數據，並採用咗監督微調同人類反饋強化學習等技術嚟提升模型嘅有用性同安全性。

meta-llama/Meta-Llama-3.1-8B-Instruct

32k

不支持

對話

Meta_llama

Meta Llama 3.1多語言大型語言模型（LLM）集合係8B、70B同405B尺寸嘅預訓練同指令微調生成模型集合，呢個模型係8B版本。Llama 3.1指令微調文本模型（8B、70B、405B）針對多語言對話進行咗優化，喺常見嘅行業基準上優於好多可用嘅開源同閉源聊天模型。

abab5.5-chat

16k

支持

對話

Minimax_abab

中文人設對話場景

abab5.5s-chat

支持

對話

Minimax_abab

中文人設對話場景

abab6.5g-chat

支持

對話

Minimax_abab

英文等多語種人設對話場景

abab6.5s-chat

245k

支持

對話

Minimax_abab

通用場景

abab6.5t-chat

支持

對話

Minimax_abab

中文人設對話場景

chatgpt-4o-latest

128k

16k

不支持

對話,識圖

OpenAI

chatgpt-4o-latest 模型版本持續指向 ChatGPT 中使用嘅 GPT-4o 版本，並喺有重大變化時最快更新。

gpt-4o-2024-11-20

128k

16k

支持

對話

OpenAI

2024 年 11 月 20 日嘅最新 gpt-4o 快照版本。

gpt-4o-audio-preview

128k

16k

不支持

對話

OpenAI

OpenAI 嘅實時語音對話模型

gpt-4o-audio-preview-2024-10-01

128k

16k

支持

對話

OpenAI

OpenAI 嘅實時語音對話模型

128k

32k

不支持

對話,推理,識圖

OpenAI

OpenAI 針對複雜任務嘅新推理模型，呢類任務需要廣泛嘅常識。該模型具有 200k 上下文，目前全球最強模型，支持圖片識別

o1-mini-2024-09-12

128k

64k

不支持

對話,推理

OpenAI

o1-mini 嘅固定快照版本，比 o1-preview 更細、更快，成本低80%，喺代碼生成同小上下文操作方面表現良好。

o1-preview-2024-09-12

128k

32k

不支持

對話,推理

OpenAI

o1-preview 嘅固定快照版本

gpt-3.5-turbo

16k

支持

對話

OpenAI_gpt-3

基於 GPT-3.5： GPT-3.5 Turbo 係建立喺 GPT-3.5 模型基礎上嘅改進版本，由 OpenAI 開發。性能目標：設計目標係通過優化模型結構同算法，提高模型嘅推理速度、處理效率同資源利用率。提升嘅推理速度：相對於 GPT-3.5，GPT-3.5 Turbo 喺相同硬件條件下通常能夠提供更快嘅推理速度，呢對需要大規模文本處理嘅應用特別有益。更高嘅吞吐量：喺處理大量請求或數據時，GPT-3.5 Turbo 可以實現更高嘅並發處理能力，從而提升整體系統嘅吞吐量。優化嘅資源消耗：喺保持性能嘅同時，可能降低咗對硬件資源（例如記憶體同計算資源）嘅需求，呢有助於降低運行成本同提高系統嘅可擴展性。廣泛嘅自然語言處理任務： GPT-3.5 Turbo 適用於多種自然語言處理任務，包括但不限於文本生成、語義理解、對話系統、機器翻譯等。開發者工具同 API 支持：提供咗方便開發者整合同使用嘅 API 介面，支持快速開發同部署應用程式。

gpt-3.5-turbo-0125

16k

支持

對話

OpenAI_gpt-3

更新後嘅 GPT 3.5 Turbo，對請求格式嘅準確性更高，並修復咗一個導致非常規非英語語言函數調用文本編碼問題嘅錯誤。返回最多 4,096 個輸出令牌。

gpt-3.5-turbo-0613

16k

支持

對話

OpenAI_gpt-3

更新後嘅 GPT 3.5 Turbo 固定快照版本。目前已棄用

gpt-3.5-turbo-1106

16k

支持

對話

OpenAI_gpt-3

具有改進嘅指令跟隨、JSON 模式、可重現輸出、並行函數調用等。返回最多 4,096 個輸出令牌。

gpt-3.5-turbo-16k

16k

支持

對話,已廢棄或即將廢棄

OpenAI_gpt-3

（已棄用）

gpt-3.5-turbo-16k-0613

16k

支持

對話,已廢棄或即將廢棄

OpenAI_gpt-3

gpt-3.5-turbo 於 2023年6月13日嘅快照。（已棄用）

gpt-3.5-turbo-instruct

支持

對話

OpenAI_gpt-3

與 GPT-3 時代模型類似嘅能力。與遺留 Completions 端點兼容，唔適用於 Chat Completions。

gpt-3.5o

16k

不支持

對話

OpenAI_gpt-3

同gpt-4o-lite

gpt-4

支持

對話

OpenAI_gpt-4

目前指向 gpt-4-0613。

gpt-4-0125-preview

128k

支持

對話

OpenAI_gpt-4

最新嘅 GPT-4 模型，旨喺減少「懶惰」情況，即模型未完成任務。返回最多 4,096 個輸出令牌。

gpt-4-0314

支持

對話

OpenAI_gpt-4

gpt-4 2023年3月14日嘅快照

gpt-4-0613

支持

對話

OpenAI_gpt-4

gpt-4 2023年6月13日嘅快照，增強咗函數調用支持。

gpt-4-1106-preview

128k

支持

對話

OpenAI_gpt-4

GPT-4 Turbo 模型，具有改進嘅指令跟隨、JSON 模式、可再現輸出、函數調用等。返回最多 4,096 個輸出令牌。呢係預覽模型。

gpt-4-32k

32k

支持

對話

OpenAI_gpt-4

gpt-4-32k將於2025-06-06棄用。

gpt-4-32k-0613

32k

支持

對話,已廢棄或即將廢棄

OpenAI_gpt-4

將於2025-06-06棄用。

gpt-4-turbo

128k

支持

對話

OpenAI_gpt-4

最新版嘅 GPT-4 Turbo 模型新增咗視覺功能，支持通過 JSON 模式同函數調用嚟處理視覺請求。該模型當前版本為 gpt-4-turbo-2024-04-09。

gpt-4-turbo-2024-04-09

128k

支持

對話

OpenAI_gpt-4

帶視覺功能嘅 GPT-4 Turbo 模型。依家，視覺請求可以通過 JSON 模式同函數調用嚟實現。gpt-4-turbo 目前版本就係呢一版。

gpt-4-turbo-preview

128k

支持

對話,識圖

OpenAI_gpt-4

目前指向 gpt-4-0125-preview。

gpt-4o

128k

16k

支持

對話,識圖

OpenAI_gpt-4

OpenAI 嘅高智能旗艦模型，適用於複雜嘅多步驟任務。GPT-4o 比 GPT-4 Turbo 更平、更快。

gpt-4o-2024-05-13

128k

支持

對話,識圖

OpenAI_gpt-4

2024 年 5 月 13 日嘅原始 gpt-4o 快照。

gpt-4o-2024-08-06

128k

16k

支持

對話,識圖

OpenAI_gpt-4

支持結構化輸出嘅第一個快照。gpt-4o目前指向此版本。

gpt-4o-mini

128k

16k

支持

對話,識圖

OpenAI_gpt-4

OpenAI 經濟實惠嘅 gpt-4o 版本，適用於快速、輕量級任務。GPT-4o mini 比 GPT-3.5 Turbo 更平，功能更強大。目前指向 gpt-4o-mini-2024-07-18。

gpt-4o-mini-2024-07-18

128k

16k

支持

對話,識圖

OpenAI_gpt-4

gpt-4o-mini 嘅固定快照版本。

gpt-4o-realtime-preview

128k

支持

對話,實時語音

OpenAI_gpt-4

OpenAI 嘅實時語音對話模型

gpt-4o-realtime-preview-2024-10-01

128k

支持

對話,實時語音,識圖

OpenAI_gpt-4

gpt-4o-realtime-preview目前指向呢個快照版本

o1-mini

128k

64k

不支持

對話,推理

OpenAI_o1

比 o1-preview 更細、更快，成本低80%，喺代碼生成同小上下文操作方面表現良好。

o1-preview

128k

32k

不支持

對話,推理

OpenAI_o1

o1-preview 係針對需要廣泛常識嘅複雜任務嘅新推理模型。該模型具有 128K 上下文同 2023 年 10 月嘅知識截止點。專注於高級推理同解決複雜問題，包括數學同科學任務。非常適合需要深度上下文理解同自主工作流程嘅應用。

o3-mini

200k

100k

支持

對話,推理

OpenAI_o1

o3-mini係OpenAI最新嘅小型推理模型，喺保持與o1-mini相同成本同延遲嘅情況下提供高智能，專注於科學、數學同編碼任務，支持結構化輸出、函數調用、批量API等開發者功能，且知識庫截止到2023年10月，展現咗喺推理能力同經濟性方面嘅顯著平衡。

o3-mini-2025-01-31

200k

100k

支持

對話,推理

OpenAI_o1

o3-mini目前指向該版本，o3-mini-2025-01-31係OpenAI最新嘅小型推理模型，喺保持與o1-mini相同成本同延遲嘅情況下提供高智能，專注於科學、數學同編碼任務，支持結構化輸出、函數調用、批量API等開發者功能，且知識庫截止到2023年10月，展現咗喺推理能力同經濟性方面嘅顯著平衡。

Baichuan2-Turbo

32k

不支持

對話

百川_baichuan

相對業界同等尺寸模型，模型效果喺保持行業領先嘅同時，實現咗價格嘅大幅度降低

Baichuan3-Turbo

32k

不支持

對話

百川_baichuan

相對業界同等尺寸模型，模型效果喺保持行業領先嘅同時，實現咗價格嘅大幅度降低

Baichuan3-Turbo-128k

128k

不支持

對話

百川_baichuan

百川模型通過128k超長上下文窗口處理複雜文本，針對金融等行業進行專門優化，同時喺保持高性能嘅前提下降低成本，為企業提供高性價比嘅解決方案。

Baichuan4

32k

不支持

對話

百川_baichuan

百川嘅MoE模型通過專門優化、降低成本同提升性能，喺企業應用中提供咗高效性價比嘅解決方案。

Baichuan4-Air

32k

不支持

對話

百川_baichuan

百川嘅MoE模型通過專門優化、降低成本同提升性能，喺企業應用中提供咗高效性價比嘅解決方案。

Baichuan4-Turbo

32k

不支持

對話

百川_baichuan

基於海量優質嘅場景數據訓練，企業高頻場景可用性相對Baichuan4提升10%+，資訊摘要提升50%，多語言提升31%，內容生成提升13% 針對推理性能專項優化，首token響應速度相對Baichuan4提升51%，token流速提升73%

ERNIE-3.5-128K

128k

支持

對話

百度_ernie

百度自研嘅旗艦級大規模大語言模型，覆蓋海量中英文語料，具有強大嘅通用能力，可滿足絕大部分對話問答、創作生成、插件應用場景要求；支持自動對接百度搜索插件，保障問答資訊時效。

ERNIE-3.5-8K

支持

對話

百度_ernie

ERNIE-3.5-8K-Preview

支持

對話

百度_ernie

ERNIE-4.0-8K

支持

對話

百度_ernie

百度自研嘅旗艦級超大規模大語言模型，相較ERNIE 3.5實現咗模型能力全面升級，廣泛適用於各領域複雜任務場景；支持自動對接百度搜索插件，保障問答資訊時效。

ERNIE-4.0-8K-Latest

支持

對話

百度_ernie

ERNIE-4.0-8K-Latest相比ERNIE-4.0-8K能力全面提升，其中角色扮演能力同指令遵循能力提升較大；相較ERNIE 3.5實現咗模型能力全面升級，廣泛適用於各領域複雜任務場景；支持自動對接百度搜索插件，保障問答資訊時效，支持5K tokens輸入+2K tokens輸出。本文介紹咗ERNIE-4.0-8K-Latest接口調用方法。

ERNIE-4.0-8K-Preview

支持

對話

百度_ernie

ERNIE-4.0-Turbo-128K

128k

支持

對話

百度_ernie

ERNIE 4.0 Turbo係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支持自動對接百度搜索插件，保障問答資訊時效。相較於ERNIE 4.0喺性能表現上更優秀。ERNIE-4.0-Turbo-128K係模型嘅一個版本，長文檔整體效果優於ERNIE-3.5-128K。本文介紹咗相關API及使用。

ERNIE-4.0-Turbo-8K

支持

對話

百度_ernie

ERNIE 4.0 Turbo係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支持自動對接百度搜索插件，保障問答資訊時效。相較於ERNIE 4.0喺性能表現上更優秀。ERNIE-4.0-Turbo-8K係模型嘅一個版本。本文介紹咗相關API及使用。

ERNIE-4.0-Turbo-8K-Latest

支持

對話

百度_ernie

ERNIE 4.0 Turbo係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支持自動對接百度搜索插件，保障問答資訊時效。相較於ERNIE 4.0喺性能表現上更優秀。ERNIE-4.0-Turbo-8K係模型嘅一個版本。

ERNIE-4.0-Turbo-8K-Preview

支持

對話

百度_ernie

ERNIE 4.0 Turbo係百度自研嘅旗艦級超大規模大語言模型，綜合效果表現出色，廣泛適用於各領域複雜任務場景；支持自動對接百度搜索插件，保障問答資訊時效。ERNIE-4.0-Turbo-8K-Preview係模型嘅一個版本

ERNIE-Character-8K

不支持

對話

百度_ernie

百度自研嘅垂直場景大語言模型，適合遊戲NPC、客服對話、對話角色扮演等應用場景，人設風格更為鮮明、一致，指令遵循能力更強，推理性能更優

ERNIE-Lite-8K

不支持

對話

百度_ernie

百度自研嘅輕量級大語言模型，兼顧優異嘅模型效果與推理性能，適合低算力AI加速卡推理使用。

ERNIE-Lite-Pro-128K

128k

支持

對話

百度_ernie

百度自研嘅輕量級大語言模型，效果比ERNIE Lite更優，兼顧優異嘅模型效果與推理性能，適合低算力AI加速卡推理使用。ERNIE-Lite-Pro-128K支持128K上下文長度，效果比ERNIE-Lite-128K更優。

ERNIE-Novel-8K

不支持

對話

百度_ernie

ERNIE-Novel-8K係百度自研通用大語言模型，喺小說續寫能力上有明顯優勢，都可以用喺短劇、電影等場景。

ERNIE-Speed-128K

128k

不支持

對話

百度_ernie

百度2024年最新發佈嘅自研高性能大語言模型，通用能力優異，適合作為基座模型進行精調，更好地處理特定場景問題，同時具備極佳嘅推理性能。

ERNIE-Speed-8K

不支持

對話

百度_ernie

百度2024年最新發佈嘅自研高性能大語言模型，通用能力優異，適合作為基座模型進行精調，更好地處理特定場景問題，同時具備極佳嘅推理性能。

ERNIE-Speed-Pro-128K

128k

不支持

對話

百度_ernie

ERNIE Speed Pro係百度2024年最新發佈嘅自研高性能大語言模型，通用能力優異，適合作為基座模型進行精調，更好地處理特定場景問題，同時具備極佳嘅推理性能。ERNIE-Speed-Pro-128K係2024年8月30日發佈嘅初始版本，支持128K上下文長度，效果比ERNIE-Speed-128K更優。

ERNIE-Tiny-8K

不支持

對話

百度_ernie

百度自研嘅超高性能大語言模型，部署同精調成本喺文心系列模型中最低。

Doubao-1.5-lite-32k

32k

12k

支持

對話

豆包_doubao

Doubao1.5-lite喺輕量版語言模型中亦處於全球一流水平，喺綜合（MMLU_pro）、推理（BBH）、數學（MATH）、專業知識（GPQA）權威測評指標持平或超越GPT-4omini、Claude 3.5 Haiku。

Doubao-1.5-pro-256k

256k

12k

支持

對話

豆包_doubao

Doubao-1.5-Pro-256k，基於Doubao-1.5-Pro全面升級版。相比Doubao-pro-256k/241115，整體效果大幅提升10%。輸出長度大幅提升，支持最大12k tokens。

Doubao-1.5-pro-32k

32k

12k

支持

對話

豆包_doubao

Doubao-1.5-pro，全新一代主力模型，性能全面升級，喺知識、代碼、推理等方面表現卓越。喺多項公開測評基準上達到全球領先水準，特別喺知識、代碼、推理、中文權威測評基準上獲得最佳成績，綜合得分優於GPT4o、Claude 3.5 Sonnet等業界一流模型。

Doubao-1.5-vision-pro

32k

12k

不支持

對話,識圖

豆包_doubao

Doubao-1.5-vision-pro，全新升級嘅多模態大模型，支持任意分辨率同極端長寬比圖像識別，增強視覺推理、文件識別、細節資訊理解同指令遵循能力。

Doubao-embedding

支持

嵌入

豆包_doubao

Doubao-embedding 係一款由字節跳動研發嘅語義向量化模型，主要面向向量檢索嘅使用場景，支持中、英雙語，最長 4K 上下文長度。目前提供以下版本： text-240715：最高維度向量 2560，支持 512、1024、2048 降維使用。中英文 Retrieval 效果較 text-240515 版本有較大提升，推薦使用該版本。 text-240515：最高維度向量 2048，支持 512、1024 降維使用。

Doubao-embedding-large

不支持

嵌入

豆包_doubao

中英文 Retrieval 效果較 Doubao-embedding/text-240715 版本顯著提升

Doubao-embedding-vision

不支持

嵌入

豆包_doubao

Doubao-embedding-vision，全新升級圖文多模態向量化模型，主要面向圖文多模向量檢索嘅使用場景，支持圖片輸入及中、英雙語文本輸入，最長 8K 上下文長度。

Doubao-lite-128k

128k

支持

對話

豆包_doubao

Doubao-lite 擁有極致嘅響應速度，更好嘅性價比，為客戶不同場景提供更靈活嘅選擇。支持128k上下文窗口嘅推理同精調。

Doubao-lite-32k

32k

支持

對話

豆包_doubao

Doubao-lite擁有極致嘅響應速度，更好嘅性價比，為客戶不同場景提供更靈活嘅選擇。支持32k上下文窗口嘅推理同精調。

Doubao-lite-4k

支持

對話

豆包_doubao

Doubao-lite擁有極致嘅響應速度，更好嘅性價比，為客戶不同場景提供更靈活嘅選擇。支持4k上下文窗口嘅推理同精調。

Doubao-pro-128k

128k

支持

對話

豆包_doubao

效果最好嘅主力模型，適合處理複雜任務，喺參考問答、總結摘要、創作、文本分類、角色扮演等場景都有好嘅效果。支持128k上下文窗口嘅推理同精調。

Doubao-pro-32k

32k

支持

對話

豆包_doubao

效果最好嘅主力模型，適合處理複雜任務，喺參考問答、總結摘要、創作、文本分類、角色扮演等場景都有好嘅效果。支持32k上下文窗口嘅推理同精調。

Doubao-pro-4k

支持

對話

豆包_doubao

效果最好嘅主力模型，適合處理複雜任務，喺參考問答、總結摘要、創作、文本分類、角色扮演等場景都有好嘅效果。支持4k上下文窗口嘅推理同精調。

step-1-128k

128k

支持

對話

階躍星辰

step-1-128k模型係一個超大規模嘅語言模型，能夠處理高達128,000個token嘅輸入。呢種能力令佢喺生成長篇內容同進行複雜推理時具有顯著優勢，適合用於創作小說、劇本等需要豐富上下文嘅應用。

step-1-256k

256k

支持

對話

階躍星辰

step-1-256k模型係目前最大嘅語言模型之一，支持256,000個token嘅輸入。佢嘅設計旨喺滿足極端複雜嘅任務需求，例如大規模數據分析同多輪對話系統，能夠喺多種領域中提供高質量嘅輸出。

step-1-32k

32k

支持

對話

階躍星辰

step-1-32k模型擴展咗上下文窗口，支持32,000個token嘅輸入。呢個令佢喺處理長篇文章同複雜對話時表現出色，適合需要深入理解同分析嘅任務，例如法律文書同學術研究。

step-1-8k

支持

對話

階躍星辰

step-1-8k模型係一個高效嘅語言模型，專為處理較短文本而設計。佢能夠喺8,000個token嘅上下文中進行推理，適合需要快速響應嘅應用場景，例如聊天機械人同實時翻譯。

step-1-flash

支持

對話

階躍星辰

step-1-flash模型專注於快速響應同高效處理，適合實時應用。佢嘅設計令喺有限嘅計算資源下仍能提供優質嘅語言理解同生成能力，適合移動設備同邊緣計算場景。

step-1.5v-mini

32k

支持

對話,識圖

階躍星辰

step-1.5v-mini模型係一個輕量級版本，旨喺喺資源受限嘅環境中運行。儘管體積細，但佢仍然保留咗良好嘅語言處理能力，適合嵌入式系統同低功耗設備。

step-1v-32k

32k

支持

對話,識圖

階躍星辰

step-1v-32k模型支持32,000個token嘅輸入，適合需要更長上下文嘅應用。佢喺處理複雜對話同長文本時表現出色，適合客戶服務同內容創作等領域。

step-1v-8k

支持

對話,識圖

階躍星辰

step-1v-8k模型係一個優化版本，專為8,000個token嘅輸入設計，適合快速生成同處理短文本。佢喺速度同準確性之間取得咗良好嘅平衡，適合實時應用。

step-2-16k

16k

支持

對話

階躍星辰

step-2-16k模型係一個中等規模嘅語言模型，支持16,000個token嘅輸入。佢喺多種任務中表現良好，適合教育、培訓同知識管理等應用場景。

yi-lightning

16k

支持

對話

零一萬物_yi

最新高性能模型，保證高質量輸出同時，推理速度大幅提升。適用於實時互動、高複雜推理場景，高性價比能為商業產品提供極好嘅產品支撐。

yi-vision-v2

16K

支持

對話,識圖

零一萬物_yi

適合需要分析同解釋圖像、圖表嘅場景，例如圖片問答、圖表理解、OCR、視覺推理、教育、研究報告理解或多語種文件閱讀等。

qwen-14b-chat

支持

對話

千問_qwen

阿里雲官方嘅通義千問-開源版。

qwen-72b-chat

32k

支持

對話

千問_qwen

阿里雲官方嘅通義千問-開源版。

qwen-7b-chat

7.5k

1.5k

支持

對話

千問_qwen

阿里雲官方嘅通義千問-開源版。

qwen-coder-plus

128k

支持

對話,代碼

千問_qwen

Qwen-Coder-Plus係Qwen系列中嘅一款編程專用模型，旨喺提升代碼生成同理解能力。該模型通過大規模嘅編程數據訓練，能夠處理多種編程語言，支持代碼補全、錯誤檢測同代碼重構等功能。其設計目標係為開發者提供更高效嘅編程輔助，提升開發效率。

qwen-coder-plus-latest

128k

支持

對話,代碼

千問_qwen

Qwen-Coder-Plus-Latest係Qwen-Coder-Plus嘅最新版本，包含咗最新嘅算法優化同數據集更新。該模型喺性能上有顯著提升，能夠更準確咁理解上下文，生成更符合開發者需求嘅代碼。佢仲引入咗更多嘅編程語言支持，增強咗多語言編程嘅能力。

qwen-coder-turbo

128k

支持

對話,代碼

千問_qwen

通義千問系列代碼及編程模型係專門用於編程同代碼生成嘅語言模型，推理速度快，成本低。該版本始終指向最新穩定版快照

qwen-coder-turbo-latest

128k

支持

對話,代碼

千問_qwen

通義千問系列代碼及編程模型係專門用於編程同代碼生成嘅語言模型，推理速度快，成本低。該版本始終指向最新版快照

qwen-long

10m

支持

對話

千問_qwen

Qwen-Long係通義千問針對超長上下文處理場景嘅大語言模型，支持中文、英文等唔同語言輸入，支持最長1000萬tokens（約1500萬字或1.5萬頁文檔）嘅超長上下文對話。配合同步上線嘅文件服務，可支持word、pdf、markdown、epub、mobi等多種文檔格式嘅解析同對話。說明：通過HTTP直接提交請求，支持1M tokens長度，超過此長度建議通過文件方式提交。

qwen-math-plus

支持

對話

千問_qwen

Qwen-Math-Plus係專注於數學問題解決嘅模型，旨喺提供高效嘅數學推理同計算能力。該模型通過大量嘅數學題庫進行訓練，能夠處理複雜嘅數學表達式同問題，支持從基礎算術到高等數學嘅多種計算需求。其應用場景包括教育、科研同工程等領域。

qwen-math-plus-latest

支持

對話

千問_qwen

Qwen-Math-Plus-Latest係Qwen-Math-Plus嘅最新版本，集成咗最新嘅數學推理技術同算法改進。該模型喺處理複雜數學問題時表現更為出色，能夠提供更準確嘅解答同推理過程。佢仲擴展咗對數學符號同公式嘅理解能力，適用於更廣泛嘅數學應用場景。

qwen-math-turbo

支持

對話

千問_qwen

Qwen-Math-Turbo係一個高性能嘅數學模型，專為快速計算同實時推理而設計。該模型優化咗計算速度，能夠喺極短嘅時間內處理大量數學問題，適合需要快速反饋嘅應用場景，例如線上教育同實時數據分析。其高效嘅算法令用戶能夠喺複雜計算中獲得即時結果。

qwen-math-turbo-latest

支持

對話

千問_qwen

Qwen-Math-Turbo-Latest係Qwen-Math-Turbo嘅最新版本，進一步提升咗計算效率同準確性。該模型喺算法上進行咗多項優化，能夠處理更複雜嘅數學問題，並喺實時推理中保持高效性。佢適合用於需要快速響應嘅數學應用，例如金融分析同科學計算。

qwen-max

32k

支持

對話

千問_qwen

通義千問2.5系列千億級別超大規模語言模型，支持中文、英文等唔同語言輸入。隨住模型嘅升級，qwen-max會滾動更新升級。

qwen-max-latest

32k

支持

對話

千問_qwen

通義千問系列效果最好嘅模型，呢個模型係動態更新版本，模型更新唔會提前通知，適合複雜、多步驟嘅任務，模型中英文綜合能力顯著提升，模型人類偏好顯著提升，模型推理能力同複雜指令理解能力顯著增強，困難任務上嘅表現更優，數學、代碼能力顯著提升，提升對Table、JSON等結構化數據嘅理解同生成能力。

qwen-plus

128k

支持

對話

千問_qwen

通義千問系列能力均衡嘅模型，推理效果同速度介乎通義千問-Max同通義千問-Turbo之間，適合中等複雜任務。模型中英文綜合能力顯著提升，模型人類偏好顯著提升，模型推理能力同複雜指令理解能力顯著增強，困難任務上嘅表現更優，數學、代碼能力顯著提升。

qwen-plus-latest

128k

支持

對話

千問_qwen

Qwen-Plus係通義千問系列中嘅增強版視覺語言模型，旨喺提升細節識別能力同文字識別能力。該模型支持超百萬像素分辨率同任意長寬比規格嘅圖像，能夠喺多種視覺語言任務中表現出色，適合需要高精度圖像理解嘅應用場景。

qwen-turbo

128k

支持

對話

千問_qwen

通義千問系列速度最快、成本好低嘅模型，適合簡單任務。模型中英文綜合能力顯著提升，模型人類偏好顯著提升，模型推理能力同複雜指令理解能力顯著增強，困難任務上嘅表現更優，數學、代碼能力顯著提升。

qwen-turbo-latest

支持

對話

千問_qwen

Qwen-Turbo係為簡單任務設計嘅高效模型，強調速度同成本效益。佢喺處理基本嘅視覺語言任務時表現出色，適合對響應時間有嚴格要求嘅應用，例如實時圖像識別同簡單嘅問答系統。

qwen-vl-max

32k

支持

對話

千問_qwen

通義千問VL-Max（qwen-vl-max），即通義千問超大規模視覺語言模型。相比增強版，進一步提升視覺推理能力同指令遵循能力，提供更高嘅視覺感知同認知水平。喺更多複雜任務上提供最佳嘅性能。

qwen-vl-max-latest

32k

支持

對話,識圖

千問_qwen

Qwen-VL-Max係Qwen-VL系列中嘅最高級版本，專為解決複雜嘅多模態任務而設計。佢結合咗先進嘅視覺同語言處理技術，能夠理解同分析高分辨率圖像，推理能力極強，適合需要深度理解同複雜推理嘅應用場景。

qwen-vl-ocr

34k

支持

對話,識圖

千問_qwen

只支持 ocr，唔支持對話。

qwen-vl-ocr-latest

34k

支持

對話,識圖

千問_qwen

只支持 ocr，唔支持對話。

qwen-vl-plus

支持

對話,識圖

千問_qwen

通義千問VL-Plus（qwen-vl-plus），即通義千問大規模視覺語言模型增強版。大幅提升細節識別能力同文字識別能力，支持超百萬像素分辨率同任意長寬比規格嘅圖像。喺廣泛嘅視覺任務上提供卓越嘅性能。

qwen-vl-plus-latest

32k

支持

對話,識圖

千問_qwen

Qwen-VL-Plus-Latest係Qwen-VL-Plus嘅最新版本，增強咗模型嘅多模態理解能力。佢喺圖像同文本嘅結合處理上表現出色，適合需要高效處理多種輸入格式嘅應用，例如智能客服同內容生成。

Qwen/Qwen2-1.5B-Instruct

32k

不支持

對話

千問_qwen

Qwen2-1.5B-Instruct 係 Qwen2 系列中嘅指令微調大語言模型，參數規模為 1.5B。該模型基於 Transformer 架構，採用咗 SwiGLU 激活函數、注意力 QKV 偏置同組查詢注意力等技術。佢喺語言理解、生成、多語言能力、編碼、數學同推理等多個基準測試中表現出色，超越咗大多數開源模型。

Qwen/Qwen2-72B-Instruct

128k

不支持

對話

千問_qwen

Qwen2-72B-Instruct 係 Qwen2 系列中嘅指令微調大語言模型，參數規模為 72B。該模型基於 Transformer 架構，採用咗 SwiGLU 激活函數、注意力 QKV 偏置同組查詢注意力等技術。佢能夠處理大規模輸入。該模型喺語言理解、生成、多語言能力、編碼、數學同推理等多個基準測試中表現出色，超越咗大多數開源模型

Qwen/Qwen2-7B-Instruct

128k

不支持

對話

千問_qwen

Qwen2-7B-Instruct 係 Qwen2 系列中嘅指令微調大語言模型，參數規模為 7B。該模型基於 Transformer 架構，採用咗 SwiGLU 激活函數、注意力 QKV 偏置同組查詢注意力等技術。佢能夠處理大規模輸入。該模型喺語言理解、生成、多語言能力、編碼、數學同推理等多個基準測試中表現出色，超越咗大多數開源模型

Qwen/Qwen2-VL-72B-Instruct

32k

不支持

對話

千問_qwen

Qwen2-VL 係 Qwen-VL 模型嘅最新迭代版本，喺視覺理解基準測試中達到咗最先進嘅性能，包括 MathVista、DocVQA、RealWorldQA 同 MTVQA 等。Qwen2-VL 能夠理解超過 20 分鐘嘅視頻，用於高質量嘅基於視頻嘅問答、對話同內容創作。佢仲具備複雜推理同決策能力，可以同移動設備、機械人等集成，基於視覺環境同文本指令進行自動操作。

Qwen/Qwen2-VL-7B-Instruct

32k

不支持

對話

千問_qwen

Qwen2-VL-7B-Instruct 係 Qwen-VL 模型嘅最新迭代版本，喺視覺理解基準測試中達到咗最先進嘅性能，包括 MathVista、DocVQA、RealWorldQA 同 MTVQA 等。Qwen2-VL 能夠用於高質量嘅基於視頻嘅問答、對話同內容創作，仲具備複雜推理同決策能力，可以同移動設備、機械人等集成，基於視覺環境同文本指令進行自動操作。

Qwen/Qwen2.5-72B-Instruct

128k

不支持

對話

千問_qwen

Qwen2.5-72B-Instruct 係阿里雲發佈嘅最新大語言模型系列之一。該 72B 模型喺編碼同數學等領域具有顯著改進嘅能力。佢支持長達 128K tokens 嘅輸入，可以生成超過 8K tokens 嘅長文本。

Qwen/Qwen2.5-72B-Instruct-128K

128k

不支持

對話

千問_qwen

Qwen/Qwen2.5-7B-Instruct

128k

不支持

對話

千問_qwen

Qwen2.5-7B-Instruct 係阿里雲發佈嘅最新大語言模型系列之一。該 7B 模型喺編碼同數學等領域具有顯著改進嘅能力。該模型仲提供咗多語言支持，覆蓋超過 29 種語言，包括中文、英文等。模型喺指令跟隨、理解結構化數據以及生成結構化輸出（尤其係 JSON）方面都有顯著提升

Qwen/Qwen2.5-Coder-32B-Instruct

128k

不支持

對話,代碼

千問_qwen

Qwen2.5-32B-Instruct 係阿里雲發佈嘅最新大語言模型系列之一。該 32B 模型喺編碼同數學等領域具有顯著改進嘅能力。該模型仲提供咗多語言支持，覆蓋超過 29 種語言，包括中文、英文等。模型喺指令跟隨、理解結構化數據以及生成結構化輸出（尤其係 JSON）方面都有顯著提升

Qwen/Qwen2.5-Coder-7B-Instruct

128k

不支持

對話

千問_qwen

Qwen/QwQ-32B-Preview

32k

16k

不支持

對話,推理

千問_qwen

QwQ-32B-Preview 係由 Qwen 團隊開發嘅實驗性研究模型，旨在提升人工智能嘅推理能力。作為預覽版本，佢展示咗出色嘅分析能力，但亦存在一啲重要嘅限制： 1. 語言混合同代碼切換：模型可能會混合使用語言或喺語言之間意外切換，影響回應嘅清晰度。 2. 遞歸推理循環：模型可能會進入循環推理模式，導致冗長嘅回答但無明確結論。 3. 安全同倫理考量：模型需要加強安全措施以確保可靠同安全嘅性能，用戶喺使用時應該謹慎。 4. 性能同基準限制：模型喺數學同編程方面表現出色，但喺常識推理同細微語言理解等其他領域仍有改進空間。

qwen1.5-110b-chat

32k

不支持

對話

千問_qwen

qwen1.5-14b-chat

不支持

對話

千問_qwen

qwen1.5-32b-chat

32k

不支持

對話

千問_qwen

qwen1.5-72b-chat

32k

不支持

對話

千問_qwen

qwen1.5-7b-chat

不支持

對話

千問_qwen

qwen2-57b-a14b-instruct

65k

不支持

對話

千問_qwen

Qwen2-72B-Instruct

不支持

對話

千問_qwen

qwen2-7b-instruct

128k

不支持

對話

千問_qwen

qwen2-math-72b-instruct

不支持

對話

千問_qwen

qwen2-math-7b-instruct

不支持

對話

千問_qwen

qwen2.5-14b-instruct

128k

不支持

對話

千問_qwen

qwen2.5-32b-instruct

128k

不支持

對話

千問_qwen

qwen2.5-72b-instruct

128k

不支持

對話

千問_qwen

qwen2.5-7b-instruct

128k

不支持

對話

千問_qwen

qwen2.5-coder-14b-instruct

128k

不支持

對話,代碼

千問_qwen

qwen2.5-coder-32b-instruct

128k

不支持

對話,代碼

千問_qwen

qwen2.5-coder-7b-instruct

128k

不支持

對話,代碼

千問_qwen

qwen2.5-math-72b-instruct

不支持

對話

千問_qwen

qwen2.5-math-7b-instruct

不支持

對話

千問_qwen

deepseek-ai/DeepSeek-R1

64k

不支持

對話,推理

深度求索_deepseek

DeepSeek-R1 模型係一款基於純強化學習嘅開源推理模型，佢喺數學、代碼同自然語言推理等任務上表現出色，性能可與 OpenAI 嘅 o1 模型媲美，且喺多個基準測試中取得咗優異嘅成績。

deepseek-ai/DeepSeek-V2-Chat

128k

不支持

對話

深度求索_deepseek

DeepSeek-V2 係一個強大、經濟高效嘅混合專家（MoE）語言模型。佢喺 8.1 萬億個 token 嘅高質量語料上做咗預訓練，並且透過監督微調（SFT）同強化學習（RL）進一步提升模型能力。相比 DeepSeek 67B，DeepSeek-V2 喺性能更強嘅同時，節省咗 42.5% 嘅訓練成本，減少咗 93.3% 嘅 KV 快取，並且將最大生成吞吐量提高到 5.76 倍。

deepseek-ai/DeepSeek-V2.5

32k

支持

對話

深度求索_deepseek

DeepSeek-V2.5 係 DeepSeek-V2-Chat 同 DeepSeek-Coder-V2-Instruct 嘅升級版本，整合咗兩個之前版本嘅通用同編碼能力。呢個模型喺多方面做咗優化，包括寫作同跟隨指令嘅能力，更加貼合人類偏好。

deepseek-ai/DeepSeek-V3

128k

不支持

對話

深度求索_deepseek

deepseek 開源版本，相對官方版上下文更長，無敏感詞拒答等問題。

deepseek-chat

64k

支持

對話

深度求索_deepseek

236B 參數量，64K 上下文（API），中文綜合能力（AlignBench）位列開源榜首，喺評測中同 GPT-4-Turbo、文心 4.0 等閉源模型處於同一梯隊

deepseek-coder

64k

支持

對話,代碼

深度求索_deepseek

236B 參數量，64K 上下文（API），中文綜合能力（AlignBench）位列開源榜首，喺評測中同 GPT-4-Turbo、文心 4.0 等閉源模型處於同一梯隊

deepseek-reasoner

64k

支持

對話,推理

深度求索_deepseek

DeepSeek-Reasoner（DeepSeek-R1）係 DeepSeek 最新推出嘅推理模型，旨喺通過強化學習訓練提升推理能力。呢個模型嘅推理過程包含大量反思同驗證，能夠處理複雜嘅邏輯推理任務，其思維鏈長度可達數萬字。DeepSeek-R1 喺數學、代碼同其他複雜問題嘅解答上表現出色，已被廣泛應用喺多種場景，顯示出佢強大嘅推理能力同靈活性。相比其他模型，DeepSeek-R1 喺推理性能上接近頂尖嘅閉源模型，展示咗開源模型喺推理領域嘅潛力同競爭力。

hunyuan-code

不支持

對話,代碼

騰訊_hunyuan

混元最新代碼生成模型，經過 200B 高質量代碼數據增訓基座模型，迭代半年高質量 SFT 數據訓練，上下文長窗口增大到 8K，喺五大語言代碼生成自動評測指標上位居前列；五大語言 10 項考量各方面綜合代碼任務人工高質量評測上，性能處於第一梯隊。

hunyuan-functioncall

28k

支持

對話

騰訊_hunyuan

混元最新 MOE 架構 FunctionCall 模型，經過高質量嘅 FunctionCall 數據訓練，上下文窗口達 32K，喺多個維度嘅評測指標上處於領先。

hunyuan-large

28k

不支持

對話

騰訊_hunyuan

Hunyuan-large 模型總參數量約 389B，激活參數量約 52B，係而家業界參數規模最大、效果最好嘅 Transformer 架構開源 MoE 模型。

hunyuan-large-longcontext

128k

不支持

對話

騰訊_hunyuan

擅長處理長文任務例如文檔摘要同文檔問答等，同時亦具備處理通用文本生成任務嘅能力。喺長文本嘅分析同生成上表現優異，能有效應對複雜同詳盡嘅長文內容處理需求。

hunyuan-lite

250k

不支持

對話

騰訊_hunyuan

升級為 MOE 結構，上下文窗口為 256k，喺 NLP、代碼、數學、行業等多項評測集上領先眾多開源模型。

hunyuan-pro

28k

支持

對話

騰訊_hunyuan

萬億級參數規模 MOE-32K 長文模型。喺各種 benchmark 上達到絕對領先嘅水平，處理複雜指令同推理，具備複雜數學能力，支持 functioncall，喺多語言翻譯、金融、法律、醫療等領域應用方面做咗重點優化。

hunyuan-role

28k

不支持

對話

騰訊_hunyuan

混元最新版角色扮演模型，混元官方精調訓練推出嘅角色扮演模型，基於混元模型結合角色扮演場景數據集進行增訓，喺角色扮演場景具有更好嘅基礎效果。

hunyuan-standard

30k

不支持

對話

騰訊_hunyuan

採用更優嘅路由策略，同時緩解咗負載均衡同專家趨同嘅問題。 MOE-32K 性價比較高，喺平衡效果、價格嘅同時，可以實現對長文本輸入嘅處理。

hunyuan-standard-256K

250k

不支持

對話

騰訊_hunyuan

採用更優嘅路由策略，同時緩解咗負載均衡同專家趨同嘅問題。長文方面，大海撈針指標達到 99.9%。MOE-256K 喺長度同效果上進一步突破，極大地擴展咗可輸入長度。

hunyuan-translation-lite

不支持

對話

騰訊_hunyuan

混元翻譯模型支持自然語言對話式翻譯；支持中文同英文、日文、法文、葡萄牙文、西班牙文、土耳其文、俄文、阿拉伯文、韓文、意大利文、德文、越南文、馬來文、印尼文 15 種語言互譯。

hunyuan-turbo

28k

支持

對話

騰訊_hunyuan

Hunyuan-turbo 模型默認版本，採用全新嘅混合專家模型（MoE）結構，相比 hunyuan-pro 推理效率更快，效果表現更強。

hunyuan-turbo-latest

28k

支持

對話

騰訊_hunyuan

Hunyuan-turbo 模型動態更新版本，係混元模型系列效果最好嘅版本，與 C 端（騰訊元寶）保持一致。

hunyuan-turbo-vision

支持

識圖，對話

騰訊_hunyuan

混元新一代視覺語言旗艦大模型，採用全新嘅混合專家模型（MoE）結構，喺圖文理解相關嘅基礎識別、內容創作、知識問答、分析推理等能力上相比上一代模型全面提升。最大輸入 6k，最大輸出 2k

hunyuan-vision

支持

對話,識圖

騰訊_hunyuan

混元最新多模態模型，支持圖片+文本輸入生成文本內容。圖片基礎識別：對圖片中主體、元素、場景等進行識別圖片內容創作：對圖片進行概述、創作廣告文案、朋友圈、詩詞等圖片多輪對話：對單張圖片進行多輪互動問答圖片分析推理：對圖片中邏輯關係、數學題、代碼、圖表進行統計分析圖片知識問答：對圖片包含嘅知識點進行問答，例如歷史事件、電影海報圖片 OCR：對自然生活場景、非自然場景嘅圖片識別文字。

SparkDesk-Lite

不支持

對話

星火_SparkDesk

支持在線聯網搜索功能，響應快速、方便，適用於低算力推理與模型精調等定制化場景

SparkDesk-Max

128k

支持

對話

星火_SparkDesk

基於最新版星火大模型引擎 4.0 Turbo 量化而來，支持聯網搜索、天氣、日期等多個內置插件，核心能力全面升級，各場景應用效果普遍提升，支持 System 角色人設同 FunctionCall 函數調用

SparkDesk-Max-32k

32k

支持

對話

星火_SparkDesk

推理更強：更強嘅上下文理解同邏輯推理能力；輸入更長：支持 32K tokens 嘅文本輸入，適用於長文檔閱讀、私有知識問答等場景

SparkDesk-Pro

128k

不支持

對話

星火_SparkDesk

喺數學、代碼、醫療、教育等場景做咗專項優化，支持聯網搜索、天氣、日期等多個內置插件，覆蓋大部分知識問答、語言理解、文本創作等場景

SparkDesk-Pro-128K

128k

不支持

對話

星火_SparkDesk

專業級大語言模型，具有百億級參數，喺醫療、教育同代碼等場景進行咗專項優化，搜索場景延遲更低。適用於對性能同響應速度有更高要求嘅文本、智能問答等業務場景。

moonshot-v1-128k

128k

支持

對話

月之暗面_moonshot

長度為 8k 嘅模型，適用於生成短文本。

moonshot-v1-32k

32k

支持

對話

月之暗面_moonshot

長度為 32k 嘅模型，適用於生成長文本。

moonshot-v1-8k

支持

對話

月之暗面_moonshot

長度為 128k 嘅模型，適用於生成超長文本。

codegeex-4

128k

不支持

對話,代碼

智譜_codegeex

智譜嘅代碼模型：適用於代碼自動補全任務

charglm-3

不支持

對話

智譜_glm

擬人模型

emohaa

不支持

對話

智譜_glm

心理模型：具備專業諮詢能力，幫助用戶理解情感並應對情緒問題

glm-3-turbo

128k

不支持

對話

智譜_glm

即將棄用（2025年6月30日）

glm-4

128k

支持

對話

智譜_glm

舊版旗艦：發布於 2024 年 1 月 16 日，目前已被 GLM-4-0520 取代

glm-4-0520

128k

支持

對話

智譜_glm

高智能模型：適用於處理高度複雜同多樣化嘅任務

glm-4-air

128k

支持

對話

智譜_glm

高性價比：推理能力同價格之間最平衡嘅模型

glm-4-airx

支持

對話

智譜_glm

極速推理：具有超快嘅推理速度同強大嘅推理效果

glm-4-flash

128k

支持

對話

智譜_glm

高速低價：超快推理速度

glm-4-flashx

128k

支持

對話

智譜_glm

高速低價：Flash 增強版本，超快推理速度

glm-4-long

支持

對話

智譜_glm

超長輸入：專為處理超長文本同記憶型任務設計

glm-4-plus

128k

支持

對話

智譜_glm

高智能旗艦：性能全面提升，長文本同複雜任務能力顯著增強

glm-4v

不支持

對話,識圖

智譜_glm

圖像理解：具備圖像理解能力同推理能力

glm-4v-flash

不支持

對話,識圖

智譜_glm

免費模型：具備強大嘅圖片理解能力

Previous私隱協議 Next模型榜單

Last updated 11 months ago

Was this helpful?