DeepSeek V3.2
Cherry Studio 用戶而家可以透過內置嘅 CherryIN 服務免費體驗 DeepSeek V3.2——DeepSeek 於 2025 年 12 月 1 日發佈嘅旗艦級稀疏注意力 MoE 模型,首次將「思考」原生整合到工具調用入面,係進階 Agent 同長上下文場景嘅理想選擇。
🚀 乜嘢係 DeepSeek V3.2?
DeepSeek V3.2 基於 V3.2-Exp 迭代而來,採用 Mixture-of-Experts(MoE)架構,並引入 DeepSeek Sparse Attention(DSA) 稀疏注意力機制,喺保持超大規模總參數嘅同時顯著降低長上下文推理成本。
架構:MoE + DeepSeek Sparse Attention(DSA)+ Multi-Head Latent Attention(MLA)
總參數量:685B
每 Token 激活參數量:約 37B
專家數:每層 256 個專家
開源許可:MIT
發佈時間:2025 年 12 月 1 日(V3.2-Exp 於 2025 年 9 月 29 日發佈)
V3.2 同時發佈咗面向 API 嘅 DeepSeek-V3.2-Speciale 版本,喺複雜推理任務上取得 IMO、CMO、ICPC World Finals 同 IOI 2025 嘅金牌級表現。

📚 延續紮實嘅訓練同對齊流程
DeepSeek V3.2 沿用咗 V3 系列成熟嘅訓練流水線,並針對 Agent 場景做咗關鍵擴展:
大規模預訓練:喺海量高質量多語言語料上完成基礎訓練,覆蓋代碼、數學同科學知識。
稀疏注意力引入:喺 128K 序列長度下訓練主模型同 lightning indexer,每個 query token 選擇 2048 個 key-value token 參與注意力。
大規模 Agent 數據合成:覆蓋 1,800+ 環境同 85,000+ 複雜指令嘅全新 Agent 訓練數據合成方法。
思考同工具調用融合:V3.2 係 DeepSeek 首個將「思考」原生整合到工具調用入面嘅模型,支持喺「思考模式」同「非思考模式」下都可以調用工具。

⚙️ 旗艦級核心能力
DeepSeek V3.2 主打「同 GPT-5 水平相當」嘅綜合能力,並喺 Agent 同複雜推理上大幅強化:
✅ 原生思考 + 工具調用:首個將 thinking 整合入 tool-use 嘅 DeepSeek 模型
✅ 頂級推理能力:V3.2-Speciale 喺 IMO / CMO / ICPC World Finals / IOI 2025 上達到金牌水平
✅ 代碼與開發任務:繼承 V3 系列強代碼能力
✅ 長上下文穩定性:DSA 帶嚟嘅長文件同代碼庫級分析能力
✅ 結構化工具調用:適合構建多步規劃同執行嘅 Agent

💡 DeepSeek Sparse Attention:更長、更省
DSA 係 V3.2 嘅核心技術升級,透過 lightning indexer + 細粒度 token 選擇 實現:
首次喺大模型上實現細粒度稀疏注意力
將核心注意力複雜度由 O(L²) 降低
喺長上下文訓練同推理上顯著提速,同時保持同稠密注意力幾乎一致嘅輸出質量
短對話 / 簡單問答
直接調用
日常問答、摘要
中等複雜任務
啟用工具調用
數據分析、代碼重構
複雜 Agent 任務
思考 + 工具調用
多步規劃、代碼庫分析、長文件審閱
🌟 開放、可用、生態友好
⚡ DSA 帶嚟嘅長上下文推理加速
💰 透過 CherryIN 喺 Cherry Studio 入面免費使用
🖥️ 開源權重、MIT 許可,vLLM、SGLang 等主流推理框架 Day-0 支援

🧠 聚焦實用能力:代碼同 Agent
DeepSeek V3.2 喺實際開發工作流入面表現尤其出色:
多語言代碼生成同重構
代碼倉庫級上下文理解同補丁生成
Agent 工具鏈:穩定調用外部工具、搜尋、代碼執行
數學同複雜推理:支持競賽級題目
🧭 點樣喺 Cherry Studio 入面使用?
打開 Cherry Studio,進入 設定 → 模型服務。
搵到 CherryIN 服務商並開啟。
喺模型列表入面選擇 DeepSeek V3.2。
返到聊天界面,喺頂部模型選擇處切換為 DeepSeek V3.2 就可以開始對話。
💡 提示:CherryIN 提供嘅免費模型額度由 Cherry Studio 官方承擔,適合日常體驗同評測;生產環境建議結合 DeepSeek 官方 API 使用。
📘 即刻體驗 DeepSeek V3.2,開啟旗艦級推理同 Agent 之旅!
Last updated
Was this helpful?