智譜 GLM-4.6V
Cherry Studio 用戶而家可以透過內置嘅 CherryIN 服務免費體驗 智譜 GLM-4.6V——由 Z.ai(智譜 AI)喺 2025 年 12 月發布嘅視覺旗艦模型,MoE 架構、128K 原生多模態上下文、原生多模態工具調用,係圖文理解同多模態 Agent 場景嘅首選。
🚀 乜嘢係 GLM-4.6V?
GLM-4.6V 係 Z.ai GLM-V 系列最新一代視覺語言模型,原生支援文本 + 圖像統一建模,喺 GLM-4.5V 嘅基礎上進一步擴展上下文同工具調用能力。
架構:Mixture-of-Experts(MoE)
總參數量:106B
激活參數量:約 12B
上下文長度:128K tokens
開源授權:MIT
發布時間:2025 年 12 月 8–9 日
視覺編碼器:支援多分辨率圖像(最高 4K)
系列同時包含 GLM-4.6V-Flash(9B),面向本地同低延遲場景,免費可商用。

📚 延續 GLM-V 系列嘅多模態訓練體系
GLM-4.6V 沿用咗 GLM-4.1V-Thinking / GLM-4.5V 嘅技術路線,並且喺視覺同 Agent 方向做咗進一步強化:
原生多模態建模:文本同圖像聯合訓練,支援圖文混合輸入
上下文擴展:訓練上下文擴展至 128K tokens,單次可處理約 150 頁密集文檔、200 頁幻燈片或者 1 小時視頻
原生多模態工具調用:工具可以直接接收同返回圖像,基於擴展嘅 MCP 協議以 URL 方式處理多模態產物
強化學習增強:沿用 GLM-V 系列嘅可擴展 RL 流程

⚙️ 原生多模態,面向真實場景
GLM-4.6V 嘅多模態能力覆蓋日常同專業場景:
✅ 富文本內容理解:長文檔、多頁文本同圖文混排
✅ 視覺網頁搜索:結合視覺輸入進行聯網檢索同理解
✅ 前端復刻:由設計稿或者 UI 截圖生成前端代碼
✅ 長上下文多模態文檔分析:成份 PDF / 幻燈片 / 視頻級輸入
✅ 圖表與表格解析:結構化信息抽取
💡 原生多模態工具調用與 Agent 能力
GLM-4.6V 嘅核心升級之一,係 「視覺感知 → 可執行動作」 嘅閉環:工具調用原生支援圖像作為輸入同輸出,令多模態 Agent 喺真實業務中落地。
簡單圖文問答
直接對話
「呢張圖入面有乜?」
中等複雜任務
啟用工具調用
讀取圖表後檢索數據
複雜多模態 Agent
多工具 + MCP
截圖 → 理解 → 調用 API → 生成報告
🌟 高效 MoE,開放可用
⚡ MoE 稀疏激活:106B 總參數,僅激活約 12B
💰 透過 CherryIN 喺 Cherry Studio 入面免費使用
🖥️ 權重、推理代碼同 MCP 工具已經喺 GitHub 同 Hugging Face 開源,MIT 授權
🧠 聚焦實用能力:多模態助手
GLM-4.6V 喺實際使用中適合以下場景:
文檔助手:長文檔、掃描件、幻燈片成份閱讀同摘要
數據分析:識別同解讀圖表、儀表板截圖
前端與設計:根據 UI 截圖生成或者修改前端代碼
視覺搜索:結合圖像進行聯網檢索同信息整合
多模態 Agent:結合瀏覽器、代碼執行、檢索等工具完成複雜任務
🧭 點樣喺 Cherry Studio 入面使用?
打開 Cherry Studio,入到 設定 → 模型服務。
搵到 CherryIN 服務商並開啟。
喺模型列表中揀選 智譜 GLM-4.6V。
返去聊天界面,喺頂部模型選擇位切換做 GLM-4.6V,就可以喺對話中直接上傳圖片做圖文互動。
💡 提示:CherryIN 提供嘅免費模型額度由 Cherry Studio 官方承擔,適合日常體驗同評測;生產環境建議結合 Z.ai(智譜)官方 API 使用。
📘 立即體驗 智譜 GLM-4.6V,解鎖原生多模態同視覺 Agent 能力!
Last updated
Was this helpful?