智譜 GLM-4.6V

Cherry Studio 用戶而家可以透過內置嘅 CherryIN 服務免費體驗 智譜 GLM-4.6V——由 Z.ai(智譜 AI)喺 2025 年 12 月發布嘅視覺旗艦模型,MoE 架構、128K 原生多模態上下文、原生多模態工具調用,係圖文理解同多模態 Agent 場景嘅首選。


🚀 乜嘢係 GLM-4.6V?

GLM-4.6V 係 Z.ai GLM-V 系列最新一代視覺語言模型,原生支援文本 + 圖像統一建模,喺 GLM-4.5V 嘅基礎上進一步擴展上下文同工具調用能力。

  • 架構:Mixture-of-Experts(MoE)

  • 總參數量:106B

  • 激活參數量:約 12B

  • 上下文長度:128K tokens

  • 開源授權:MIT

  • 發布時間:2025 年 12 月 8–9 日

  • 視覺編碼器:支援多分辨率圖像(最高 4K)

系列同時包含 GLM-4.6V-Flash(9B),面向本地同低延遲場景,免費可商用。


📚 延續 GLM-V 系列嘅多模態訓練體系

GLM-4.6V 沿用咗 GLM-4.1V-Thinking / GLM-4.5V 嘅技術路線,並且喺視覺同 Agent 方向做咗進一步強化:

  1. 原生多模態建模:文本同圖像聯合訓練,支援圖文混合輸入

  2. 上下文擴展:訓練上下文擴展至 128K tokens,單次可處理約 150 頁密集文檔、200 頁幻燈片或者 1 小時視頻

  3. 原生多模態工具調用:工具可以直接接收同返回圖像,基於擴展嘅 MCP 協議以 URL 方式處理多模態產物

  4. 強化學習增強:沿用 GLM-V 系列嘅可擴展 RL 流程


⚙️ 原生多模態,面向真實場景

GLM-4.6V 嘅多模態能力覆蓋日常同專業場景:

  • 富文本內容理解:長文檔、多頁文本同圖文混排

  • 視覺網頁搜索:結合視覺輸入進行聯網檢索同理解

  • 前端復刻:由設計稿或者 UI 截圖生成前端代碼

  • 長上下文多模態文檔分析:成份 PDF / 幻燈片 / 視頻級輸入

  • 圖表與表格解析:結構化信息抽取


💡 原生多模態工具調用與 Agent 能力

GLM-4.6V 嘅核心升級之一,係 「視覺感知 → 可執行動作」 嘅閉環:工具調用原生支援圖像作為輸入同輸出,令多模態 Agent 喺真實業務中落地。

場景
推薦用法
示例

簡單圖文問答

直接對話

「呢張圖入面有乜?」

中等複雜任務

啟用工具調用

讀取圖表後檢索數據

複雜多模態 Agent

多工具 + MCP

截圖 → 理解 → 調用 API → 生成報告


🌟 高效 MoE,開放可用

  • ⚡ MoE 稀疏激活:106B 總參數,僅激活約 12B

  • 💰 透過 CherryIN 喺 Cherry Studio 入面免費使用

  • 🖥️ 權重、推理代碼同 MCP 工具已經喺 GitHub 同 Hugging Face 開源,MIT 授權


🧠 聚焦實用能力:多模態助手

GLM-4.6V 喺實際使用中適合以下場景:

  • 文檔助手:長文檔、掃描件、幻燈片成份閱讀同摘要

  • 數據分析:識別同解讀圖表、儀表板截圖

  • 前端與設計:根據 UI 截圖生成或者修改前端代碼

  • 視覺搜索:結合圖像進行聯網檢索同信息整合

  • 多模態 Agent:結合瀏覽器、代碼執行、檢索等工具完成複雜任務


🧭 點樣喺 Cherry Studio 入面使用?

  1. 打開 Cherry Studio,入到 設定 → 模型服務

  2. 搵到 CherryIN 服務商並開啟。

  3. 喺模型列表中揀選 智譜 GLM-4.6V

  4. 返去聊天界面,喺頂部模型選擇位切換做 GLM-4.6V,就可以喺對話中直接上傳圖片做圖文互動。

💡 提示:CherryIN 提供嘅免費模型額度由 Cherry Studio 官方承擔,適合日常體驗同評測;生產環境建議結合 Z.ai(智譜)官方 API 使用。


📘 立即體驗 智譜 GLM-4.6V,解鎖原生多模態同視覺 Agent 能力!

Last updated

Was this helpful?