智谱 GLM-4.6V

Cherry Studio のユーザーは、内蔵の CherryIN サービスを無料で体験できるようになりました 智譜 GLM-4.6V——Z.ai(智譜 AI)が2025年12月に発表したビジュアルフラッグシップモデル。MoEアーキテクチャ、128Kのネイティブなマルチモーダルコンテキスト、ネイティブなマルチモーダルツール呼び出しを備え、画像・文章理解およびマルチモーダルAgentシーンに最適な選択肢です。


🚀 GLM-4.6V とは?

GLM-4.6V は Z.ai の GLM-V シリーズ最新世代のビジュアル言語モデルで、テキスト+画像の統一モデリングをネイティブにサポートし、GLM-4.5V をベースにコンテキストとツール呼び出し能力をさらに拡張しています。

  • アーキテクチャ:Mixture-of-Experts(MoE)

  • 総パラメータ数:106B

  • アクティブ化パラメータ数:約12B

  • コンテキスト長:128K tokens

  • オープンソースライセンス:MIT

  • リリース日:2025年12月8〜9日

  • ビジュアルエンコーダー:複数解像度の画像に対応(最大4K)

シリーズには同時に GLM-4.6V-Flash(9B)も含まれ、ローカル環境および低遅延シーン向けで、無料で商用利用可能です。


📚 GLM-V シリーズのマルチモーダル学習体系を継承

GLM-4.6V は GLM-4.1V-Thinking / GLM-4.5V の技術路線を踏襲し、ビジュアルとAgentの方向でさらに強化されています:

  1. ネイティブなマルチモーダルモデリング:テキストと画像を共同学習し、画像とテキストが混在する入力に対応

  2. コンテキスト拡張:学習時のコンテキストを128K tokensまで拡張し、1回で約150ページの高密度文書、200ページのスライド、または1時間の動画を処理可能

  3. ネイティブなマルチモーダルツール呼び出し:ツールが画像を入力・出力として直接受け取れるようにし、拡張された MCP プロトコルに基づいてURL方式でマルチモーダル成果物を処理

  4. 強化学習の強化:GLM-V シリーズのスケーラブルなRLプロセスを継承


⚙️ ネイティブなマルチモーダル、実際のシーン向け

GLM-4.6V のマルチモーダル能力は、日常から専門的なシーンまでカバーします:

  • リッチテキスト内容の理解:長文書、複数ページのテキスト、画像と文章が混在したレイアウト

  • ビジュアルWeb検索:視覚入力を組み合わせてネット検索と理解を行う

  • フロントエンド再現:デザイン稿やUIスクリーンショットからフロントエンドコードを生成

  • 長文脈マルチモーダル文書分析:文書全体のPDF / スライド / 動画レベルの入力

  • 図表と表の解析:構造化情報の抽出


💡 ネイティブなマルチモーダルツール呼び出しとAgent能力

GLM-4.6V の主要なアップグレードの1つは、 "視覚認識 → 実行可能なアクション" の閉ループです。ツール呼び出しは画像を入力と出力としてネイティブにサポートし、マルチモーダルAgentを実際の業務に実装できます。

シーン
推奨される使い方

シンプルな画像・文章Q&A

直接対話

"この画像には何がありますか?"

中程度の複雑さのタスク

ツール呼び出しを有効化

図表を読み取ってからデータを検索する

複雑なマルチモーダルAgent

複数ツール + MCP

スクリーンショット → 理解 → API呼び出し → レポート生成


🌟 高効率MoE、オープンに利用可能

  • ⚡ MoEの疎なアクティベーション:総パラメータ106B、アクティブ化は約12Bのみ

  • 💰 Cherry Studio では CherryIN を通じて無料で使用可能

  • 🖥️ 重み、推論コード、MCPツールはすでに GitHub と Hugging Face でオープンソース化されており、MITライセンスです


🧠 実用能力に注目:マルチモーダルアシスタント

GLM-4.6V は実際の利用では以下のシーンに適しています:

  • 文書アシスタント:長文書、スキャン画像、スライドの全文読解と要約

  • データ分析:図表やダッシュボードのスクリーンショットを識別・解釈

  • フロントエンドとデザイン:UIスクリーンショットに基づいてフロントエンドコードを生成または修正

  • ビジュアル検索:画像を組み合わせてネット検索と情報統合を行う

  • マルチモーダルAgent:ブラウザ、コード実行、検索などのツールを組み合わせて複雑なタスクを完了


🧭 Cherry Studio での使い方は?

  1. Cherry Studio を開き、 設定 → モデルサービスに進みます。

  2. を見つけて CherryIN サービスプロバイダーを有効にします。

  3. モデル一覧で 智譜 GLM-4.6Vに進みます。

  4. チャット画面に戻り、上部のモデル選択で GLM-4.6Vに切り替えると、会話内で直接画像をアップロードして画像・文章のやり取りができます。

💡 ヒント:CherryIN が提供する無料モデル枠は Cherry Studio 公式が負担しており、日常体験や評価に適しています。本番環境では Z.ai(智譜)の公式 API の利用を組み合わせることを推奨します。


📘 今すぐ智譜 GLM-4.6V を体験して、ネイティブなマルチモーダルとビジュアルAgent能力を解放しましょう!

最終更新

役に立ちましたか?