# 智谱 GLM-4.6V

Cherry Studio のユーザーは、内蔵の **CherryIN** サービスを無料で体験できるようになりました **智譜 GLM-4.6V**——Z.ai（智譜 AI）が2025年12月に発表したビジュアルフラッグシップモデル。MoEアーキテクチャ、128Kのネイティブなマルチモーダルコンテキスト、ネイティブなマルチモーダルツール呼び出しを備え、画像・文章理解およびマルチモーダルAgentシーンに最適な選択肢です。

***

## 🚀 GLM-4.6V とは？

GLM-4.6V は Z.ai の GLM-V シリーズ最新世代のビジュアル言語モデルで、テキスト＋画像の統一モデリングをネイティブにサポートし、GLM-4.5V をベースにコンテキストとツール呼び出し能力をさらに拡張しています。

* アーキテクチャ：Mixture-of-Experts（MoE）
* 総パラメータ数：106B
* アクティブ化パラメータ数：約12B
* コンテキスト長：128K tokens
* オープンソースライセンス：MIT
* リリース日：2025年12月8〜9日
* ビジュアルエンコーダー：複数解像度の画像に対応（最大4K）

シリーズには同時に **GLM-4.6V-Flash（9B）**&#x3082;含まれ、ローカル環境および低遅延シーン向けで、無料で商用利用可能です。

<figure><img src="/files/242620432e745091ea764080bad0ebd373544ef9" alt=""><figcaption></figcaption></figure>

***

## 📚 GLM-V シリーズのマルチモーダル学習体系を継承

GLM-4.6V は GLM-4.1V-Thinking / GLM-4.5V の技術路線を踏襲し、ビジュアルとAgentの方向でさらに強化されています：

1. **ネイティブなマルチモーダルモデリング**：テキストと画像を共同学習し、画像とテキストが混在する入力に対応
2. **コンテキスト拡張**：学習時のコンテキストを128K tokensまで拡張し、1回で約150ページの高密度文書、200ページのスライド、または1時間の動画を処理可能
3. **ネイティブなマルチモーダルツール呼び出し**：ツールが画像を入力・出力として直接受け取れるようにし、拡張された MCP プロトコルに基づいてURL方式でマルチモーダル成果物を処理
4. **強化学習の強化**：GLM-V シリーズのスケーラブルなRLプロセスを継承

<figure><img src="/files/f275eda939b589248636101108b1fbeb99c19ef0" alt=""><figcaption></figcaption></figure>

***

## ⚙️ ネイティブなマルチモーダル、実際のシーン向け

GLM-4.6V のマルチモーダル能力は、日常から専門的なシーンまでカバーします：

* ✅ **リッチテキスト内容の理解**：長文書、複数ページのテキスト、画像と文章が混在したレイアウト
* ✅ **ビジュアルWeb検索**：視覚入力を組み合わせてネット検索と理解を行う
* ✅ **フロントエンド再現**：デザイン稿やUIスクリーンショットからフロントエンドコードを生成
* ✅ **長文脈マルチモーダル文書分析**：文書全体のPDF / スライド / 動画レベルの入力
* ✅ **図表と表の解析**：構造化情報の抽出

***

## 💡 ネイティブなマルチモーダルツール呼び出しとAgent能力

GLM-4.6V の主要なアップグレードの1つは、 **"視覚認識 → 実行可能なアクション"** の閉ループです。ツール呼び出しは画像を入力と出力としてネイティブにサポートし、マルチモーダルAgentを実際の業務に実装できます。

| シーン             | 推奨される使い方    | 例                                 |
| --------------- | ----------- | --------------------------------- |
| シンプルな画像・文章Q\&A  | 直接対話        | "この画像には何がありますか？"                  |
| 中程度の複雑さのタスク     | ツール呼び出しを有効化 | 図表を読み取ってからデータを検索する                |
| 複雑なマルチモーダルAgent | 複数ツール + MCP | スクリーンショット → 理解 → API呼び出し → レポート生成 |

***

## 🌟 高効率MoE、オープンに利用可能

* ⚡ MoEの疎なアクティベーション：総パラメータ106B、アクティブ化は約12Bのみ
* 💰 Cherry Studio では CherryIN を通じて**無料で使用可能**
* 🖥️ 重み、推論コード、MCPツールはすでに GitHub と Hugging Face でオープンソース化されており、MITライセンスです

***

## 🧠 実用能力に注目：マルチモーダルアシスタント

GLM-4.6V は実際の利用では以下のシーンに適しています：

* **文書アシスタント**：長文書、スキャン画像、スライドの全文読解と要約
* **データ分析**：図表やダッシュボードのスクリーンショットを識別・解釈
* **フロントエンドとデザイン**：UIスクリーンショットに基づいてフロントエンドコードを生成または修正
* **ビジュアル検索**：画像を組み合わせてネット検索と情報統合を行う
* **マルチモーダルAgent**：ブラウザ、コード実行、検索などのツールを組み合わせて複雑なタスクを完了

***

## 🧭 Cherry Studio での使い方は？

1. Cherry Studio を開き、 **設定 → モデルサービス**に進みます。
2. を見つけて **CherryIN** サービスプロバイダーを有効にします。
3. モデル一覧で **智譜 GLM-4.6V**に進みます。
4. チャット画面に戻り、上部のモデル選択で **GLM-4.6V**に切り替えると、会話内で直接画像をアップロードして画像・文章のやり取りができます。

> 💡 ヒント：CherryIN が提供する無料モデル枠は Cherry Studio 公式が負担しており、日常体験や評価に適しています。本番環境では Z.ai（智譜）の公式 API の利用を組み合わせることを推奨します。

***

📘 **今すぐ智譜 GLM-4.6V を体験して、ネイティブなマルチモーダルとビジュアルAgent能力を解放しましょう！**


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/jp/pre-basic/providers/cherryai/mian-fei-ti-yan-zhi-pu-glm-4.6v-shi-jue-qi-jian-duo-mo-tai-moe.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
