# Zhipu GLM-4.6V

Пользователи Cherry Studio теперь могут через встроенный **CherryIN** сервис бесплатно опробовать **Zhipu GLM-4.6V**— флагманская визуальная модель, выпущенная Z.ai (Zhipu AI) в декабре 2025 года; архитектура MoE, 128K нативного мультимодального контекста, нативный вызов мультимодальных инструментов — лучший выбор для понимания изображений и текста, а также сценариев мультимодальных агентов.

***

## 🚀 Что такое GLM-4.6V?

GLM-4.6V — это новейшее поколение визуально-языковой модели серии Z.ai GLM-V, нативно поддерживающее единое моделирование текста + изображений и на основе GLM-4.5V дополнительно расширяющее контекст и возможности вызова инструментов.

* Архитектура: Mixture-of-Experts (MoE)
* Общее число параметров: 106B
* Активируемые параметры: около 12B
* Длина контекста: 128K токенов
* Открытая лицензия: MIT
* Дата выпуска: 8–9 декабря 2025 года
* Визуальный кодировщик: поддержка изображений с несколькими разрешениями (до 4K)

В серии также есть **GLM-4.6V-Flash (9B)**, ориентированная на локальные и низколатентные сценарии, бесплатна для коммерческого использования.

<figure><img src="/files/5ea787749f2330bf1b3abdb74afa9969b6816ccb" alt=""><figcaption></figcaption></figure>

***

## 📚 Продолжение мультимодальной тренировочной системы серии GLM-V

GLM-4.6V унаследовала технологический путь GLM-4.1V-Thinking / GLM-4.5V и была дополнительно усилена в направлениях зрения и агентов:

1. **Нативное мультимодальное моделирование**: совместное обучение текста и изображений, поддержка смешанного ввода текста и изображений
2. **Расширение контекста**: тренировочный контекст расширен до 128K токенов, за один проход можно обработать около 150 страниц плотных документов, 200 страниц слайдов или 1 час видео
3. **Нативный вызов мультимодальных инструментов**: инструменты могут напрямую принимать и возвращать изображения, а на основе расширенного протокола MCP мультимодальные артефакты обрабатываются по URL
4. **Усиление с помощью обучения с подкреплением**: используется масштабируемый RL-процесс серии GLM-V

<figure><img src="/files/8c750472194cd79bd568ebda347ca28f65d8a7bf" alt=""><figcaption></figcaption></figure>

***

## ⚙️ Нативная мультимодальность, ориентированная на реальные сценарии

Мультимодальные возможности GLM-4.6V охватывают повседневные и профессиональные сценарии:

* ✅ **Понимание насыщенного текстового контента**: длинные документы, многостраничный текст и смешанная верстка текста с изображениями
* ✅ **Визуальный веб-поиск**: сетевой поиск и понимание с использованием визуального ввода
* ✅ **Воссоздание фронтенда**: генерация фронтенд-кода по макету или скриншоту UI
* ✅ **Анализ длинного мультимодального контекста документов**: ввод целого PDF / презентации / видео
* ✅ **Разбор диаграмм и таблиц**: извлечение структурированной информации

***

## 💡 Нативный вызов мультимодальных инструментов и возможности агента

Одно из ключевых обновлений GLM-4.6V — это **«визуальное восприятие → выполнимое действие»** замкнутый цикл: вызов инструментов нативно поддерживает изображения как вход и выход, позволяя мультимодальным агентам внедряться в реальные бизнес-сценарии.

| Сценарий                                      | Рекомендуемый способ использования | Пример                                                  |
| --------------------------------------------- | ---------------------------------- | ------------------------------------------------------- |
| Простой вопрос-ответ по тексту и изображениям | Прямой диалог                      | «Что изображено на этой картинке?»                      |
| Задачи средней сложности                      | Включить вызов инструментов        | прочитать диаграмму и затем получить данные через поиск |
| Сложный мультимодальный агент                 | несколько инструментов + MCP       | скриншот → понимание → вызов API → генерация отчёта     |

***

## 🌟 Эффективный MoE, открыт и доступен

* ⚡ Разреженная активация MoE: 106B общих параметров, активируется лишь около 12B
* 💰 Через CherryIN в Cherry Studio**бесплатное использование**
* 🖥️ веса, код инференса и инструменты MCP уже открыты на GitHub и Hugging Face, лицензия MIT

***

## 🧠 Фокус на практических возможностях: мультимодальный помощник

GLM-4.6V на практике подходит для следующих сценариев:

* **Помощник по документам**: чтение и краткое изложение длинных документов, сканов и презентаций
* **Анализ данных**: распознавание и интерпретация диаграмм, скриншотов панелей мониторинга
* **Фронтенд и дизайн**: генерация или изменение фронтенд-кода по скриншоту UI
* **Визуальный поиск**: сетевой поиск и объединение информации с использованием изображений
* **Мультимодальный агент**: выполнение сложных задач с помощью браузера, исполнения кода, поиска и других инструментов

***

## 🧭 Как использовать в Cherry Studio?

1. Откройте Cherry Studio и перейдите в **Настройки → Сервисы моделей**.
2. Найдите **CherryIN** поставщика услуг и включите его.
3. В списке моделей выберите **Zhipu GLM-4.6V**.
4. Вернитесь в окно чата и в верхней части, в выборе модели, переключитесь на **GLM-4.6V**, после чего вы сможете напрямую загружать изображения и взаимодействовать в формате текст + изображение.

> 💡 Совет: бесплатные квоты на модели, предоставляемые CherryIN, покрываются официально Cherry Studio и подходят для повседневного знакомства и оценки; для production-среды рекомендуется использовать официальный API Z.ai (Zhipu).

***

📘 **Попробуйте Zhipu GLM-4.6V прямо сейчас и откройте для себя нативную мультимодальность и возможности визуального агента!**


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/russian/pre-basic/providers/cherryai/mian-fei-ti-yan-zhi-pu-glm-4.6v-shi-jue-qi-jian-duo-mo-tai-moe.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.