智谱 GLM-4.6V

Пользователи Cherry Studio теперь могут через встроенный CherryIN сервис бесплатно опробовать Zhipu GLM-4.6V— флагманская визуальная модель, выпущенная Z.ai (Zhipu AI) в декабре 2025 года; архитектура MoE, 128K нативного мультимодального контекста, нативный вызов мультимодальных инструментов — лучший выбор для понимания изображений и текста, а также сценариев мультимодальных агентов.


🚀 Что такое GLM-4.6V?

GLM-4.6V — это новейшее поколение визуально-языковой модели серии Z.ai GLM-V, нативно поддерживающее единое моделирование текста + изображений и на основе GLM-4.5V дополнительно расширяющее контекст и возможности вызова инструментов.

  • Архитектура: Mixture-of-Experts (MoE)

  • Общее число параметров: 106B

  • Активируемые параметры: около 12B

  • Длина контекста: 128K токенов

  • Открытая лицензия: MIT

  • Дата выпуска: 8–9 декабря 2025 года

  • Визуальный кодировщик: поддержка изображений с несколькими разрешениями (до 4K)

В серии также есть GLM-4.6V-Flash (9B), ориентированная на локальные и низколатентные сценарии, бесплатна для коммерческого использования.


📚 Продолжение мультимодальной тренировочной системы серии GLM-V

GLM-4.6V унаследовала технологический путь GLM-4.1V-Thinking / GLM-4.5V и была дополнительно усилена в направлениях зрения и агентов:

  1. Нативное мультимодальное моделирование: совместное обучение текста и изображений, поддержка смешанного ввода текста и изображений

  2. Расширение контекста: тренировочный контекст расширен до 128K токенов, за один проход можно обработать около 150 страниц плотных документов, 200 страниц слайдов или 1 час видео

  3. Нативный вызов мультимодальных инструментов: инструменты могут напрямую принимать и возвращать изображения, а на основе расширенного протокола MCP мультимодальные артефакты обрабатываются по URL

  4. Усиление с помощью обучения с подкреплением: используется масштабируемый RL-процесс серии GLM-V


⚙️ Нативная мультимодальность, ориентированная на реальные сценарии

Мультимодальные возможности GLM-4.6V охватывают повседневные и профессиональные сценарии:

  • Понимание насыщенного текстового контента: длинные документы, многостраничный текст и смешанная верстка текста с изображениями

  • Визуальный веб-поиск: сетевой поиск и понимание с использованием визуального ввода

  • Воссоздание фронтенда: генерация фронтенд-кода по макету или скриншоту UI

  • Анализ длинного мультимодального контекста документов: ввод целого PDF / презентации / видео

  • Разбор диаграмм и таблиц: извлечение структурированной информации


💡 Нативный вызов мультимодальных инструментов и возможности агента

Одно из ключевых обновлений GLM-4.6V — это «визуальное восприятие → выполнимое действие» замкнутый цикл: вызов инструментов нативно поддерживает изображения как вход и выход, позволяя мультимодальным агентам внедряться в реальные бизнес-сценарии.

Сценарий
Рекомендуемый способ использования
Пример

Простой вопрос-ответ по тексту и изображениям

Прямой диалог

«Что изображено на этой картинке?»

Задачи средней сложности

Включить вызов инструментов

прочитать диаграмму и затем получить данные через поиск

Сложный мультимодальный агент

несколько инструментов + MCP

скриншот → понимание → вызов API → генерация отчёта


🌟 Эффективный MoE, открыт и доступен

  • ⚡ Разреженная активация MoE: 106B общих параметров, активируется лишь около 12B

  • 💰 Через CherryIN в Cherry Studioбесплатное использование

  • 🖥️ веса, код инференса и инструменты MCP уже открыты на GitHub и Hugging Face, лицензия MIT


🧠 Фокус на практических возможностях: мультимодальный помощник

GLM-4.6V на практике подходит для следующих сценариев:

  • Помощник по документам: чтение и краткое изложение длинных документов, сканов и презентаций

  • Анализ данных: распознавание и интерпретация диаграмм, скриншотов панелей мониторинга

  • Фронтенд и дизайн: генерация или изменение фронтенд-кода по скриншоту UI

  • Визуальный поиск: сетевой поиск и объединение информации с использованием изображений

  • Мультимодальный агент: выполнение сложных задач с помощью браузера, исполнения кода, поиска и других инструментов


🧭 Как использовать в Cherry Studio?

  1. Откройте Cherry Studio и перейдите в Настройки → Сервисы моделей.

  2. Найдите CherryIN поставщика услуг и включите его.

  3. В списке моделей выберите Zhipu GLM-4.6V.

  4. Вернитесь в окно чата и в верхней части, в выборе модели, переключитесь на GLM-4.6V, после чего вы сможете напрямую загружать изображения и взаимодействовать в формате текст + изображение.

💡 Совет: бесплатные квоты на модели, предоставляемые CherryIN, покрываются официально Cherry Studio и подходят для повседневного знакомства и оценки; для production-среды рекомендуется использовать официальный API Z.ai (Zhipu).


📘 Попробуйте Zhipu GLM-4.6V прямо сейчас и откройте для себя нативную мультимодальность и возможности визуального агента!

Последнее обновление

Это было полезно?