智谱 GLM-4.6V
Пользователи Cherry Studio теперь могут через встроенный CherryIN сервис бесплатно опробовать Zhipu GLM-4.6V— флагманская визуальная модель, выпущенная Z.ai (Zhipu AI) в декабре 2025 года; архитектура MoE, 128K нативного мультимодального контекста, нативный вызов мультимодальных инструментов — лучший выбор для понимания изображений и текста, а также сценариев мультимодальных агентов.
🚀 Что такое GLM-4.6V?
GLM-4.6V — это новейшее поколение визуально-языковой модели серии Z.ai GLM-V, нативно поддерживающее единое моделирование текста + изображений и на основе GLM-4.5V дополнительно расширяющее контекст и возможности вызова инструментов.
Архитектура: Mixture-of-Experts (MoE)
Общее число параметров: 106B
Активируемые параметры: около 12B
Длина контекста: 128K токенов
Открытая лицензия: MIT
Дата выпуска: 8–9 декабря 2025 года
Визуальный кодировщик: поддержка изображений с несколькими разрешениями (до 4K)
В серии также есть GLM-4.6V-Flash (9B), ориентированная на локальные и низколатентные сценарии, бесплатна для коммерческого использования.

📚 Продолжение мультимодальной тренировочной системы серии GLM-V
GLM-4.6V унаследовала технологический путь GLM-4.1V-Thinking / GLM-4.5V и была дополнительно усилена в направлениях зрения и агентов:
Нативное мультимодальное моделирование: совместное обучение текста и изображений, поддержка смешанного ввода текста и изображений
Расширение контекста: тренировочный контекст расширен до 128K токенов, за один проход можно обработать около 150 страниц плотных документов, 200 страниц слайдов или 1 час видео
Нативный вызов мультимодальных инструментов: инструменты могут напрямую принимать и возвращать изображения, а на основе расширенного протокола MCP мультимодальные артефакты обрабатываются по URL
Усиление с помощью обучения с подкреплением: используется масштабируемый RL-процесс серии GLM-V

⚙️ Нативная мультимодальность, ориентированная на реальные сценарии
Мультимодальные возможности GLM-4.6V охватывают повседневные и профессиональные сценарии:
✅ Понимание насыщенного текстового контента: длинные документы, многостраничный текст и смешанная верстка текста с изображениями
✅ Визуальный веб-поиск: сетевой поиск и понимание с использованием визуального ввода
✅ Воссоздание фронтенда: генерация фронтенд-кода по макету или скриншоту UI
✅ Анализ длинного мультимодального контекста документов: ввод целого PDF / презентации / видео
✅ Разбор диаграмм и таблиц: извлечение структурированной информации
💡 Нативный вызов мультимодальных инструментов и возможности агента
Одно из ключевых обновлений GLM-4.6V — это «визуальное восприятие → выполнимое действие» замкнутый цикл: вызов инструментов нативно поддерживает изображения как вход и выход, позволяя мультимодальным агентам внедряться в реальные бизнес-сценарии.
Простой вопрос-ответ по тексту и изображениям
Прямой диалог
«Что изображено на этой картинке?»
Задачи средней сложности
Включить вызов инструментов
прочитать диаграмму и затем получить данные через поиск
Сложный мультимодальный агент
несколько инструментов + MCP
скриншот → понимание → вызов API → генерация отчёта
🌟 Эффективный MoE, открыт и доступен
⚡ Разреженная активация MoE: 106B общих параметров, активируется лишь около 12B
💰 Через CherryIN в Cherry Studioбесплатное использование
🖥️ веса, код инференса и инструменты MCP уже открыты на GitHub и Hugging Face, лицензия MIT
🧠 Фокус на практических возможностях: мультимодальный помощник
GLM-4.6V на практике подходит для следующих сценариев:
Помощник по документам: чтение и краткое изложение длинных документов, сканов и презентаций
Анализ данных: распознавание и интерпретация диаграмм, скриншотов панелей мониторинга
Фронтенд и дизайн: генерация или изменение фронтенд-кода по скриншоту UI
Визуальный поиск: сетевой поиск и объединение информации с использованием изображений
Мультимодальный агент: выполнение сложных задач с помощью браузера, исполнения кода, поиска и других инструментов
🧭 Как использовать в Cherry Studio?
Откройте Cherry Studio и перейдите в Настройки → Сервисы моделей.
Найдите CherryIN поставщика услуг и включите его.
В списке моделей выберите Zhipu GLM-4.6V.
Вернитесь в окно чата и в верхней части, в выборе модели, переключитесь на GLM-4.6V, после чего вы сможете напрямую загружать изображения и взаимодействовать в формате текст + изображение.
💡 Совет: бесплатные квоты на модели, предоставляемые CherryIN, покрываются официально Cherry Studio и подходят для повседневного знакомства и оценки; для production-среды рекомендуется использовать официальный API Z.ai (Zhipu).
📘 Попробуйте Zhipu GLM-4.6V прямо сейчас и откройте для себя нативную мультимодальность и возможности визуального агента!
Последнее обновление
Это было полезно?