# Данные модели

{% hint style="info" %}

* Следующая информация приведена только для справки; при обнаружении ошибок можно связаться для исправления. У некоторых моделей провайдеры отличаются, поэтому размер контекста и сведения о моделях также могут различаться.
* При вводе данных в клиенте нужно преобразовывать «k» в фактическое значение (теоретически 1k = 1024 tokens; 1m = 1024k tokens), например 8k = 8×1024 = 8192 tokens. На практике рекомендуется умножать на 1000, чтобы избежать ошибок: например, 8k = 8×1000 = 8000, 1m = 1×1000000 = 1000000;
* Если максимальный вывод указан как «-», это означает, что официально не удалось найти явную информацию о максимальном выводе для данной модели.
  {% endhint %}

<table><thead><tr><th width="313">Название модели</th><th width="158">Максимальный ввод</th><th width="72">Максимальный вывод</th><th width="95">Вызов функций</th><th width="142">Возможности модели</th><th width="540">Провайдер</th><th width="257">Описание</th></tr></thead><tbody><tr><td>360gpt-pro</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>360AI_360gpt</td><td>Флагманская модель на сотни миллиардов параметров из серии 360智脑 с лучшим качеством, широко подходит для сложных задач в различных областях.</td></tr><tr><td>360gpt-turbo</td><td>7k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>360AI_360gpt</td><td>Модель на десятки миллиардов параметров, сочетающая производительность и качество, подходит для сценариев с высокими требованиями к производительности и стоимости.</td></tr><tr><td>360gpt-turbo-responsibility-8k</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>360AI_360gpt</td><td>Модель на десятки миллиардов параметров, сочетающая производительность и качество, подходит для сценариев с высокими требованиями к производительности и стоимости.</td></tr><tr><td>360gpt2-pro</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>360AI_360gpt</td><td>Флагманская модель на сотни миллиардов параметров из серии 360智脑 с лучшим качеством, широко подходит для сложных задач в различных областях.</td></tr><tr><td>claude-3-5-sonnet-20240620</td><td>200k</td><td>16k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Anthropic_claude</td><td>Снимок, выпущенный 20 июня 2024 года. Claude 3.5 Sonnet — это модель, которая сочетает производительность и скорость, обеспечивая высочайший уровень при высокой скорости; поддерживает мультимодальный ввод.</td></tr><tr><td>claude-3-5-haiku-20241022</td><td>200k</td><td>16k</td><td>Не поддерживается</td><td>Диалог</td><td>Anthropic_claude</td><td>Снимок, выпущенный 22 октября 2024 года. Claude 3.5 Haiku улучшен во всех навыках, включая кодирование, использование инструментов и рассуждение. Как самая быстрая модель в серии Anthropic, она обеспечивает быстрое время отклика и подходит для приложений с высокой интерактивностью и низкой задержкой, таких как пользовательские чат-боты и мгновенное автодополнение кода. Она также отлично справляется со специализированными задачами, такими как извлечение данных и модерация контента в реальном времени, что делает её многофункциональным инструментом для широкого применения в различных отраслях. Не поддерживает ввод изображений.</td></tr><tr><td>claude-3-5-sonnet-20241022</td><td>200k</td><td>8K</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Anthropic_claude</td><td>Снимок, выпущенный 22 октября 2024 года. Claude 3.5 Sonnet предоставляет возможности, превосходящие Opus, и скорость выше, чем у Sonnet, при сохранении той же цены, что и у Sonnet. Sonnet особенно силён в программировании, науке о данных, обработке изображений и агентных задачах.</td></tr><tr><td>claude-3-5-sonnet-latest</td><td>200K</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Anthropic_claude</td><td>Динамически указывает на последнюю версию Claude 3.5 Sonnet. Claude 3.5 Sonnet предоставляет возможности, превосходящие Opus, и скорость выше, чем у Sonnet, при сохранении той же цены, что и у Sonnet. Sonnet особенно силён в программировании, науке о данных, обработке изображений и агентных задачах; эта модель указывает на последнюю версию.</td></tr><tr><td>claude-3-haiku-20240307</td><td>200k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Anthropic_claude</td><td>Claude 3 Haiku — самая быстрая и компактная модель Anthropic, созданная для почти мгновенных ответов. Обладает быстрой и точной направленной производительностью.</td></tr><tr><td>claude-3-opus-20240229</td><td>200k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Anthropic_claude</td><td>Claude 3 Opus — самая мощная модель Anthropic для очень сложных задач. Она превосходна по производительности, интеллекту, плавности и пониманию.</td></tr><tr><td>claude-3-sonnet-20240229</td><td>200k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Anthropic_claude</td><td>Снимок, выпущенный 29 февраля 2024 года. Sonnet особенно силён в:<br><br>- Кодировании: может самостоятельно писать, редактировать и запускать код, а также обладает навыками рассуждения и устранения неполадок<br>- Науке о данных: расширяет возможности человека в области data science; при использовании нескольких инструментов для получения инсайтов может обрабатывать неструктурированные данные<br>- Обработке изображений: отлично интерпретирует таблицы, графики и изображения, точно транскрибирует текст для получения инсайтов, выходящих за рамки самого текста<br>- Агентных задачах: отлично использует инструменты и особенно подходит для агентных задач (то есть сложных многошаговых задач решения проблем, требующих взаимодействия с другими системами)</td></tr><tr><td>google/gemma-2-27b-it</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gamma</td><td>Gemma — это лёгкая, передовая серия открытых моделей, разработанная Google и построенная на тех же исследованиях и технологиях, что и модели Gemini. Эти модели — это большие языковые модели только-декодерного типа, поддерживающие английский язык, с открытыми весами в вариантах предварительного обучения и тонкой настройки по инструкциям. Модели Gemma подходят для различных задач генерации текста, включая вопросы и ответы, суммаризацию и рассуждение.</td></tr><tr><td>google/gemma-2-9b-it</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gamma</td><td>Gemma — одна из лёгких, передовых открытых моделей, разработанных Google. Это большая языковая модель только-декодерного типа, поддерживающая английский язык, с открытыми весами, доступная в вариантах предварительного обучения и тонкой настройки по инструкциям. Модели Gemma подходят для различных задач генерации текста, включая вопросы и ответы, суммаризацию и рассуждение. Эта модель 9B обучена на 8 триллионах токенов.</td></tr><tr><td>gemini-1.5-pro</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gemini</td><td>Последняя стабильная версия Gemini 1.5 Pro. Как мощная мультимодальная модель, она может обрабатывать до 60 тысяч строк кода или 2000 страниц текста. Особенно подходит для задач, требующих сложного рассуждения.</td></tr><tr><td>gemini-1.0-pro-001</td><td>33k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gemini</td><td>Это стабильная версия Gemini 1.0 Pro. Как NLP-модель, она специально предназначена для многократных текстовых и кодовых диалогов, а также генерации кода. Модель будет снята с поддержки 15 февраля 2025 года; рекомендуется миграция на модели серии 1.5.</td></tr><tr><td>gemini-1.0-pro-002</td><td>32k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gemini</td><td>Это стабильная версия Gemini 1.0 Pro. Как NLP-модель, она специально предназначена для многократных текстовых и кодовых диалогов, а также генерации кода. Модель будет снята с поддержки 15 февраля 2025 года; рекомендуется миграция на модели серии 1.5.</td></tr><tr><td>gemini-1.0-pro-latest</td><td>33k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, устаревшая или скоро устареет</td><td>Google_gemini</td><td>Это последняя версия Gemini 1.0 Pro. Как NLP-модель, она специально предназначена для многократных текстовых и кодовых диалогов, а также генерации кода. Модель будет снята с поддержки 15 февраля 2025 года; рекомендуется миграция на модели серии 1.5.</td></tr><tr><td>gemini-1.0-pro-vision-001</td><td>16k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gemini</td><td>Это версия Gemini 1.0 Pro с поддержкой зрения. Модель будет снята с поддержки 15 февраля 2025 года; рекомендуется миграция на модели серии 1.5.</td></tr><tr><td>gemini-1.0-pro-vision-latest</td><td>16k</td><td>2k</td><td>Не поддерживается</td><td>Распознавание изображений</td><td>Google_gemini</td><td>Это последняя версия Gemini 1.0 Pro с поддержкой зрения. Модель будет снята с поддержки 15 февраля 2025 года; рекомендуется миграция на модели серии 1.5.</td></tr><tr><td>gemini-1.5-flash</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это последняя стабильная версия Gemini 1.5 Flash. Как сбалансированная мультимодальная модель, она может обрабатывать аудио, изображения, видео и текстовый ввод.</td></tr><tr><td>gemini-1.5-flash-001</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это стабильная версия Gemini 1.5 Flash. Она предоставляет те же базовые возможности, что и gemini-1.5-flash, но с фиксированной версией, подходит для использования в production-среде.</td></tr><tr><td>gemini-1.5-flash-002</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это стабильная версия Gemini 1.5 Flash. Она предоставляет те же базовые возможности, что и gemini-1.5-flash, но с фиксированной версией, подходит для использования в production-среде.</td></tr><tr><td>gemini-1.5-flash-8b</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Gemini 1.5 Flash-8B — это новейшая мультимодальная модель искусственного интеллекта Google, специально разработанная для эффективной обработки крупномасштабных задач. Модель имеет 8 миллиардов параметров и поддерживает ввод текста, изображений, аудио и видео, что делает её подходящей для различных сценариев, таких как чат, транскрибация и перевод. По сравнению с другими моделями Gemini, Flash-8B оптимизирована по скорости и стоимости, особенно подходит пользователям, чувствительным к затратам. Лимит скорости был увеличен вдвое, что позволяет разработчикам эффективнее обрабатывать крупномасштабные задачи. Кроме того, Flash-8B использует технологию «дистилляции знаний», извлекая ключевые знания из более крупной модели, обеспечивая лёгкость и эффективность при сохранении основных возможностей</td></tr><tr><td>gemini-1.5-flash-exp-0827</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это экспериментальная версия Gemini 1.5 Flash, которая периодически обновляется с учётом последних улучшений. Подходит для исследовательского тестирования и прототипирования, не рекомендуется для production-среды.</td></tr><tr><td>gemini-1.5-flash-latest</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это передовая версия Gemini 1.5 Flash, которая периодически обновляется с учётом последних улучшений. Подходит для исследовательского тестирования и прототипирования, не рекомендуется для production-среды.</td></tr><tr><td>gemini-1.5-pro-001</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это стабильная версия Gemini 1.5 Pro, обеспечивающая фиксированное поведение модели и характеристики производительности. Подходит для использования в production-среде, где важна стабильность.</td></tr><tr><td>gemini-1.5-pro-002</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это стабильная версия Gemini 1.5 Pro, обеспечивающая фиксированное поведение модели и характеристики производительности. Подходит для использования в production-среде, где важна стабильность.</td></tr><tr><td>gemini-1.5-pro-exp-0801</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Экспериментальная версия Gemini 1.5 Pro. Как мощная мультимодальная модель, она может обрабатывать до 60 тысяч строк кода или 2000 страниц текста. Особенно подходит для задач, требующих сложного рассуждения.</td></tr><tr><td>gemini-1.5-pro-exp-0827</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Экспериментальная версия Gemini 1.5 Pro. Как мощная мультимодальная модель, она может обрабатывать до 60 тысяч строк кода или 2000 страниц текста. Особенно подходит для задач, требующих сложного рассуждения.</td></tr><tr><td>gemini-1.5-pro-latest</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это последняя версия Gemini 1.5 Pro, динамически указывающая на самый свежий снимок версии</td></tr><tr><td>gemini-2.0-flash</td><td>1m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Gemini 2.0 Flash — новейшая модель Google; по сравнению с версией 1.5 она имеет более высокую скорость первого токена (TTFT) при сохранении качества, сопоставимого с Gemini Pro 1.5. Модель значительно улучшена в мультимодальном понимании, кодировании, выполнении сложных инструкций и вызове функций, что обеспечивает более плавный и мощный интеллектуальный опыт.</td></tr><tr><td>gemini-2.0-flash-exp</td><td>100k</td><td>8k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Gemini 2.0 Flash вводит мультимодальный API в реальном времени, улучшает скорость и производительность, повышает качество, усиливает агентные возможности, а также добавляет генерацию изображений и преобразование речи.</td></tr><tr><td>gemini-2.0-flash-lite-preview-02-05</td><td>1M</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Gemini 2.0 Flash-Lite — это новейшая экономичная AI-модель Google, которая обеспечивает лучшее качество при той же скорости, что и 1.5 Flash; поддерживает контекстное окно в 1 миллион токенов и может обрабатывать мультимодальные задачи, такие как изображения, аудио и код; как самая экономичная модель Google на данный момент, использует упрощённую единую схему ценообразования и особенно подходит для крупномасштабных сценариев применения, где важно контролировать затраты.</td></tr><tr><td>gemini-2.0-flash-thinking-exp</td><td>40k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>Google_gemini</td><td>gemini-2.0-flash-thinking-exp — это экспериментальная модель, которая может генерировать «процесс мышления», происходящий при формировании ответа. Поэтому по сравнению с базовой моделью Gemini 2.0 Flash ответы в «режиме мышления» обладают более сильными возможностями рассуждения.</td></tr><tr><td>gemini-2.0-flash-thinking-exp-01-21</td><td>1m</td><td>64k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>Google_gemini</td><td>Gemini 2.0 Flash Thinking EXP-01-21 — это новейшая модель искусственного интеллекта Google, ориентированная на повышение способности к рассуждению и пользовательского опыта взаимодействия. Модель обладает мощными возможностями рассуждения, особенно выделяясь в математике и программировании, и поддерживает контекстное окно до 1 миллиона токенов, что делает её подходящей для сложных задач и сценариев глубокого анализа. Её уникальность заключается в способности генерировать ход мыслей, повышая понятность процесса мышления ИИ, при этом поддерживается нативное выполнение кода, что увеличивает гибкость и практичность взаимодействия. Благодаря оптимизированным алгоритмам модель уменьшает логические противоречия, ещё больше повышая точность и согласованность ответов.</td></tr><tr><td>gemini-2.0-flash-thinking-exp-1219</td><td>40k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, рассуждение, распознавание изображений</td><td>Google_gemini</td><td>gemini-2.0-flash-thinking-exp-1219 — это экспериментальная модель, которая может генерировать «процесс мышления», происходящий при формировании ответа. Поэтому по сравнению с базовой моделью Gemini 2.0 Flash ответы в «режиме мышления» обладают более сильными возможностями рассуждения.</td></tr><tr><td>gemini-2.0-pro-exp-01-28</td><td>2m</td><td>64k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Предварительно загруженная модель, ещё не запущена</td></tr><tr><td>gemini-2.0-pro-exp-02-05</td><td>2m</td><td>8k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Gemini 2.0 Pro Exp 02-05 — новейшая экспериментальная модель Google, выпущенная в феврале 2024 года, выделяющаяся в мировых знаниях, генерации кода и понимании длинных текстов; модель поддерживает сверхдлинное контекстное окно в 2 миллиона токенов и может обрабатывать 2 часа видео, 22 часа аудио, более 60 тысяч строк кода и более 1,4 миллиона слов. Как часть серии Gemini 2.0, модель использует новую стратегию обучения Flash Thinking, что значительно улучшает её производительность; она занимает лидирующие позиции во многих рейтингах LLM и демонстрирует мощные комплексные возможности.</td></tr><tr><td>gemini-exp-1114</td><td>8k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это экспериментальная модель, выпущенная 14 ноября 2024 года, в основном ориентирована на улучшение качества.</td></tr><tr><td>gemini-exp-1121</td><td>8k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений, код</td><td>Google_gemini</td><td>Это экспериментальная модель, выпущенная 21 ноября 2024 года, с улучшенными возможностями кодирования, рассуждения и зрения.</td></tr><tr><td>gemini-exp-1206</td><td>8k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это экспериментальная модель, выпущенная 6 декабря 2024 года, с улучшенными возможностями кодирования, рассуждения и зрения.</td></tr><tr><td>gemini-exp-latest</td><td>8k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это экспериментальная модель, динамически указывающая на последнюю версию</td></tr><tr><td>gemini-pro</td><td>33k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>Google_gemini</td><td>То же, что gemini-1.0-pro, алиас gemini-1.0-pro</td></tr><tr><td>gemini-pro-vision</td><td>16k</td><td>2k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Google_gemini</td><td>Это версия Gemini 1.0 Pro с поддержкой зрения. Модель будет снята с поддержки 15 февраля 2025 года; рекомендуется миграция на модели серии 1.5.</td></tr><tr><td>grok-2</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Grok_grok</td><td>Новая версия модели grok, выпущенная X.ai 12.12.2024.</td></tr><tr><td>grok-2-1212</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Grok_grok</td><td>Новая версия модели grok, выпущенная X.ai 12.12.2024.</td></tr><tr><td>grok-2-latest</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Grok_grok</td><td>Новая версия модели grok, выпущенная X.ai 12.12.2024.</td></tr><tr><td>grok-2-vision-1212</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Grok_grok</td><td>Визуальная версия модели grok, выпущенная X.ai 12.12.2024.</td></tr><tr><td>grok-beta</td><td>100k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Grok_grok</td><td>По производительности сопоставима с Grok 2, но улучшены эффективность, скорость и функциональность.</td></tr><tr><td>grok-vision-beta</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Grok_grok</td><td>Новейшая модель понимания изображений может обрабатывать различные визуальные данные, включая документы, диаграммы, скриншоты и фотографии.</td></tr><tr><td>internlm/internlm2_5-20b-chat</td><td>32k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>internlm</td><td>InternLM2.5-20B-Chat — это открытая крупная диалоговая модель, разработанная на базе архитектуры InternLM2. Модель содержит 20 миллиардов параметров и отлично показывает себя в математическом рассуждении, превосходя Llama3 и Gemma2-27B сопоставимого размера. InternLM2.5-20B-Chat значительно улучшена в области вызова инструментов, поддерживает сбор информации со сотен веб-страниц для анализа и рассуждения, а также обладает более сильным пониманием инструкций, выбором инструментов и способностью к рефлексии по результатам.</td></tr><tr><td>meta-llama/Llama-3.2-11B-Vision-Instruct</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Meta_llama</td><td>На данный момент модели серии Llama умеют обрабатывать не только текстовые данные, но и изображения; некоторые модели Llama3.2 получили функцию визуального понимания. Эта модель поддерживает одновременный ввод текста и изображений, понимает изображения и выводит текстовую информацию.</td></tr><tr><td>meta-llama/Llama-3.2-3B-Instruct</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Meta_llama</td><td>Meta Llama 3.2 — мультиязычная большая языковая модель (LLM), где версии 1B и 3B — это лёгкие модели, которые можно запускать на периферийных и мобильных устройствах; данная модель — версия 3B.</td></tr><tr><td>meta-llama/Llama-3.2-90B-Vision-Instruct</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>Meta_llama</td><td>На данный момент модели серии Llama умеют обрабатывать не только текстовые данные, но и изображения; некоторые модели Llama3.2 получили функцию визуального понимания. Эта модель поддерживает одновременный ввод текста и изображений, понимает изображения и выводит текстовую информацию.</td></tr><tr><td>meta-llama/Llama-3.3-70B-Instruct</td><td>131k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Meta_llama</td><td>Новейшая LLM от Meta на 70B параметров, по производительности сопоставима с llama 3.1 405B.</td></tr><tr><td>meta-llama/Meta-Llama-3.1-405B-Instruct</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Meta_llama</td><td>Коллекция многоязычных больших языковых моделей Meta Llama 3.1 включает предобученные и instruction-tuned генеративные модели размером 8B, 70B и 405B; данная модель — версия 405B. Текстовые модели с instruction fine-tuning Llama 3.1 (8B, 70B, 405B) оптимизированы для многоязычных диалогов и превосходят многие доступные открытые и закрытые чат-модели по распространённым отраслевым бенчмаркам.</td></tr><tr><td>meta-llama/Meta-Llama-3.1-70B-Instruct</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Meta_llama</td><td>Meta Llama 3.1 — семейство многоязычных больших языковых моделей, разработанное Meta, включающее предобученные и instruction-tuned варианты с размером 8B, 70B и 405B параметров. Эта модель 70B, дообученная по инструкциям, оптимизирована для многоязычных диалоговых сценариев и показывает отличные результаты по ряду отраслевых бенчмарков. Обучение модели использовало более 15 триллионов токенов открытых данных и применяло такие технологии, как supervised fine-tuning и reinforcement learning from human feedback для повышения полезности и безопасности.</td></tr><tr><td>meta-llama/Meta-Llama-3.1-8B-Instruct</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>Meta_llama</td><td>Коллекция многоязычных больших языковых моделей Meta Llama 3.1 включает предобученные и instruction-tuned генеративные модели размером 8B, 70B и 405B; данная модель — версия 8B. Текстовые модели с instruction fine-tuning Llama 3.1 (8B, 70B, 405B) оптимизированы для многоязычных диалогов и превосходят многие доступные открытые и закрытые чат-модели по распространённым отраслевым бенчмаркам.</td></tr><tr><td>abab5.5-chat</td><td>16k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Minimax_abab</td><td>Сценарий диалога с китайским персонажем</td></tr><tr><td>abab5.5s-chat</td><td>8k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Minimax_abab</td><td>Сценарий диалога с китайским персонажем</td></tr><tr><td>abab6.5g-chat</td><td>8k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Minimax_abab</td><td>Сценарий диалога с персонажем на английском и других языках</td></tr><tr><td>abab6.5s-chat</td><td>245k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Minimax_abab</td><td>Универсальные сценарии</td></tr><tr><td>abab6.5t-chat</td><td>8k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Minimax_abab</td><td>Сценарий диалога с китайским персонажем</td></tr><tr><td>chatgpt-4o-latest</td><td>128k</td><td>16k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI</td><td>Версия chatgpt-4o-latest постоянно указывает на версию GPT-4o, используемую в ChatGPT, и обновляется как можно быстрее при существенных изменениях.</td></tr><tr><td>gpt-4o-2024-11-20</td><td>128k</td><td>16k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI</td><td>Последний снимок gpt-4o от 20 ноября 2024 года.</td></tr><tr><td>gpt-4o-audio-preview</td><td>128k</td><td>16k</td><td>Не поддерживается</td><td>Диалог</td><td>OpenAI</td><td>Модель OpenAI для голосового диалога в реальном времени</td></tr><tr><td>gpt-4o-audio-preview-2024-10-01</td><td>128k</td><td>16k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI</td><td>Модель OpenAI для голосового диалога в реальном времени</td></tr><tr><td>o1</td><td>128k</td><td>32k</td><td>Не поддерживается</td><td>Диалог, рассуждение, распознавание изображений</td><td>OpenAI</td><td>Новая модель рассуждения OpenAI для сложных задач, требующих широких общих знаний. Модель имеет контекст 200k, является самой мощной моделью в мире на данный момент и поддерживает распознавание изображений</td></tr><tr><td>o1-mini-2024-09-12</td><td>128k</td><td>64k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>OpenAI</td><td>Фиксированный снимок версии o1-mini; меньше, быстрее и на 80% дешевле, чем o1-preview, хорошо показывает себя в генерации кода и операциях с малым контекстом.</td></tr><tr><td>o1-preview-2024-09-12</td><td>128k</td><td>32k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>OpenAI</td><td>Фиксированный снимок версии o1-preview</td></tr><tr><td>gpt-3.5-turbo</td><td>16k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-3</td><td>На базе GPT-3.5: GPT-3.5 Turbo — это улучшенная версия, построенная на основе модели GPT-3.5, разработанной OpenAI.<br>Цели по производительности: модель разработана для повышения скорости вывода, эффективности обработки и использования ресурсов за счёт оптимизации архитектуры и алгоритмов.<br>Улучшенная скорость вывода: по сравнению с GPT-3.5, GPT-3.5 Turbo обычно обеспечивает более высокую скорость вывода при том же оборудовании, что особенно полезно для приложений с большим объёмом обработки текста.<br>Более высокая пропускная способность: при обработке большого числа запросов или данных GPT-3.5 Turbo может обеспечивать более высокую параллельную обработку, повышая общую пропускную способность системы.<br>Оптимизированное потребление ресурсов: при сохранении производительности может снижаться потребность в ресурсах оборудования, таких как память и вычислительные ресурсы, что помогает уменьшить стоимость эксплуатации и повысить масштабируемость.<br>Широкий спектр задач обработки естественного языка: GPT-3.5 Turbo подходит для различных задач NLP, включая, но не ограничиваясь, генерацией текста, семантическим пониманием, диалоговыми системами, машинным переводом и т. д.<br>Инструменты для разработчиков и поддержка API: предоставляет удобные для интеграции и использования API-интерфейсы, поддерживающие быструю разработку и развертывание приложений.</td></tr><tr><td>gpt-3.5-turbo-0125</td><td>16k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-3</td><td>Обновлённый GPT 3.5 Turbo, с более высокой точностью при ответе в требуемом формате и исправленной ошибкой, вызывавшей проблему кодирования текста для вызовов функций на неанглийских языках. Возвращает до 4096 выходных токенов.</td></tr><tr><td>gpt-3.5-turbo-0613</td><td>16k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-3</td><td>Обновлённая фиксированная версия GPT 3.5 Turbo. Сейчас устарела</td></tr><tr><td>gpt-3.5-turbo-1106</td><td>16k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-3</td><td>С улучшенным следованием инструкциям, режимом JSON, воспроизводимым выводом, параллельным вызовом функций и т. д. Возвращает до 4096 выходных токенов.</td></tr><tr><td>gpt-3.5-turbo-16k</td><td>16k</td><td>4k</td><td>Поддерживается</td><td>Диалог, устаревшая или скоро устареет</td><td>OpenAI_gpt-3</td><td>(устарела)</td></tr><tr><td>gpt-3.5-turbo-16k-0613</td><td>16k</td><td>4k</td><td>Поддерживается</td><td>Диалог, устаревшая или скоро устареет</td><td>OpenAI_gpt-3</td><td>Снимок gpt-3.5-turbo от 13 июня 2023 года. (устарела)</td></tr><tr><td>gpt-3.5-turbo-instruct</td><td>4k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-3</td><td>Возможности, аналогичные моделям эпохи GPT-3. Совместима с устаревшей конечной точкой Completions и не подходит для Chat Completions.</td></tr><tr><td>gpt-3.5o</td><td>16k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>OpenAI_gpt-3</td><td>То же, что gpt-4o-lite</td></tr><tr><td>gpt-4</td><td>8k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>Сейчас указывает на gpt-4-0613.</td></tr><tr><td>gpt-4-0125-preview</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>Новейшая модель GPT-4, созданная для уменьшения «ленивости», когда модель не завершает задачу. Возвращает до 4096 выходных токенов.</td></tr><tr><td>gpt-4-0314</td><td>8k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>Снимок gpt-4 от 14 марта 2023 года</td></tr><tr><td>gpt-4-0613</td><td>8k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>Снимок gpt-4 от 13 июня 2023 года с улучшенной поддержкой вызова функций.</td></tr><tr><td>gpt-4-1106-preview</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>Модель GPT-4 Turbo с улучшенным следованием инструкциям, режимом JSON, воспроизводимым выводом, вызовом функций и т. д. Возвращает до 4096 выходных токенов. Это предварительная модель.</td></tr><tr><td>gpt-4-32k</td><td>32k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>gpt-4-32k будет снята с поддержки 2025-06-06.</td></tr><tr><td>gpt-4-32k-0613</td><td>32k</td><td>4k</td><td>Поддерживается</td><td>Диалог, устаревшая или скоро устареет</td><td>OpenAI_gpt-4</td><td>Будет снята с поддержки 2025-06-06.</td></tr><tr><td>gpt-4-turbo</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>В последней версии GPT-4 Turbo добавлены возможности зрения, поддержка обработки визуальных запросов через режим JSON и вызов функций. Текущая версия модели — gpt-4-turbo-2024-04-09.</td></tr><tr><td>gpt-4-turbo-2024-04-09</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>OpenAI_gpt-4</td><td>Модель GPT-4 Turbo с поддержкой зрения. Теперь визуальные запросы могут обрабатываться через режим JSON и вызов функций. Текущая версия gpt-4-turbo — именно эта версия.</td></tr><tr><td>gpt-4-turbo-preview</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI_gpt-4</td><td>Сейчас указывает на gpt-4-0125-preview.</td></tr><tr><td>gpt-4o</td><td>128k</td><td>16k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI_gpt-4</td><td>Флагманская модель OpenAI с высоким уровнем интеллекта, подходит для сложных многошаговых задач. GPT-4o дешевле и быстрее, чем GPT-4 Turbo.</td></tr><tr><td>gpt-4o-2024-05-13</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI_gpt-4</td><td>Исходный снимок gpt-4o от 13 мая 2024 года.</td></tr><tr><td>gpt-4o-2024-08-06</td><td>128k</td><td>16k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI_gpt-4</td><td>Первый снимок с поддержкой структурированного вывода. gpt-4o сейчас указывает на эту версию.</td></tr><tr><td>gpt-4o-mini</td><td>128k</td><td>16k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI_gpt-4</td><td>Доступная версия gpt-4o от OpenAI, предназначенная для быстрых и лёгких задач. GPT-4o mini дешевле, чем GPT-3.5 Turbo, и более функционален. Сейчас указывает на gpt-4o-mini-2024-07-18.</td></tr><tr><td>gpt-4o-mini-2024-07-18</td><td>128k</td><td>16k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>OpenAI_gpt-4</td><td>Фиксированная версия-снимок gpt-4o-mini.</td></tr><tr><td>gpt-4o-realtime-preview</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог, голос в реальном времени</td><td>OpenAI_gpt-4</td><td>Модель OpenAI для голосового диалога в реальном времени</td></tr><tr><td>gpt-4o-realtime-preview-2024-10-01</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог, голос в реальном времени, распознавание изображений</td><td>OpenAI_gpt-4</td><td>gpt-4o-realtime-preview сейчас указывает на этот снимок версии</td></tr><tr><td>o1-mini</td><td>128k</td><td>64k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>OpenAI_o1</td><td>Меньше, быстрее и на 80% дешевле, чем o1-preview, хорошо показывает себя в генерации кода и операциях с малым контекстом.</td></tr><tr><td>o1-preview</td><td>128k</td><td>32k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>OpenAI_o1</td><td>o1-preview — это новая модель рассуждения для сложных задач, требующих широких общих знаний. Модель имеет контекст 128K и отсечку знаний на октябрь 2023 года. Ориентирована на продвинутое рассуждение и решение сложных проблем, включая задачи по математике и науке. Отлично подходит для приложений, где требуется глубокое понимание контекста и автономные рабочие процессы.</td></tr><tr><td>o3-mini</td><td>200k</td><td>100k</td><td>Поддерживается</td><td>Диалог, рассуждение</td><td>OpenAI_o1</td><td>o3-mini — новейшая маленькая модель рассуждения OpenAI, обеспечивающая высокий интеллект при той же стоимости и задержке, что и o1-mini; ориентирована на задачи науки, математики и кодирования, поддерживает структурированный вывод, вызов функций, Batch API и другие функции для разработчиков; база знаний ограничена октябрём 2023 года, демонстрируя заметный баланс между способностью к рассуждению и экономичностью.</td></tr><tr><td>o3-mini-2025-01-31</td><td>200k</td><td>100k</td><td>Поддерживается</td><td>Диалог, рассуждение</td><td>OpenAI_o1</td><td>o3-mini сейчас указывает на эту версию. o3-mini-2025-01-31 — новейшая маленькая модель рассуждения OpenAI, обеспечивающая высокий интеллект при той же стоимости и задержке, что и o1-mini; ориентирована на задачи науки, математики и кодирования, поддерживает структурированный вывод, вызов функций, Batch API и другие функции для разработчиков; база знаний ограничена октябрём 2023 года, демонстрируя заметный баланс между способностью к рассуждению и экономичностью.</td></tr><tr><td>Baichuan2-Turbo</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>百川_baichuan</td><td>По сравнению с моделями аналогичного размера в отрасли, качество модели сохраняет лидирующий уровень, при этом цена значительно снижена</td></tr><tr><td>Baichuan3-Turbo</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>百川_baichuan</td><td>По сравнению с моделями аналогичного размера в отрасли, качество модели сохраняет лидирующий уровень, при этом цена значительно снижена</td></tr><tr><td>Baichuan3-Turbo-128k</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>百川_baichuan</td><td>Модель Baichuan обрабатывает сложные тексты с помощью сверхдлинного контекстного окна 128k, специально оптимизирована для таких отраслей, как финансы, и при этом значительно снижает стоимость, предоставляя предприятиям высокоэффективное решение по соотношению цена/качество.</td></tr><tr><td>Baichuan4</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>百川_baichuan</td><td>MoE-модель Baichuan предоставляет высокоэффективное и экономичное решение для корпоративных приложений за счёт специальной оптимизации, снижения стоимости и повышения производительности.</td></tr><tr><td>Baichuan4-Air</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>百川_baichuan</td><td>MoE-модель Baichuan предоставляет высокоэффективное и экономичное решение для корпоративных приложений за счёт специальной оптимизации, снижения стоимости и повышения производительности.</td></tr><tr><td>Baichuan4-Turbo</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>百川_baichuan</td><td>Обучена на огромном количестве качественных сценарных данных; по сравнению с Baichuan4 полезность в часто используемых корпоративных сценариях повышена более чем на 10%, качество краткого изложения — на 50%, многоязычие — на 31%, генерация контента — на 13%<br>Специально оптимизирована для производительности рассуждения: скорость ответа первого токена по сравнению с Baichuan4 повышена на 51%, скорость потока токенов — на 73%</td></tr><tr><td>ERNIE-3.5-128K</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Флагманская крупная языковая модель собственной разработки Baidu, обученная на огромных китайских и английских корпусах; обладает мощными универсальными возможностями и удовлетворяет большинство требований сценариев диалога, вопросов и ответов, генерации контента и применения плагинов; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации в ответах.</td></tr><tr><td>ERNIE-3.5-8K</td><td>8k</td><td>1k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Флагманская крупная языковая модель собственной разработки Baidu, обученная на огромных китайских и английских корпусах; обладает мощными универсальными возможностями и удовлетворяет большинство требований сценариев диалога, вопросов и ответов, генерации контента и применения плагинов; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации в ответах.</td></tr><tr><td>ERNIE-3.5-8K-Preview</td><td>8k</td><td>1k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Флагманская крупная языковая модель собственной разработки Baidu, обученная на огромных китайских и английских корпусах; обладает мощными универсальными возможностями и удовлетворяет большинство требований сценариев диалога, вопросов и ответов, генерации контента и применения плагинов; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации в ответах.</td></tr><tr><td>ERNIE-4.0-8K</td><td>8k</td><td>1k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Флагманская сверхкрупная языковая модель собственной разработки Baidu, которая по сравнению с ERNIE 3.5 получила всестороннее обновление возможностей и широко подходит для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации в ответах.</td></tr><tr><td>ERNIE-4.0-8K-Latest</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE-4.0-8K-Latest по возможностям значительно превосходит ERNIE-4.0-8K, особенно сильно улучшены ролевое моделирование и следование инструкциям; по сравнению с ERNIE 3.5 модель получила всестороннее обновление возможностей и широко подходит для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации в ответах, поддерживает ввод 5K tokens + вывод 2K tokens. В этой статье описан метод вызова интерфейса ERNIE-4.0-8K-Latest.</td></tr><tr><td>ERNIE-4.0-8K-Preview</td><td>8k</td><td>1k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Флагманская сверхкрупная языковая модель собственной разработки Baidu, которая по сравнению с ERNIE 3.5 получила всестороннее обновление возможностей и широко подходит для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации в ответах.</td></tr><tr><td>ERNIE-4.0-Turbo-128K</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo — флагманская сверхкрупная языковая модель собственной разработки Baidu, демонстрирующая отличные общие результаты и широко подходящая для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации. По сравнению с ERNIE 4.0 она лучше по производительности. ERNIE-4.0-Turbo-128K — это одна из версий модели, которая лучше справляется с длинными документами, чем ERNIE-3.5-128K. В этой статье описаны соответствующие API и использование.</td></tr><tr><td>ERNIE-4.0-Turbo-8K</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo — флагманская сверхкрупная языковая модель собственной разработки Baidu, демонстрирующая отличные общие результаты и широко подходящая для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации. По сравнению с ERNIE 4.0 она лучше по производительности. ERNIE-4.0-Turbo-8K — это одна из версий модели. В этой статье описаны соответствующие API и использование.</td></tr><tr><td>ERNIE-4.0-Turbo-8K-Latest</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo — флагманская сверхкрупная языковая модель собственной разработки Baidu, демонстрирующая отличные общие результаты и широко подходящая для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации. По сравнению с ERNIE 4.0 она лучше по производительности. ERNIE-4.0-Turbo-8K — это одна из версий модели.</td></tr><tr><td>ERNIE-4.0-Turbo-8K-Preview</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE 4.0 Turbo — флагманская сверхкрупная языковая модель собственной разработки Baidu, демонстрирующая отличные общие результаты и широко подходящая для сложных задач в различных областях; поддерживает автоматическое подключение к плагину поиска Baidu, обеспечивая актуальность информации. ERNIE-4.0-Turbo-8K-Preview — это одна из версий модели</td></tr><tr><td>ERNIE-Character-8K</td><td>8k</td><td>1k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Вертикальная большая языковая модель собственной разработки Baidu, подходящая для игровых NPC, диалогов службы поддержки, ролевых диалогов и других сценариев; образ персонажа более выразителен и последователен, лучше следование инструкциям и выше производительность рассуждения</td></tr><tr><td>ERNIE-Lite-8K</td><td>8k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Лёгкая большая языковая модель собственной разработки Baidu, сочетающая отличное качество модели и производительность рассуждения, подходит для инференса на AI-ускорителях с низкой вычислительной мощностью.</td></tr><tr><td>ERNIE-Lite-Pro-128K</td><td>128k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Лёгкая большая языковая модель собственной разработки Baidu, качество которой лучше, чем у ERNIE Lite, при этом сочетающая отличное качество модели и производительность рассуждения, подходит для инференса на AI-ускорителях с низкой вычислительной мощностью. ERNIE-Lite-Pro-128K поддерживает контекст длиной 128K и показывает лучшие результаты, чем ERNIE-Lite-128K.</td></tr><tr><td>ERNIE-Novel-8K</td><td>8k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE-Novel-8K — это универсальная большая языковая модель собственной разработки Baidu, обладающая явным преимуществом в продолжении написания романов; также может использоваться в сценариях коротких драм и кино.</td></tr><tr><td>ERNIE-Speed-128K</td><td>128k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Высокопроизводительная большая языковая модель собственной разработки Baidu, выпущенная в 2024 году; обладает отличными универсальными возможностями, подходит в качестве базовой модели для тонкой настройки, лучше справляется с задачами в конкретных сценариях и при этом имеет превосходную производительность рассуждения.</td></tr><tr><td>ERNIE-Speed-8K</td><td>8k</td><td>1k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Высокопроизводительная большая языковая модель собственной разработки Baidu, выпущенная в 2024 году; обладает отличными универсальными возможностями, подходит в качестве базовой модели для тонкой настройки, лучше справляется с задачами в конкретных сценариях и при этом имеет превосходную производительность рассуждения.</td></tr><tr><td>ERNIE-Speed-Pro-128K</td><td>128k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>ERNIE Speed Pro — это высокопроизводительная большая языковая модель собственной разработки Baidu, выпущенная в 2024 году; обладает отличными универсальными возможностями, подходит в качестве базовой модели для тонкой настройки, лучше справляется с задачами в конкретных сценариях и при этом имеет превосходную производительность рассуждения. ERNIE-Speed-Pro-128K — начальная версия, выпущенная 30 августа 2024 года, поддерживает контекст длиной 128K и лучше, чем ERNIE-Speed-128K.</td></tr><tr><td>ERNIE-Tiny-8K</td><td>8k</td><td>1k</td><td>Не поддерживается</td><td>Диалог</td><td>百度_ernie</td><td>Сверхвысокопроизводительная большая языковая модель собственной разработки Baidu, стоимость развёртывания и дообучения которой является самой низкой среди моделей серии Wenxin.</td></tr><tr><td>Doubao-1.5-lite-32k</td><td>32k</td><td>12k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Doubao1.5-lite также находится на мировом передовом уровне среди облегчённых языковых моделей и по ключевым метрикам комплексной оценки (MMLU_pro), рассуждений (BBH), математики (MATH), специализированных знаний (GPQA) сопоставим с GPT-4o mini или превосходит его, а также Claude 3.5 Haiku.<br></td></tr><tr><td>Doubao-1.5-pro-256k</td><td>256k</td><td>12k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Doubao-1.5-Pro-256k, всесторонне улучшенная версия на базе Doubao-1.5-Pro. По сравнению с Doubao-pro-256k/241115 общая эффективность значительно улучшена на 10%. Длина вывода существенно увеличена, поддерживается максимум 12k tokens.</td></tr><tr><td>Doubao-1.5-pro-32k</td><td>32k</td><td>12k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Doubao-1.5-pro — новое поколение флагманской модели с всесторонне улучшенной производительностью, выдающимися результатами в знаниях, коде, рассуждении и т. д. На ряде общедоступных бенчмарков достигла мирового лидирующего уровня, особенно по знаниям, коду, рассуждению и авторитетным китайским бенчмаркам, а по совокупной оценке превосходит GPT4o, Claude 3.5 Sonnet и другие ведущие модели отрасли.</td></tr><tr><td>Doubao-1.5-vision-pro</td><td>32k</td><td>12k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>豆包_doubao</td><td>Doubao-1.5-vision-pro — новая улучшенная мультимодальная крупная модель, поддерживающая распознавание изображений с любым разрешением и экстремальным соотношением сторон, а также улучшенные возможности визуального рассуждения, распознавания документов, понимания деталей и следования инструкциям.</td></tr><tr><td>Doubao-embedding</td><td>4k</td><td>-</td><td>Поддерживается</td><td>Встраивание</td><td>豆包_doubao</td><td>Doubao-embedding — это модель семантической векторизации, разработанная ByteDance, ориентированная в основном на сценарии векторного поиска; поддерживает китайский и английский языки, максимальная длина контекста — 4K. Доступны следующие версии:<br><br>text-240715: вектор максимальной размерности 2560, поддерживает понижение размерности до 512, 1024, 2048. Эффективность Retrieval для китайского и английского языков значительно выше, чем у версии text-240515; рекомендуется использовать эту версию.<br>text-240515: вектор максимальной размерности 2048, поддерживает понижение размерности до 512, 1024.</td></tr><tr><td>Doubao-embedding-large</td><td>4k</td><td>-</td><td>Не поддерживается</td><td>Встраивание</td><td>豆包_doubao</td><td><br>Эффективность Retrieval для китайского и английского языков значительно выше, чем у версии Doubao-embedding/text-240715</td></tr><tr><td>Doubao-embedding-vision</td><td>8k</td><td>-</td><td>Не поддерживается</td><td>Встраивание</td><td>豆包_doubao</td><td>Doubao-embedding-vision — новая улучшенная мультимодальная модель векторизации изображений и текста, ориентированная в основном на сценарии многомодального векторного поиска по изображению и тексту; поддерживает ввод изображений и текстовый ввод на китайском и английском языках, максимальная длина контекста — 8K.</td></tr><tr><td>Doubao-lite-128k</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Doubao-lite обладает предельной скоростью отклика и лучшим соотношением цена/качество, предоставляя более гибкий выбор для разных сценариев клиентов. Поддерживает инференс и дообучение с окном контекста 128k.</td></tr><tr><td>Doubao-lite-32k</td><td>32k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Doubao-lite обладает предельной скоростью отклика и лучшим соотношением цена/качество, предоставляя более гибкий выбор для разных сценариев клиентов. Поддерживает инференс и дообучение с окном контекста 32k.</td></tr><tr><td>Doubao-lite-4k</td><td>4k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Doubao-lite обладает предельной скоростью отклика и лучшим соотношением цена/качество, предоставляя более гибкий выбор для разных сценариев клиентов. Поддерживает инференс и дообучение с окном контекста 4k.</td></tr><tr><td>Doubao-pro-128k</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Флагманская модель с лучшим качеством, подходит для сложных задач и отлично показывает себя в сценариях справочных вопросов и ответов, суммаризации, творчества, классификации текста, ролевых игр и т. д. Поддерживает инференс и дообучение с окном контекста 128k.</td></tr><tr><td>Doubao-pro-32k</td><td>32k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Флагманская модель с лучшим качеством, подходит для сложных задач и отлично показывает себя в сценариях справочных вопросов и ответов, суммаризации, творчества, классификации текста, ролевых игр и т. д. Поддерживает инференс и дообучение с окном контекста 32k.</td></tr><tr><td>Doubao-pro-4k</td><td>4k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>豆包_doubao</td><td>Флагманская модель с лучшим качеством, подходит для сложных задач и отлично показывает себя в сценариях справочных вопросов и ответов, суммаризации, творчества, классификации текста, ролевых игр и т. д. Поддерживает инференс и дообучение с окном контекста 4k.</td></tr><tr><td>step-1-128k</td><td>128k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Jieyue Xingchen</td><td>Модель step-1-128k — это сверхкрупная языковая модель, способная обрабатывать до 128000 токенов ввода. Такая возможность даёт ей заметное преимущество при генерации длинного контента и выполнении сложного рассуждения, что подходит для создания романов, сценариев и других приложений, требующих богатого контекста.</td></tr><tr><td>step-1-256k</td><td>256k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Jieyue Xingchen</td><td>Модель step-1-256k является одной из крупнейших языковых моделей на данный момент и поддерживает ввод до 256000 токенов. Она создана для удовлетворения требований крайне сложных задач, таких как масштабный анализ данных и многократные диалоговые системы, и способна выдавать высококачественные результаты в различных областях.</td></tr><tr><td>step-1-32k</td><td>32k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Jieyue Xingchen</td><td>Модель step-1-32k расширяет контекстное окно и поддерживает ввод 32000 токенов. Это позволяет ей отлично справляться с обработкой длинных статей и сложных диалогов, подходя для задач, требующих глубокого понимания и анализа, таких как юридические документы и академические исследования.</td></tr><tr><td>step-1-8k</td><td>8k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Jieyue Xingchen</td><td>Модель step-1-8k — это эффективная языковая модель, специально разработанная для обработки более коротких текстов. Она способна рассуждать в контексте 8000 токенов и подходит для сценариев, требующих быстрого отклика, таких как чат-боты и перевод в реальном времени.</td></tr><tr><td>step-1-flash</td><td>8k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Jieyue Xingchen</td><td>Модель step-1-flash ориентирована на быстрый отклик и эффективную обработку, подходит для приложений в реальном времени. Её конструкция позволяет даже при ограниченных вычислительных ресурсах обеспечивать качественное понимание и генерацию языка, что делает её подходящей для мобильных устройств и сценариев edge computing.</td></tr><tr><td>step-1.5v-mini</td><td>32k</td><td>-</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>Jieyue Xingchen</td><td>Модель step-1.5v-mini — это лёгкая версия, предназначенная для работы в средах с ограниченными ресурсами. Несмотря на небольшой размер, она сохраняет хорошие возможности обработки языка и подходит для встроенных систем и устройств с низким энергопотреблением.</td></tr><tr><td>step-1v-32k</td><td>32k</td><td>-</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>Jieyue Xingchen</td><td>Модель step-1v-32k поддерживает ввод 32000 токенов и подходит для приложений, требующих более длинного контекста. Она отлично справляется со сложными диалогами и длинными текстами, подходит для таких областей, как служба поддержки и создание контента.</td></tr><tr><td>step-1v-8k</td><td>8k</td><td>-</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>Jieyue Xingchen</td><td>Модель step-1v-8k — это оптимизированная версия, специально разработанная для ввода 8000 токенов, подходит для быстрого генерации и обработки коротких текстов. Она хорошо балансирует между скоростью и точностью, что делает её подходящей для приложений в реальном времени.</td></tr><tr><td>step-2-16k</td><td>16k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>Jieyue Xingchen</td><td>Модель step-2-16k — это языковая модель среднего размера, поддерживающая ввод 16000 токенов. Она хорошо показывает себя в различных задачах и подходит для приложений в образовании, обучении и управлении знаниями.<br></td></tr><tr><td>yi-lightning</td><td>16k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>零一万物_yi</td><td>Новейшая высокопроизводительная модель, которая при сохранении высокого качества вывода значительно увеличивает скорость рассуждения.<br>Подходит для взаимодействия в реальном времени и сценариев с высокой сложностью рассуждения; очень высокая экономичность обеспечивает отличную поддержку коммерческих продуктов.</td></tr><tr><td>yi-vision-v2</td><td>16K</td><td>-</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>零一万物_yi</td><td>Подходит для сценариев, где требуется анализ и объяснение изображений и диаграмм, например для вопросов по картинкам, понимания графиков, OCR, визуального рассуждения, образования, понимания исследовательских отчётов или чтения многоязычных документов и т. д.</td></tr><tr><td>qwen-14b-chat</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Официальная открытая версия Tongyi Qianwen от Alibaba Cloud.</td></tr><tr><td>qwen-72b-chat</td><td>32k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Официальная открытая версия Tongyi Qianwen от Alibaba Cloud.</td></tr><tr><td>qwen-7b-chat</td><td>7.5k</td><td>1.5k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Официальная открытая версия Tongyi Qianwen от Alibaba Cloud.</td></tr><tr><td>qwen-coder-plus</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>Qwen-Coder-Plus — это специализированная модель для программирования в серии Qwen, созданная для улучшения генерации и понимания кода. Модель обучена на больших объёмах программных данных, умеет работать с различными языками программирования и поддерживает такие функции, как автодополнение кода, обнаружение ошибок и рефакторинг. Её цель — предоставлять разработчикам более эффективную помощь в программировании и повышать продуктивность разработки.</td></tr><tr><td>qwen-coder-plus-latest</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>Qwen-Coder-Plus-Latest — это последняя версия Qwen-Coder-Plus, включающая новейшие алгоритмические оптимизации и обновления датасетов. Модель значительно улучшена по производительности, лучше понимает контекст и генерирует код, более соответствующий потребностям разработчиков. Также добавлена поддержка большего числа языков программирования, что усиливает возможности многозадачного программирования.</td></tr><tr><td>qwen-coder-turbo</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>Кодовые и программирующие модели серии Tongyi Qianwen — это языковые модели, специально предназначенные для программирования и генерации кода; они быстры в выводе и недороги. Эта версия всегда указывает на последний стабильный снимок</td></tr><tr><td>qwen-coder-turbo-latest</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>Кодовые и программирующие модели серии Tongyi Qianwen — это языковые модели, специально предназначенные для программирования и генерации кода; они быстры в выводе и недороги. Эта версия всегда указывает на самый последний снимок</td></tr><tr><td>qwen-long</td><td>10m</td><td>6k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Long — это большая языковая модель в серии Tongyi Qianwen, предназначенная для сценариев сверхдлинного контекста. Поддерживает ввод на китайском, английском и других языках, а также сверхдлинный диалог с контекстом до 10 миллионов токенов (примерно 15 миллионов иероглифов или 15 тысяч страниц документов). В сочетании с одновременно запущенной службой документов поддерживает разбор и диалог с форматами word, pdf, markdown, epub, mobi и другими. Примечание: при прямой отправке запроса по HTTP поддерживается длина до 1M tokens; при превышении этого значения рекомендуется отправлять через файл.</td></tr><tr><td>qwen-math-plus</td><td>4k</td><td>3k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Math-Plus — это модель, ориентированная на решение математических задач и созданная для обеспечения эффективных возможностей математического рассуждения и вычислений. Модель обучена на большом количестве математических задач и способна работать со сложными математическими выражениями и проблемами, поддерживая широкий спектр вычислительных потребностей от базовой арифметики до высшей математики. Сценарии применения включают образование, исследования и инженерные области.</td></tr><tr><td>qwen-math-plus-latest</td><td>4k</td><td>3k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Math-Plus-Latest — это последняя версия Qwen-Math-Plus, интегрирующая новейшие технологии математического рассуждения и улучшения алгоритмов. Модель лучше справляется со сложными математическими задачами и может предоставлять более точные решения и ход рассуждений. Также расширено понимание математических символов и формул, что делает её пригодной для более широкого круга математических сценариев.</td></tr><tr><td>qwen-math-turbo</td><td>4k</td><td>3k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Math-Turbo — это высокопроизводительная математическая модель, специально разработанная для быстрого вычисления и рассуждения в реальном времени. Модель оптимизирована по скорости вычислений и способна за очень короткое время обрабатывать большое число математических задач, подходит для приложений, где требуется быстрый отклик, например для онлайн-образования и анализа данных в реальном времени. Эффективные алгоритмы позволяют пользователям получать мгновенные результаты даже при сложных вычислениях.</td></tr><tr><td>qwen-math-turbo-latest</td><td>4k</td><td>3k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Math-Turbo-Latest — это последняя версия Qwen-Math-Turbo, в которой ещё больше повышены эффективность вычислений и точность. Модель получила ряд оптимизаций алгоритмов, способна решать более сложные математические задачи и сохраняет высокую эффективность при рассуждении в реальном времени. Подходит для математических приложений, требующих быстрого отклика, например финансового анализа и научных вычислений.</td></tr><tr><td>qwen-max</td><td>32k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Серия Tongyi Qianwen 2.5 — сверхкрупная языковая модель уровня сотен миллиардов параметров, поддерживающая ввод на китайском, английском и других языках. По мере обновления модели qwen-max будет обновляться поэтапно.</td></tr><tr><td>qwen-max-latest</td><td>32k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Модель с лучшим качеством в серии Tongyi Qianwen; это динамически обновляемая версия, обновления которой не анонсируются заранее, подходит для сложных многошаговых задач, заметно улучшены общие возможности на китайском и английском языках, значительно повышено соответствие предпочтениям людей, существенно усилены способность к рассуждению и понимание сложных инструкций, лучше показывает себя на трудных задачах, значительно улучшены возможности по математике и коду, а также понимание и генерация структурированных данных, таких как таблицы и JSON.</td></tr><tr><td>qwen-plus</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Сбалансированная модель серии Tongyi Qianwen, её качество рассуждения и скорость находятся между Tongyi Qianwen-Max и Tongyi Qianwen-Turbo, подходит для задач средней сложности. Общие возможности на китайском и английском языках значительно улучшены, предпочтения людей учтены лучше, значительно усилены способность к рассуждению и понимание сложных инструкций, лучше показывает себя на трудных задачах, значительно улучшены математические и кодовые способности.</td></tr><tr><td>qwen-plus-latest</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Plus — это улучшенная мультимодальная визуально-языковая модель серии Tongyi Qianwen, созданная для повышения точности распознавания деталей и текста. Модель поддерживает изображения с разрешением свыше миллиона пикселей и любым соотношением сторон, способна отлично показывать себя в различных задачах зрительного и языкового характера и подходит для сценариев, где требуется высокоточное понимание изображений.</td></tr><tr><td>qwen-turbo</td><td>128k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Самая быстрая и недорогая модель серии Tongyi Qianwen, подходит для простых задач. Общие возможности на китайском и английском языках значительно улучшены, предпочтения людей учтены лучше, значительно усилены способность к рассуждению и понимание сложных инструкций, лучше показывает себя на трудных задачах, значительно улучшены математические и кодовые способности.</td></tr><tr><td>qwen-turbo-latest</td><td>1m</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen-Turbo — это эффективная модель, разработанная для простых задач, с акцентом на скорость и экономичность. Она отлично справляется с базовыми визуально-языковыми задачами и подходит для приложений с жёсткими требованиями ко времени отклика, таких как распознавание изображений в реальном времени и простые системы вопросов и ответов.</td></tr><tr><td>qwen-vl-max</td><td>32k</td><td>2k</td><td>Поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Tongyi Qianwen VL-Max (qwen-vl-max), то есть сверхкрупная визуально-языковая модель Tongyi Qianwen. По сравнению с улучшенной версией ещё больше повышены возможности визуального рассуждения и следования инструкциям, обеспечивая более высокий уровень визуального восприятия и понимания. Даёт лучшую производительность в большем числе сложных задач.</td></tr><tr><td>qwen-vl-max-latest</td><td>32k</td><td>2k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>千问_qwen</td><td>Qwen-VL-Max — это самая продвинутая версия в серии Qwen-VL, специально разработанная для решения сложных мультимодальных задач. Она сочетает передовые технологии обработки зрения и языка, способна понимать и анализировать изображения высокого разрешения, обладает очень сильными возможностями рассуждения и подходит для сценариев, где требуется глубокое понимание и сложное рассуждение.</td></tr><tr><td>qwen-vl-ocr</td><td>34k</td><td>4k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>千问_qwen</td><td>Поддерживает только OCR, не поддерживает диалог.</td></tr><tr><td>qwen-vl-ocr-latest</td><td>34k</td><td>4k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>千问_qwen</td><td>Поддерживает только OCR, не поддерживает диалог.</td></tr><tr><td>qwen-vl-plus</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>千问_qwen</td><td>Tongyi Qianwen VL-Plus (qwen-vl-plus), то есть улучшенная версия крупной визуально-языковой модели Tongyi Qianwen. Значительно улучшены возможности распознавания деталей и текста, поддерживаются изображения с разрешением свыше миллиона пикселей и любым соотношением сторон. Обеспечивает превосходную производительность в широком спектре визуальных задач.</td></tr><tr><td>qwen-vl-plus-latest</td><td>32k</td><td>2k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>千问_qwen</td><td>Qwen-VL-Plus-Latest — это последняя версия Qwen-VL-Plus, в которой усилены мультимодальные способности понимания модели. Она отлично справляется с совместной обработкой изображений и текста и подходит для приложений, требующих эффективной обработки различных форматов ввода, таких как интеллектуальная поддержка клиентов и генерация контента.</td></tr><tr><td>Qwen/Qwen2-1.5B-Instruct</td><td>32k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2-1.5B-Instruct — это большая языковая модель с instruction fine-tuning из серии Qwen2, размер параметров — 1.5B. Модель основана на архитектуре Transformer и использует такие технологии, как активация SwiGLU, bias QKV в механизме внимания и grouped query attention. Она отлично показывает себя в тестах на понимание языка, генерацию, многоязычные способности, кодирование, математику и рассуждение, превосходя большинство open-source моделей.</td></tr><tr><td>Qwen/Qwen2-72B-Instruct</td><td>128k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2-72B-Instruct — это большая языковая модель с instruction fine-tuning из серии Qwen2, размер параметров — 72B. Модель основана на архитектуре Transformer и использует такие технологии, как активация SwiGLU, bias QKV в механизме внимания и grouped query attention. Она способна обрабатывать крупномасштабный ввод. Модель отлично показывает себя в тестах на понимание языка, генерацию, многоязычные способности, кодирование, математику и рассуждение, превосходя большинство open-source моделей</td></tr><tr><td>Qwen/Qwen2-7B-Instruct</td><td>128k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2-7B-Instruct — это большая языковая модель с instruction fine-tuning из серии Qwen2, размер параметров — 7B. Модель основана на архитектуре Transformer и использует такие технологии, как активация SwiGLU, bias QKV в механизме внимания и grouped query attention. Она способна обрабатывать крупномасштабный ввод. Модель отлично показывает себя в тестах на понимание языка, генерацию, многоязычные способности, кодирование, математику и рассуждение, превосходя большинство open-source моделей</td></tr><tr><td>Qwen/Qwen2-VL-72B-Instruct</td><td>32k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2-VL — это новейшая итерация модели Qwen-VL, достигшая передовой производительности в бенчмарках визуального понимания, включая MathVista, DocVQA, RealWorldQA и MTVQA. Qwen2-VL может понимать видео длительностью более 20 минут, что позволяет использовать её для высококачественных видеовопросов и ответов, диалогов и создания контента. Она также обладает возможностями сложного рассуждения и принятия решений, может интегрироваться с мобильными устройствами, роботами и т. д., выполняя автоматические действия на основе визуальной среды и текстовых инструкций.</td></tr><tr><td>Qwen/Qwen2-VL-7B-Instruct</td><td>32k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2-VL-7B-Instruct — это новейшая итерация модели Qwen-VL, достигшая передовой производительности в бенчмарках визуального понимания, включая MathVista, DocVQA, RealWorldQA и MTVQA. Qwen2-VL может использоваться для высококачественных видеовопросов и ответов, диалогов и создания контента, а также обладает возможностями сложного рассуждения и принятия решений, может интегрироваться с мобильными устройствами, роботами и т. д., выполняя автоматические действия на основе визуальной среды и текстовых инструкций.</td></tr><tr><td>Qwen/Qwen2.5-72B-Instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2.5-72B-Instruct — одна из новейших серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 72B обладает значительно улучшенными возможностями в таких областях, как кодирование и математика. Она поддерживает ввод длиной до 128K tokens и может генерировать длинный текст объёмом более 8K tokens.</td></tr><tr><td>Qwen/Qwen2.5-72B-Instruct-128K</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2.5-72B-Instruct — одна из новейших серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 72B обладает значительно улучшенными возможностями в таких областях, как кодирование и математика. Она поддерживает ввод длиной до 128K tokens и может генерировать длинный текст объёмом более 8K tokens.</td></tr><tr><td>Qwen/Qwen2.5-7B-Instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2.5-7B-Instruct — одна из новейших серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 7B обладает значительно улучшенными возможностями в таких областях, как кодирование и математика. Модель также поддерживает многоязычность, охватывая более 29 языков, включая китайский, английский и другие. Существенно улучшены следование инструкциям, понимание структурированных данных и генерация структурированного вывода, особенно JSON</td></tr><tr><td>Qwen/Qwen2.5-Coder-32B-Instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>Qwen2.5-32B-Instruct — одна из новейших серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 32B обладает значительно улучшенными возможностями в таких областях, как кодирование и математика. Модель также поддерживает многоязычность, охватывая более 29 языков, включая китайский, английский и другие. Существенно улучшены следование инструкциям, понимание структурированных данных и генерация структурированного вывода, особенно JSON</td></tr><tr><td>Qwen/Qwen2.5-Coder-7B-Instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>Qwen2.5-7B-Instruct — одна из новейших серий больших языковых моделей, выпущенных Alibaba Cloud. Эта модель 7B обладает значительно улучшенными возможностями в таких областях, как кодирование и математика. Модель также поддерживает многоязычность, охватывая более 29 языков, включая китайский, английский и другие. Существенно улучшены следование инструкциям, понимание структурированных данных и генерация структурированного вывода, особенно JSON</td></tr><tr><td>Qwen/QwQ-32B-Preview</td><td>32k</td><td>16k</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>千问_qwen</td><td>QwQ-32B-Preview — это экспериментальная исследовательская модель, разработанная командой Qwen, направленная на повышение способности ИИ к рассуждению. Как предварительная версия, она демонстрирует отличные аналитические способности, но также имеет несколько важных ограничений:<br>1. Смешение языков и переключение кода: модель может смешивать языки или неожиданно переключаться между ними, что влияет на ясность ответа.<br>2. Рекурсивные циклы рассуждения: модель может входить в режим циклического рассуждения, что приводит к длинным ответам без чёткого вывода.<br>3. Соображения безопасности и этики: модели необходимо усиление мер безопасности для обеспечения надёжной и безопасной работы; пользователям следует проявлять осторожность.<br>4. Ограничения по производительности и бенчмаркам: модель отлично показывает себя в математике и программировании, но в других областях, таких как здравый смысл и тонкое языковое понимание, ещё есть пространство для улучшения.</td></tr><tr><td>qwen1.5-110b-chat</td><td>32k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen1.5-14b-chat</td><td>8k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen1.5-32b-chat</td><td>32k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen1.5-72b-chat</td><td>32k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen1.5-7b-chat</td><td>8k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2-57b-a14b-instruct</td><td>65k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>Qwen2-72B-Instruct</td><td>-</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2-7b-instruct</td><td>128k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2-math-72b-instruct</td><td>4k</td><td>3k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2-math-7b-instruct</td><td>4k</td><td>3k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-14b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-32b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-72b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-7b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-coder-14b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-coder-32b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-coder-7b-instruct</td><td>128k</td><td>8k</td><td>Не поддерживается</td><td>Диалог, код</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-math-72b-instruct</td><td>4k</td><td>3k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>qwen2.5-math-7b-instruct</td><td>4k</td><td>3k</td><td>Не поддерживается</td><td>Диалог</td><td>千问_qwen</td><td>-</td></tr><tr><td>deepseek-ai/DeepSeek-R1</td><td>64k</td><td>-</td><td>Не поддерживается</td><td>Диалог, рассуждение</td><td>DeepSeek</td><td>Модель DeepSeek-R1 — это открытая модель рассуждений, основанная на чистом обучении с подкреплением. Она отлично показывает себя в задачах по математике, коду и рассуждениям на естественном языке; по производительности сопоставима с моделью o1 от OpenAI и достигла выдающихся результатов во множестве бенчмарков.</td></tr><tr><td>deepseek-ai/DeepSeek-V2-Chat</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>DeepSeek</td><td>DeepSeek-V2 — это мощная и экономичная языковая модель с архитектурой Mixture of Experts (MoE). Она была предварительно обучена на высококачественном корпусе из 8,1 трлн токенов, а затем её возможности были дополнительно улучшены с помощью supervised fine-tuning (SFT) и обучения с подкреплением (RL). По сравнению с DeepSeek 67B, DeepSeek-V2 при более высокой производительности позволяет сэкономить 42,5% затрат на обучение, уменьшить объём KV-кэша на 93,3% и увеличить максимальную пропускную способность генерации до 5,76 раза.</td></tr><tr><td>deepseek-ai/DeepSeek-V2.5</td><td>32k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>DeepSeek</td><td>DeepSeek-V2.5 — это улучшенная версия DeepSeek-V2-Chat и DeepSeek-Coder-V2-Instruct, объединяющая общие и кодовые возможности двух предыдущих версий. Модель была оптимизирована по нескольким направлениям, включая написание текстов и следование инструкциям, а также лучше соответствует предпочтениям человека.</td></tr><tr><td>deepseek-ai/DeepSeek-V3</td><td>128k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>DeepSeek</td><td>Открытая версия deepseek, по сравнению с официальной версией имеет более длинный контекст и не имеет проблем с отказами из-за чувствительных слов.</td></tr><tr><td>deepseek-chat</td><td>64k</td><td>8k</td><td>Поддерживается</td><td>Диалог</td><td>DeepSeek</td><td>236 млрд параметров, контекст 64K (API), общие возможности на китайском языке (AlignBench) — на первом месте среди открытых моделей; в оценках находится в одной лиге с закрытыми моделями, такими как GPT-4-Turbo и Wenxin 4.0.</td></tr><tr><td>deepseek-coder</td><td>64k</td><td>8k</td><td>Поддерживается</td><td>Диалог, код</td><td>DeepSeek</td><td>236 млрд параметров, контекст 64K (API), общие возможности на китайском языке (AlignBench) — на первом месте среди открытых моделей; в оценках находится в одной лиге с закрытыми моделями, такими как GPT-4-Turbo и Wenxin 4.0.</td></tr><tr><td>deepseek-reasoner</td><td>64k</td><td>8k</td><td>Поддерживается</td><td>Диалог, рассуждение</td><td>DeepSeek</td><td>DeepSeek-Reasoner (DeepSeek-R1) — это новейшая модель рассуждений от DeepSeek, предназначенная для повышения способности к рассуждению посредством обучения с подкреплением. Процесс рассуждений этой модели включает большое количество размышлений и проверок, она способна решать сложные логические задачи, а длина цепочки рассуждений может достигать десятков тысяч иероглифов. DeepSeek-R1 отлично справляется с решением задач по математике, коду и других сложных вопросов, уже широко применяется в различных сценариях, демонстрируя мощные способности к рассуждению и гибкость. По сравнению с другими моделями, DeepSeek-R1 по качеству рассуждений приближается к топовым закрытым моделям, показывая потенциал и конкурентоспособность открытых моделей в области рассуждений.</td></tr><tr><td>hunyuan-code</td><td>4k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, код</td><td>Tencent_hunyuan</td><td>Новейшая модель генерации кода от Hunyuan. Базовая модель была дообучена на 200B высококачественных кодовых данных, затем на протяжении полугода проводилось обучение на высококачественных SFT-данных; длина длинного контекстного окна увеличена до 8K. По автоматическим метрикам генерации кода на пяти языках она занимает ведущие позиции; по высококачественной ручной оценке комплексных задач по коду по 10 критериям для пяти языков её производительность относится к первому эшелону.</td></tr><tr><td>hunyuan-functioncall</td><td>28k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Новейшая модель FunctionCall на архитектуре MOE от Hunyuan, обученная на высококачественных данных FunctionCall; контекстное окно достигает 32K, и по ряду оценочных метрик она занимает лидирующие позиции.</td></tr><tr><td>hunyuan-large</td><td>28k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Модель Hunyuan-large имеет общее число параметров около 389B, активных параметров — около 52B; это крупнейшая по параметрам и одна из лучших по качеству открытых MoE-моделей на архитектуре Transformer в отрасли на данный момент.</td></tr><tr><td>hunyuan-large-longcontext</td><td>128k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Хорошо подходит для задач с длинными текстами, таких как резюме документов и вопросы-ответы по документам, а также умеет решать общие задачи генерации текста. Отлично проявляет себя в анализе и генерации длинных текстов и эффективно справляется со сложной и подробной обработкой длинного контента.</td></tr><tr><td>hunyuan-lite</td><td>250k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Обновлена до структуры MOE, контекстное окно — 256k; по многим наборам для оценки в NLP, коде, математике, отраслевых задачах и др. опережает множество открытых моделей.</td></tr><tr><td>hunyuan-pro</td><td>28k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>MOE-32K модель для длинных текстов с триллионным масштабом параметров. По различным бенчмаркам достигает абсолютно лидирующего уровня, обладает возможностями сложного следования инструкциям и рассуждений, умеет работать со сложной математикой, поддерживает function call, а также особенно оптимизирована для многоязычного перевода, финансовой, юридической и медицинской сфер.</td></tr><tr><td>hunyuan-role</td><td>28k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Новейшая версия модели ролевой игры от Hunyuan — официально тонко настроенная и обученная модель ролевого взаимодействия от Hunyuan. На основе модели Hunyuan с добавлением датасетов для сценариев ролевой игры, дообучена для лучшего базового качества в сценариях ролевого взаимодействия.</td></tr><tr><td>hunyuan-standard</td><td>30k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Используется более оптимальная стратегия маршрутизации, одновременно смягчаются проблемы балансировки нагрузки и схождения экспертов.<br>MOE-32K имеет сравнительно более высокое соотношение цены и качества; при балансе эффективности и стоимости может обеспечивать обработку длинных текстовых входов.</td></tr><tr><td>hunyuan-standard-256K</td><td>250k</td><td>6k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Используется более оптимальная стратегия маршрутизации, одновременно смягчаются проблемы балансировки нагрузки и схождения экспертов. В области длинных текстов показатель «найти иголку в стоге сена» достигает 99,9%. MOE-256K ещё больше прорывается по длине и качеству, значительно расширяя допустимую длину входа.</td></tr><tr><td>hunyuan-translation-lite</td><td>4k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Модель перевода Hunyuan поддерживает диалоговый перевод на естественном языке; поддерживает двусторонний перевод между китайским и 15 языками: английским, японским, французским, португальским, испанским, турецким, русским, арабским, корейским, итальянским, немецким, вьетнамским, малайским и индонезийским.</td></tr><tr><td>hunyuan-turbo</td><td>28k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Модель Hunyuan-turbo в версии по умолчанию использует совершенно новую структуру Mixture of Experts (MoE). По сравнению с hunyuan-pro, она быстрее по эффективности вывода и показывает более сильные результаты.</td></tr><tr><td>hunyuan-turbo-latest</td><td>28k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Tencent_hunyuan</td><td>Динамически обновляемая версия модели Hunyuan-turbo — это лучшая по качеству версия серии моделей Hunyuan и соответствует потребительской версии (Tencent Yuanbao).</td></tr><tr><td>hunyuan-turbo-vision</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Распознавание изображений, диалог</td><td>Tencent_hunyuan</td><td>Новое флагманское крупное мультимодальное языковое модельное решение Hunyuan нового поколения использует совершенно новую структуру Mixture of Experts (MoE). По сравнению с моделью предыдущего поколения, полностью улучшены базовое распознавание, создание контента, вопросы-ответы по знаниям, анализ и рассуждения в задачах понимания изображений и текста. Максимальный вход — 6k, максимальный выход — 2k.</td></tr><tr><td>hunyuan-vision</td><td>8k</td><td>2k</td><td>Поддерживается</td><td>Диалог, распознавание изображений</td><td>Tencent_hunyuan</td><td>Новейшая мультимодальная модель Hunyuan поддерживает генерацию текстового контента по входу из изображений + текста.<br>Базовое распознавание изображений: распознавание объектов, элементов, сцен и т. п. на изображении<br>Создание контента по изображению: краткое описание изображения, рекламные тексты, посты для соцсетей, стихи и т. д.<br>Многоходовый диалог по изображению: вопросы и ответы с одним изображением в несколько раундов<br>Анализ и рассуждения по изображению: статистический анализ логических связей, математических задач, кода и диаграмм на изображении<br>Вопросы-ответы по знаниям из изображения: ответы на вопросы по знаниям, содержащимся в изображении, например по историческим событиям или киноафишам<br>OCR изображений: распознавание текста на изображениях в бытовых сценах и в неестественных сценах.</td></tr><tr><td>SparkDesk-Lite</td><td>4k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>SparkDesk</td><td>Поддерживает онлайн-поиск в интернете, быстрый и удобный отклик, подходит для кастомизированных сценариев, таких как инференс на низких вычислительных ресурсах и тонкая настройка модели</td></tr><tr><td>SparkDesk-Max</td><td>128k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>SparkDesk</td><td>Основана на новейшем движке большой модели Xinghuo 4.0 Turbo и квантована; поддерживает встроенные плагины, такие как поиск в интернете, погода, дата и др. Основные возможности полностью обновлены, эффективность во всех сценариях обычно улучшена, поддерживает System-роль и вызов функций FunctionCall</td></tr><tr><td>SparkDesk-Max-32k</td><td>32k</td><td>-</td><td>Поддерживается</td><td>Диалог</td><td>SparkDesk</td><td>Более сильное рассуждение: более мощное понимание контекста и логическое рассуждение, более длинный ввод: поддерживает текстовый ввод до 32K токенов, подходит для чтения длинных документов, вопросов-ответов по частным знаниям и т. п.</td></tr><tr><td>SparkDesk-Pro</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>SparkDesk</td><td>Специализированная оптимизация для сценариев математики, кода, медицины, образования и др.; поддерживает встроенные плагины, такие как поиск в интернете, погода, дата и др.; охватывает большинство сценариев, включая вопросы-ответы по знаниям, понимание языка, создание текста и другие.</td></tr><tr><td>SparkDesk-Pro-128K</td><td>128k</td><td>-</td><td>Не поддерживается</td><td>Диалог</td><td>SparkDesk</td><td>Профессиональная большая языковая модель с параметрами на уровне сотен миллиардов, специально оптимизированная для сценариев медицины, образования и кода; в сценариях поиска задержка ниже. Подходит для бизнес-сценариев, где к тексту, интеллектуальным вопросам-ответам и другим задачам предъявляются более высокие требования к производительности и скорости отклика.</td></tr><tr><td>moonshot-v1-128k</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Moonshot</td><td>Модель длиной 8k, подходит для генерации коротких текстов.</td></tr><tr><td>moonshot-v1-32k</td><td>32k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Moonshot</td><td>Модель длиной 32k, подходит для генерации длинных текстов.</td></tr><tr><td>moonshot-v1-8k</td><td>8k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>Moonshot</td><td>Модель длиной 128k, подходит для генерации сверхдлинных текстов.</td></tr><tr><td>codegeex-4</td><td>128k</td><td>4k</td><td>Не поддерживается</td><td>Диалог, код</td><td>CodeGeeX</td><td>Кодовая модель Zhipu: подходит для задач автодополнения кода</td></tr><tr><td>charglm-3</td><td>4k</td><td>2k</td><td>Не поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Модель с человекоподобным характером</td></tr><tr><td>emohaa</td><td>8k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Психологическая модель: обладает профессиональными консультационными возможностями и помогает пользователям понимать эмоции и справляться с эмоциональными проблемами</td></tr><tr><td>glm-3-turbo</td><td>128k</td><td>4k</td><td>Не поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Скоро будет снята с поддержки (30 июня 2025 года)</td></tr><tr><td>glm-4</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Старая флагманская версия: выпущена 16 января 2024 года, в настоящее время заменена на GLM-4-0520</td></tr><tr><td>glm-4-0520</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Высокоинтеллектуальная модель: подходит для обработки очень сложных и разнообразных задач</td></tr><tr><td>glm-4-air</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Высокая экономичность: наиболее сбалансированная модель между способностью к рассуждению и ценой</td></tr><tr><td>glm-4-airx</td><td>8k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Сверхбыстрое рассуждение: очень высокая скорость вывода и мощные результаты рассуждения</td></tr><tr><td>glm-4-flash</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Высокая скорость и низкая цена: сверхбыстрая скорость рассуждения</td></tr><tr><td>glm-4-flashx</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Высокая скорость и низкая цена: улучшенная версия Flash, сверхбыстрая скорость рассуждения</td></tr><tr><td>glm-4-long</td><td>1m</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Сверхдлинный ввод: специально разработана для обработки сверхдлинных текстов и задач с памятью</td></tr><tr><td>glm-4-plus</td><td>128k</td><td>4k</td><td>Поддерживается</td><td>Диалог</td><td>GLM от Zhipu</td><td>Флагман с высоким интеллектом: всесторонне улучшенная производительность, значительно усилены возможности работы с длинными текстами и сложными задачами</td></tr><tr><td>glm-4v</td><td>2k</td><td>-</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>GLM от Zhipu</td><td>Понимание изображений: обладает способностью понимать изображения и рассуждать</td></tr><tr><td>glm-4v-flash</td><td>2k</td><td>1k</td><td>Не поддерживается</td><td>Диалог, распознавание изображений</td><td>GLM от Zhipu</td><td>Бесплатная модель: обладает мощными возможностями понимания изображений</td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/russian/other/models-info.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
