Популярная наука о знаниях

Что такое токены?

Токены — это базовые единицы текста, с которыми работает модель ИИ; их можно понимать как наименьшие «элементы мышления» модели. Они не полностью совпадают с символами или словами в привычном смысле, а представляют собой особый способ разбиения текста, используемый самой моделью.

1. Разделение слов в китайском

  • Один китайский иероглиф обычно кодируется в 1–2 токена

  • Например:"你好" ≈ 2–4 токена

2. Разделение слов в английском

  • Обычные распространённые слова обычно занимают 1 токен

  • Более длинные или редкие слова разбиваются на несколько токенов

  • Например:

    • "hello" = 1 токен

    • "indescribable" = 4 токена

3. Специальные символы

  • Пробелы, знаки препинания и т. п. также занимают токены

  • Символ перевода строки обычно занимает 1 токен

Токенизаторы у разных провайдеров отличаются, а у одного провайдера разные модели тоже могут использовать разные токенизаторы; эта информация служит лишь для понимания концепции токена.


Что такое токенизатор?

Токенизатор — это инструмент, который превращает текст в токены для модели ИИ. Он определяет, как разрезать входной текст на наименьшие единицы, понятные модели.

Почему токенизаторы разных моделей разные?

1. Разные тренировочные данные

  • Разные корпуса текстов приводят к различной направленности оптимизации

  • Различия в уровне поддержки многоязычия

  • Специальная оптимизация для конкретных областей (медицина, юриспруденция и т. п.)

2. Разные алгоритмы разбиения

  • BPE (Byte Pair Encoding) — серия OpenAI GPT

  • WordPiece — Google BERT

  • SentencePiece — подходит для многоязычных сценариев

3. Разные цели оптимизации

  • Некоторые ориентированы на эффективность сжатия

  • Некоторые — на сохранение семантики

  • Некоторые — на быстродействие

Практическое влияние

Количество токенов одного и того же текста может различаться в разных моделях:

Вход: "Hello, world!"
GPT-3: 4 токена
BERT: 3 токена
Claude: 3 токена

Что такое модель встраивания (Embedding Model)?

Базовая концепция: Модель встраивания преобразует высокоразмерные дискретные данные (текст, изображения и т. п.) в низкоразмерные непрерывные векторы; это преобразование помогает машинам лучше понимать и обрабатывать сложные данные. Представьте, что сложную мозаику упрощают до одной координатной точки, которая при этом сохраняет ключевые особенности мозаики. В экосистеме больших моделей она выступает как «переводчик», преобразующий информацию, понятную человеку, в числовую форму, пригодную для вычислений ИИ.

Принцип работы: На примере обработки естественного языка модель встраивания может отображать слова в конкретные позиции в векторном пространстве. В этом пространстве семантически близкие слова группируются вместе. Например:

  • Векторы «короля» и «королевы» будут очень близки

  • Такие слова, как «кот» и «собака», как слова о питомцах, тоже будут находиться близко друг к другу

  • А слова с разной семантикой, например «автомобиль» и «хлеб», будут расположены далеко друг от друга

Основные сценарии применения:

  • Анализ текста: классификация документов, анализ тональности

  • Рекомендательные системы: персонализированные рекомендации контента

  • Обработка изображений: поиск похожих изображений

  • Поисковые системы: оптимизация семантического поиска

Ключевые преимущества:

  1. Снижение размерности: упрощение сложных данных до удобной для обработки векторной формы

  2. Сохранение семантики: удержание ключевой семантической информации исходных данных

  3. Вычислительная эффективность: значительное повышение эффективности обучения и вывода моделей машинного обучения

Техническая ценность: Модели встраивания являются основными компонентами современных AI-систем, предоставляют высококачественные представления данных для задач машинного обучения и являются ключевой технологией продвижения в областях NLP, компьютерного зрения и т. п.


Как Embedding-модель работает при поиске по знаниям

Основной рабочий процесс:

  1. Этап предобработки базы знаний

  • Разделение документов на куски (chunk) подходящего размера

  • Использование embedding-модели для преобразования каждого куска в вектор

  • Сохранение векторов и исходного текста в векторной базе данных

  1. Этап обработки запроса

  • Преобразование пользовательского вопроса в вектор

  • Поиск схожего содержимого в векторной базе

  • Предоставление найденного релевантного содержимого как контекста для LLM


Что такое MCP (Model Context Protocol)?

MCP — это открытый протокол, предназначенный для стандартизированной передачи контекстной информации большим языковым моделям (LLM).

  • Пояснение через аналогию: MCP можно представить как «флешку» в сфере ИИ. Как флешка хранит различные файлы и после подключения к компьютеру их можно сразу использовать, так и на MCP Server можно «вставлять» различные «плагины», предоставляющие контекст; LLM может запрашивать эти плагины у MCP Server по мере необходимости, получая более богатый контекст и усиливая свои возможности.

  • Сравнение с Function Tool: Традиционные Function Tool (функциональные инструменты) тоже могут предоставлять внешние возможности LLM, но MCP больше похож на более высокоуровневую абстракцию. Function Tool ориентированы на конкретные задачи, тогда как MCP предоставляет более универсальный и модульный механизм получения контекста.

Ключевые преимущества MCP

  1. Стандартизация: MCP предоставляет единый интерфейс и формат данных, что позволяет разным LLM и поставщикам контекста бесшовно взаимодействовать.

  2. Модульность: MCP позволяет разработчикам разбивать информацию контекста на независимые модули (плагины), что облегчает управление и повторное использование.

  3. Гибкость: LLM может динамически выбирать необходимые контекстные плагины в зависимости от своих потребностей, обеспечивая более интеллектуальное и персонализированное взаимодействие.

  4. Масштабируемость: Дизайн MCP поддерживает добавление в будущем большего числа типов контекстных плагинов, предоставляя неограниченные возможности для расширения способностей LLM.


Последнее обновление

Это было полезно?