# Популярно о знаниях

## Что такое tokens?

Tokens — это базовая единица, с помощью которой AI-модели обрабатывают текст; это можно понимать как минимальную единицу, из которой модель «мыслит». Они не полностью совпадают с тем, что мы понимаем под символами или словами, а представляют собой особый способ разбиения текста, используемый самой моделью.

#### 1. Разбиение китайского текста

* Один китайский иероглиф обычно кодируется как 1–2 tokens
* Например:`«你好»` ≈ 2–4 tokens

#### 2. Разбиение английского текста

* Распространённые слова обычно составляют 1 token
* Более длинные или редкие слова разбиваются на несколько tokens
* Например:
  * `«hello»` = 1 token
  * `«indescribable»` = 4 tokens

#### 3. Специальные символы

* Пробелы, знаки препинания и т. п. тоже занимают tokens
* Символ перевода строки обычно — 1 token

{% hint style="info" %}
Tokenizer у разных поставщиков услуг отличается, и даже у моделей одного и того же поставщика Tokenizer может различаться; эти знания нужны лишь для понимания понятия token.
{% endhint %}

***

## Что такое Tokenizer?

Tokenizer (токенизатор) — это инструмент, с помощью которого AI-модель преобразует текст в tokens. Он определяет, как входной текст разбивается на минимальные единицы, которые модель может понять.

### Почему у разных моделей Tokenizer разные?

#### 1. Разные обучающие данные

* Разные корпуса текстов приводят к разным направлениям оптимизации
* Различается степень поддержки многоязычности
* Специализированная оптимизация под конкретные области (медицина, право и т. д.)

#### 2. Разные алгоритмы токенизации

* BPE (Byte Pair Encoding) — серия OpenAI GPT
* WordPiece — Google BERT
* SentencePiece — подходит для многоязычных сценариев

#### 3. Разные цели оптимизации

* Одни делают упор на эффективность сжатия
* Другие — на сохранение семантики
* Третьи — на скорость обработки

### Практическое влияние

Количество tokens для одного и того же текста в разных моделях может различаться:

```
Ввод: «Hello, world!»
GPT-3: 4 tokens
BERT: 3 tokens
Claude: 3 tokens
```

***

## Что такое embedding model (модель эмбеддингов)?

**Основное понятие:** Модель эмбеддингов — это технология, которая преобразует высокоразмерные дискретные данные (текст, изображения и т. д.) в низкоразмерные непрерывные векторы. Такое преобразование помогает машинам лучше понимать и обрабатывать сложные данные. Представьте, будто сложный пазл упрощается до одной точки на координатной плоскости, но эта точка всё ещё сохраняет ключевые признаки пазла. В экосистеме больших моделей она выступает как «переводчик», преобразуя информацию, понятную человеку, в вычислимую для AI форму чисел.

**Принцип работы:** На примере обработки естественного языка модель эмбеддингов может отображать слова в определённые позиции в векторном пространстве. В этом пространстве слова с близким значением автоматически группируются вместе. Например:

* Векторы слов «король» и «королева» будут очень близки
* Слова, обозначающие питомцев, такие как «кот» и «собака», тоже будут находиться близко друг к другу
* А слова с нерелевантным значением, такие как «автомобиль» и «хлеб», будут находиться далеко друг от друга

**Основные сценарии применения:**

* Анализ текста: классификация документов, анализ тональности
* Системы рекомендаций: персонализированные рекомендации контента
* Обработка изображений: поиск похожих изображений
* Поисковые системы: оптимизация семантического поиска

**Ключевые преимущества:**

1. Снижение размерности: упрощает сложные данные до удобной для обработки векторной формы
2. Сохранение семантики: сохраняет ключевую смысловую информацию исходных данных
3. Вычислительная эффективность: значительно повышает эффективность обучения и вывода моделей машинного обучения

**Технологическая ценность:** Модели эмбеддингов — это базовый компонент современных AI-систем, обеспечивающий высококачественное представление данных для задач машинного обучения и являющийся ключевой технологией, продвигающей развитие таких областей, как обработка естественного языка и компьютерное зрение.

***

## Принцип работы embedding-модели в поиске знаний

**Основной рабочий процесс:**

1. **Этап предварительной обработки базы знаний**

* Разбиение документов на chunks (текстовые фрагменты) подходящего размера
* Преобразование каждого chunk в вектор с помощью embedding-модели
* Сохранение векторов и исходного текста в векторной базе данных

2. **Этап обработки запроса**

* Преобразование вопроса пользователя в вектор
* Поиск похожего содержимого в векторном хранилище
* Передача найденного релевантного содержимого в качестве контекста LLM

***

## **Что такое MCP (Model Context Protocol)?**

MCP — это открытый протокол, предназначенный для стандартизированной передачи контекстной информации большим языковым моделям (LLM).

* **Аналогия:** MCP можно представить как «USB-накопитель» в сфере AI. Мы знаем, что USB-накопитель может хранить разные файлы, а после подключения к компьютеру им можно сразу пользоваться. Аналогично, на MCP Server можно «подключать» разные «плагины», предоставляющие контекст; LLM может по мере необходимости запрашивать эти плагины у MCP Server, получая более богатую контекстную информацию и усиливая свои возможности.
* **Сравнение с Function Tool:** Традиционный Function Tool (инструмент-функция) тоже может предоставлять LLM внешние возможности, но MCP больше похож на абстракцию более высокого уровня. Function Tool чаще является инструментом для конкретной задачи, тогда как MCP предоставляет более универсальный, модульный механизм получения контекста.

### **Ключевые преимущества MCP**

1. **Стандартизация:** MCP предоставляет единый интерфейс и формат данных, позволяя разным LLM и поставщикам контекста бесшовно взаимодействовать.
2. **Модульность:** MCP позволяет разработчикам разделять контекстную информацию на независимые модули (плагины), что облегчает управление и повторное использование.
3. **Гибкость:** LLM может динамически выбирать нужные контекстные плагины в зависимости от своих потребностей, обеспечивая более умное и персонализированное взаимодействие.
4. **Расширяемость:** Дизайн MCP поддерживает добавление в будущем новых типов контекстных плагинов, открывая бесконечные возможности для расширения возможностей LLM.

***


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/russian/question-contact/knowledge.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
