# 知識科普

## 咩係 tokens？

Tokens 係 AI 模型處理文本嘅基本單位，可以理解做模型「諗嘢」嘅最細單元。佢唔完全等同於我哋理解嘅字元或者單詞，而係模型自己一種特別嘅文本分割方式。

#### 1. 中文分詞

* 一個漢字通常會被編碼做 1-2 個 tokens
* 例如：`「你好」` ≈ 2-4 tokens

#### 2. 英文分詞

* 常見單詞通常係 1 個 token
* 較長或者唔常見嘅單詞會被拆分成多個 tokens
* 例如：
  * `「hello」` = 1 token
  * `「indescribable」` = 4 tokens

#### 3. 特殊字符

* 空格、標點符號等都會佔用 tokens
* 換行符通常係 1 個 token

{% hint style="info" %}
唔同服務商嘅 Tokenizer 都唔一樣，甚至同一服務商唔同模型嘅 Tokenizer 都會有差別，呢個知識只係用嚟明確 token 嘅概念。
{% endhint %}

***

## 咩係 Tokenizer？

Tokenizer（分詞器）係 AI 模型將文本轉換成 tokens 嘅工具。佢決定咗點樣將輸入文本切分成模型可以理解嘅最細單位。

### 點解唔同模型嘅 Tokenizer 唔一樣？

#### 1. 訓練數據唔同

* 唔同嘅語料庫導致優化方向唔同
* 多語言支援程度有差異
* 特定領域（醫療、法律等）有專門優化

#### 2. 分詞算法唔同

* BPE（Byte Pair Encoding）- OpenAI GPT 系列
* WordPiece - Google BERT
* SentencePiece - 適合多語言場景

#### 3. 優化目標唔同

* 有啲注重壓縮效率
* 有啲注重語義保留
* 有啲注重處理速度

### 實際影響

同樣嘅文本喺唔同模型入面嘅 token 數量可能唔同：

```
輸入：「Hello, world!」
GPT-3: 4 tokens
BERT: 3 tokens
Claude: 3 tokens
```

***

## 咩係嵌入模型（Embedding Model）？

**基本概念：** 嵌入模型係一種將高維離散數據（文本、圖像等）轉換成低維連續向量嘅技術，呢種轉換令機器可以更好咁理解同處理複雜數據。你可以想像成，好似將複雜嘅拼圖簡化成一個簡單嘅座標點，但呢個點仍然保留咗拼圖嘅關鍵特徵。喺大模型生態入面，佢扮演住「翻譯官」嘅角色，將人類可理解嘅資訊轉換成 AI 可計算嘅數字形式。

**工作原理：** 以自然語言處理為例，嵌入模型可以將詞語映射到向量空間入面嘅特定位置。喺呢個空間裡面，語義接近嘅詞會自動聚埋一齊。比如：

* 「國王」同「王后」嘅向量會好接近
* 「貓」同「狗」呢類寵物詞都會距離相近
* 而「汽車」同「麵包」呢類語義無關嘅詞就會距離較遠

**主要應用場景：**

* 文本分析：文件分類、情感分析
* 推薦系統：個性化內容推薦
* 圖像處理：相似圖片檢索
* 搜索引擎：語義搜索優化

**核心優勢：**

1. 降維效果：將複雜數據簡化為易處理嘅向量形式
2. 語義保留：保留原始數據入面嘅關鍵語義資訊
3. 計算效率：顯著提升機器學習模型嘅訓練同推理效率

**技術價值：** 嵌入模型係現代 AI 系統嘅基礎組件，為機器學習任務提供高質量嘅數據表示，係推動自然語言處理、計算機視覺等領域發展嘅關鍵技術。

***

## Embedding 模型喺知識檢索中嘅工作原理

**基本工作流程：**

1. **知識庫預處理階段**

* 將文件分割成適當大小嘅 chunk（文本塊）
* 使用 embedding 模型將每個 chunk 轉換為向量
* 將向量同原文存入向量數據庫中

2. **查詢處理階段**

* 將用戶問題轉換為向量
* 喺向量庫中檢索相似內容
* 將檢索到嘅相關內容作為上下文提供畀 LLM

***

## **咩係 MCP（Model Context Protocol）？**

MCP 係一種開源協議，旨在以標準化嘅方式向大型語言模型（LLM）提供上下文資訊。

* **類比理解：** 可以將 MCP 想像成 AI 領域嘅「U盤」。我哋知道，U盤可以儲存各種文件，插入電腦之後就可以直接使用。類似地，MCP Server 上可以「插」上各種提供上下文嘅「插件」，LLM 可以根據需要向 MCP Server 請求呢啲插件，從而獲取更豐富嘅上下文資訊，增強自身能力。
* **同 Function Tool 嘅對比：** 傳統嘅 Function Tool（函數工具）都可以為 LLM 提供外部功能，但 MCP 更似係一種更高維度嘅抽象。Function Tool 更多係針對具體任務嘅工具，而 MCP 就提供咗一種更通用、模組化嘅上下文獲取機制。

### **MCP 嘅核心優勢**

1. **標準化：** MCP 提供咗統一嘅介面同數據格式，令唔同嘅 LLM 同上下文提供者可以無縫協作。
2. **模組化：** MCP 允許開發者將上下文資訊拆分成獨立嘅模組（插件），方便管理同重用。
3. **彈性：** LLM 可以根據自身需求動態選擇所需嘅上下文插件，實現更智能、更個性化嘅互動。
4. **可擴展性：** MCP 嘅設計支援未來加入更多類型嘅上下文插件，為 LLM 能力擴展提供無限可能。

***


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/zhong-wen-fan-ti/question-contact/knowledge.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
