知識科普

乜嘢係 tokens？

Tokens 係 AI 模型處理文本嘅基本單位，可以理解為模型「諗嘢」嘅最細單位。佢唔完全等同我哋理解嘅字符或詞，而係模型自己一種特殊嘅文本切割方法。

1. 中文分詞

一個漢字通常會被編碼為 1-2 個 tokens
例如：「你好」 ≈ 2-4 tokens

2. 英文分詞

常見單詞通常係 1 個 token
較長或唔常見嘅單詞會被分解成多個 tokens
例如：
- 「hello」 = 1 token
- 「indescribable」 = 4 tokens

3. 特殊字符

空格、標點符號等都會佔用 tokens
換行符通常係 1 個 token

唔同服務商嘅 Tokenizer 都唔一樣，甚至同一服務商唔同模型嘅 Tokenizer 都有差別，以上資訊只係用嚟釐清 token 呢個概念。

乜嘢係 Tokenizer？

Tokenizer（分詞器）係 AI 模型將文本轉換為 tokens 嘅工具。佢決定點樣將輸入文本切割成模型可以理解嘅最細單位。

點解唔同模型嘅 Tokenizer 會唔同？

1. 訓練數據唔同

唔同嘅語料庫導致優化方向唔同
多語言支援程度有差異
針對特定領域（醫療、法律等）嘅專門優化

2. 分詞算法唔同

BPE (Byte Pair Encoding) - OpenAI GPT 系列
WordPiece - Google BERT
SentencePiece - 適合多語言場景

3. 優化目標唔同

有啲注重壓縮效率
有啲注重語義保留
有啲注重處理速度

實際影響

同樣嘅文本喺唔同模型入面嘅 token 數量可能唔同：

輸入：「Hello, world!」
GPT-3: 4 tokens
BERT: 3 tokens
Claude: 3 tokens

乜嘢係嵌入模型 (Embedding Model)?

基本概念： 嵌入模型係一種將高維離散數據（文本、圖像等）轉換為低維連續向量嘅技術，呢種轉換令機器可以更好理解同處理複雜數據。想像下，就好似將複雜嘅拼圖簡化成一個簡單嘅座標點，但呢個點仍然保留咗拼圖嘅關鍵特徵。喺大模型生態度，佢好似「翻譯官」，將人類可理解嘅資訊轉做 AI 可計算嘅數字形式。

工作原理： 以自然語言處理為例，嵌入模型可以將詞語映射到向量空間中嘅特定位置。喺呢個空間入面，語義相近嘅詞會自動聚埋一齊。例如：

「國王」同「王后」嘅向量會好接近
「貓」同「狗」呢啲寵物詞亦會距離相近
而「汽車」同「麵包」呢啲語義無關嘅詞就會距離較遠

主要應用場景：

文本分析：文件分類、情感分析
推薦系統：個性化內容推薦
圖像處理：相似圖片檢索
搜索引擎：語義搜索優化

核心優勢：

降維效果：將複雜數據簡化為易處理嘅向量形式
語義保留：保留原始數據入面嘅關鍵語義資訊
計算效率：顯著提升機器學習模型嘅訓練同推理效率

技術價值： 嵌入模型係現代 AI 系統嘅基礎組件，為機器學習任務提供高質量嘅數據表示，係推動自然語言處理、計算機視覺等領域發展嘅關鍵技術。

Embedding 模型喺知識檢索中嘅工作原理

基本工作流程：

知識庫預處理階段

將文檔分割成適當大細嘅 chunk（文本塊）
使用 embedding 模型將每個 chunk 轉換為向量
將向量同原文存儲到向量數據庫中

查詢處理階段

將用戶問題轉換為向量
喺向量庫中檢索相似內容
將檢索到嘅相關內容作為上下文提供俾 LLM

乜嘢係 MCP（Model Context Protocol）？

MCP 係一種開源協議，旨喺以標準化嘅方式向大型語言模型（LLM）提供上下文資訊。

類比理解： 可以將 MCP 想像成 AI 領域嘅「U 盤」。我哋知道，U 盤可以儲存各種檔案，插入電腦之後就可以直接使用。類似咁，喺 MCP Server 上可以「插」上各種提供上下文嘅「插件」，LLM 可以根據需要向 MCP Server 請求呢啲插件，從而獲取更豐富嘅上下文資訊，增強自身能力。
與 Function Tool 嘅對比： 傳統嘅 Function Tool（函數工具）都可以為 LLM 提供外部功能，但 MCP 更似一種更高維度嘅抽象。Function Tool 更多係針對具體任務嘅工具，而 MCP 則提供咗一種更通用、模組化嘅上下文獲取機制。

MCP 嘅核心優勢

標準化： MCP 提供咗統一嘅接口同數據格式，使唔同嘅 LLM 同上下文提供者可以無縫協作。
模組化： MCP 允許開發者將上下文資訊分解為獨立嘅模塊（插件），方便管理同重用。
靈活性： LLM 可以根據自身需求動態選擇所需嘅上下文插件，實現更智能、更個性化嘅互動。
可擴展性： MCP 嘅設計支援將來添加更多類型嘅上下文插件，為 LLM 嘅能力擴展提供無限可能。

Previous如何高效提問 Next反饋 & 建議

Last updated 6 months ago

Was this helpful?

Good evening