知識科普
乜嘢係 tokens?
Tokens 係 AI 模型處理文本嘅基本單位,可以理解為模型「諗嘢」嘅最細單位。佢唔完全等同我哋理解嘅字符或詞,而係模型自己一種特殊嘅文本切割方法。
1. 中文分詞
一個漢字通常會被編碼為 1-2 個 tokens
例如:
「你好」≈ 2-4 tokens
2. 英文分詞
常見單詞通常係 1 個 token
較長或唔常見嘅單詞會被分解成多個 tokens
例如:
「hello」= 1 token「indescribable」= 4 tokens
3. 特殊字符
空格、標點符號等都會佔用 tokens
換行符通常係 1 個 token
乜嘢係 Tokenizer?
Tokenizer(分詞器)係 AI 模型將文本轉換為 tokens 嘅工具。佢決定點樣將輸入文本切割成模型可以理解嘅最細單位。
點解唔同模型嘅 Tokenizer 會唔同?
1. 訓練數據唔同
唔同嘅語料庫導致優化方向唔同
多語言支援程度有差異
針對特定領域(醫療、法律等)嘅專門優化
2. 分詞算法唔同
BPE (Byte Pair Encoding) - OpenAI GPT 系列
WordPiece - Google BERT
SentencePiece - 適合多語言場景
3. 優化目標唔同
有啲注重壓縮效率
有啲注重語義保留
有啲注重處理速度
實際影響
同樣嘅文本喺唔同模型入面嘅 token 數量可能唔同:
輸入:「Hello, world!」
GPT-3: 4 tokens
BERT: 3 tokens
Claude: 3 tokens乜嘢係嵌入模型 (Embedding Model)?
基本概念: 嵌入模型係一種將高維離散數據(文本、圖像等)轉換為低維連續向量嘅技術,呢種轉換令機器可以更好理解同處理複雜數據。想像下,就好似將複雜嘅拼圖簡化成一個簡單嘅座標點,但呢個點仍然保留咗拼圖嘅關鍵特徵。喺大模型生態度,佢好似「翻譯官」,將人類可理解嘅資訊轉做 AI 可計算嘅數字形式。
工作原理: 以自然語言處理為例,嵌入模型可以將詞語映射到向量空間中嘅特定位置。喺呢個空間入面,語義相近嘅詞會自動聚埋一齊。例如:
「國王」同「王后」嘅向量會好接近
「貓」同「狗」呢啲寵物詞亦會距離相近
而「汽車」同「麵包」呢啲語義無關嘅詞就會距離較遠
主要應用場景:
文本分析:文件分類、情感分析
推薦系統:個性化內容推薦
圖像處理:相似圖片檢索
搜索引擎:語義搜索優化
核心優勢:
降維效果:將複雜數據簡化為易處理嘅向量形式
語義保留:保留原始數據入面嘅關鍵語義資訊
計算效率:顯著提升機器學習模型嘅訓練同推理效率
技術價值: 嵌入模型係現代 AI 系統嘅基礎組件,為機器學習任務提供高質量嘅數據表示,係推動自然語言處理、計算機視覺等領域發展嘅關鍵技術。
Embedding 模型喺知識檢索中嘅工作原理
基本工作流程:
知識庫預處理階段
將文檔分割成適當大細嘅 chunk(文本塊)
使用 embedding 模型將每個 chunk 轉換為向量
將向量同原文存儲到向量數據庫中
查詢處理階段
將用戶問題轉換為向量
喺向量庫中檢索相似內容
將檢索到嘅相關內容作為上下文提供俾 LLM
乜嘢係 MCP(Model Context Protocol)?
MCP 係一種開源協議,旨喺以標準化嘅方式向大型語言模型(LLM)提供上下文資訊。
類比理解: 可以將 MCP 想像成 AI 領域嘅「U 盤」。我哋知道,U 盤可以儲存各種檔案,插入電腦之後就可以直接使用。類似咁,喺 MCP Server 上可以「插」上各種提供上下文嘅「插件」,LLM 可以根據需要向 MCP Server 請求呢啲插件,從而獲取更豐富嘅上下文資訊,增強自身能力。
與 Function Tool 嘅對比: 傳統嘅 Function Tool(函數工具)都可以為 LLM 提供外部功能,但 MCP 更似一種更高維度嘅抽象。Function Tool 更多係針對具體任務嘅工具,而 MCP 則提供咗一種更通用、模組化嘅上下文獲取機制。
MCP 嘅核心優勢
標準化: MCP 提供咗統一嘅接口同數據格式,使唔同嘅 LLM 同上下文提供者可以無縫協作。
模組化: MCP 允許開發者將上下文資訊分解為獨立嘅模塊(插件),方便管理同重用。
靈活性: LLM 可以根據自身需求動態選擇所需嘅上下文插件,實現更智能、更個性化嘅互動。
可擴展性: MCP 嘅設計支援將來添加更多類型嘅上下文插件,為 LLM 嘅能力擴展提供無限可能。
Last updated
Was this helpful?