知识科普
什么是tokens?
Tokens 是 AI 模型处理文本的基本单位,可以理解为模型"思考"的最小单元。它不完全等同于我们理解的字符或单词,而是模型自己的一种特殊的文本分割方式。
1. 中文分词
一个汉字通常会被编码为 1-2 个 tokens
例如:
"你好"
≈ 2-4 tokens
2. 英文分词
常见单词通常是 1 个 token
较长或不常见的单词会被分解成多个 tokens
例如:
"hello"
= 1 token"indescribable"
= 4 tokens
3. 特殊字符
空格、标点符号等也会占用 tokens
换行符通常是 1 个 token
不同服务商的tokenizer都不一样,甚至同服务商不同模型的tokenizer也有所差别,该知识仅用于明确token的概念。
什么是 Tokenizer?
Tokenizer(分词器)是 AI 模型将文本转换为 tokens 的工具。它决定了如何把输入文本切分成模型可以理解的最小单位。
为什么不同模型的 Tokenizer 不一样?
1. 训练数据不同
不同的语料库导致优化方向不同
多语言支持程度差异
特定领域(医疗、法律等)的专门优化
2. 分词算法不同
BPE (Byte Pair Encoding) - OpenAI GPT 系列
WordPiece - Google BERT
SentencePiece - 适合多语言场景
3. 优化目标不同
有的注重压缩效率
有的注重语义保留
有的注重处理速度
实际影响
同样的文本在不同模型中的 token 数量可能不同:
什么是嵌入模型 (Embedding Model)?
基本概念: 嵌入模型是一种将高维离散数据(文本、图像等)转换为低维连续向量的技术,这种转换让机器能更好地理解和处理复杂数据。想象一下,就像把复杂的拼图简化成一个简单的坐标点,但这个点仍然保留了拼图的关键特征。在大模型生态中,它作为"翻译官",将人类可理解的信息转换为AI可计算的数字形式。
工作原理: 以自然语言处理为例,嵌入模型可以将词语映射到向量空间中的特定位置。在这个空间里,语义相近的词会自动聚集在一起。比如:
"国王"和"王后"的向量会很接近
"猫"和"狗"这样的宠物词也会距离相近
而"汽车"和"面包"这样语义无关的词则会距离较远
主要应用场景:
文本分析:文档分类、情感分析
推荐系统:个性化内容推荐
图像处理:相似图片检索
搜索引擎:语义搜索优化
核心优势:
降维效果:将复杂数据简化为易处理的向量形式
语义保持:保留原始数据中的关键语义信息
计算效率:显著提升机器学习模型的训练和推理效率
技术价值: 嵌入模型是现代AI系统的基础组件,为机器学习任务提供了高质量的数据表示,是推动自然语言处理、计算机视觉等领域发展的关键技术。
Embedding模型在知识检索中的工作原理
基本工作流程:
知识库预处理阶段
将文档分割成适当大小的chunk(文本块)
使用embedding模型将每个chunk转换为向量
将向量和原文存储到向量数据库中
查询处理阶段
将用户问题转换为向量
在向量库中检索相似内容
将检索到的相关内容作为上下文提供给LLM
最后更新于