知識庫數據
本頁面係俾想了解知識庫底層運作機制嘅用戶睇嘅。若果只係需要使用知識庫,可直接參考 知識庫教程。
核心原理
加入知識庫嘅文件會被切分成細片段 → 由嵌入模型轉做數字向量 → 存入本地資料庫。提問嗰陣,知識庫會將問題轉換做同類向量,檢索最相似嘅片段,並將呢啲片段提供俾對話模型作為上下文。

再詳細啲
入庫前嘅準備
文件(PDF、Word、網頁等)先經過 文件預處理(OCR 等),變成純文字
純文字會被切成 200-500 字左右嘅細片段(chunk),方便檢索
嵌入與儲存
每個片段交俾 嵌入模型 處理,得到一組數字(向量)
呢啲數字 + 原文片段都存喺 Cherry Studio 本地嘅資料庫入面(基於開源嘅 libSQL)
查詢
你提問嘅時候,問題文字同樣會被嵌入模型轉成數字
系統搵出「同問題數字最似」嘅若干片段
呢啲片段連同問題一齊送俾對話模型,由佢生成最終答案
數據儲存位置
所有數據都保存在本地,唔會上傳到雲端(如果所用嘅嵌入模型本身係雲服務,文字片段會喺嵌入處理過程中短暫經過該服務)。
macOS:
~/Library/Application Support/CherryStudioWindows:
%APPDATA%\CherryStudioLinux:
~/.config/CherryStudio
數據私隱建議
如果資料涉及敏感資訊(合約、醫療、內部代碼等):
對話模型同樣建議揀本地部署
可以配合 修改儲存位置 將數據存放喺加密磁碟
延伸閱讀
向量資料庫(libSQL / Turso):https://turso.tech/libsql
嵌入與檢索增強生成:可查閱「vector embedding」、「RAG」相關資料
💡 獲取幫助同提交反饋
如果您喺配置或使用過程中遇到任何疑問、Bug 或有功能改進建議,請參考 反饋同建議 入面提供嘅官方渠道。
最後更新
呢個有冇幫助?