語音功能
呢個功能因為相關開發者冇繼續維護 PR 而擱置。
Cherry Studio 語音功能使用說明
一、語音功能概述
Cherry Studio 提供三大語音功能模組:TTS(文本轉語音)、ASR(語音識別)同語音通話。呢啲功能令你可以用語音同 AI 進行自然交流,提升使用體驗。
TTS(文本轉語音):將 AI 回覆嘅文本轉換成語音輸出
ASR(語音識別):將你嘅語音轉換為文本輸入
語音通話:結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗
二、TTS(文本轉語音)功能
支持嘅服務類型
Cherry Studio 支援四種 TTS 服務類型:
OpenAI:使用 OpenAI 嘅 TTS API,需要 API 密鑰
瀏覽器 TTS:使用瀏覽器內置嘅語音合成功能,免費無需配置
硅基流動:使用硅基流動(Siliconflow)嘅 TTS 服務,需要 API 密鑰
免費在線 TTS:使用免費嘅在線 TTS 服務,無需 API 密鑰
設定方法
進入設定頁面,選擇「語音功能」分頁
喺「TTS」子分頁中:
啟用 TTS 功能(打開開關)
選擇 TTS 服務類型
根據所選嘅服務類型,配置相應參數:
OpenAI:填寫 API 密鑰、API 地址、選擇音色同模型
瀏覽器 TTS:選擇音色
硅基流動:填寫 API 密鑰、API 地址、選擇音色、模型、響應格式同語速
免費在線 TTS:選擇音色同輸出格式
配置 TTS 過濾選項(可選):
過濾思考過程
過濾 Markdown 標記
過濾程式碼區塊
設定是否顯示 TTS 進度條
點擊「測試 TTS」按鈕測試配置是否正確
使用方法
啟用 TTS 功能後,AI 嘅回覆會自動轉換成語音輸出
喺聊天介面中,每條 AI 回覆下方會顯示 TTS 播放按鈕
點擊播放按鈕可以播放/暫停語音
如果啟用了 TTS 進度條,會喺文本下方顯示播放進度
長文本會自動分段合成並連續播放
三、ASR(語音識別)功能
支持嘅服務類型
Cherry Studio 支援三種 ASR 服務類型:
OpenAI:使用 OpenAI 嘅 Whisper 模型,需要 API 密鑰
瀏覽器:使用瀏覽器內置嘅語音識別功能,免費無需配置
本地伺服器:連接到本地 WebSocket 伺服器進行語音識別
設定方法
進入設定頁面,選擇「語音功能」分頁
喺「ASR」子分頁中:
啟用 ASR 功能(打開開關)
選擇 ASR 服務類型
根據所選嘅服務類型,配置相應參數:
OpenAI:填寫 API 密鑰、API 地址、選擇模型
瀏覽器:無需額外配置
本地伺服器:可以設定是否喺應用啟動時自動啟動 ASR 伺服器
選擇語音識別語言(預設為中文)
點擊「測試 ASR」按鈕測試配置是否正確
使用方法
啟用 ASR 功能後,喺輸入框旁邊會顯示語音識別按鈕
點擊語音識別按鈕開始錄音
講嘢之後,語音會被轉換為文本並填入輸入框
再次點擊按鈕結束錄音
語音識別支持連續識別多句話,採用累加模式
四、語音通話功能
功能特點
結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗
使用可拖動嘅浮動視窗介面
支持長按講嘢模式
支持自定義快捷鍵
支持視窗摺疊
可以選擇專用嘅語音通話模型
支持自定義提示詞
設定方法
進入設定頁面,選擇「語音功能」分頁
喺「通話功能」子分頁中:
啟用語音通話功能(打開開關)
點擊「選擇模型」按鈕,選擇用於語音通話嘅 AI 模型
喺提示詞文本框中自定義語音通話提示詞(可選)
點擊「保存」按鈕保存提示詞,或者點擊「重置」按鈕恢復預設提示詞
使用方法
喺聊天介面中,點擊輸入框右側嘅語音通話按鈕(電話圖示)
語音通話視窗會打開,並播放歡迎語音
長按「長按說話」按鈕開始錄音(或使用設定嘅快捷鍵)
放開按鈕結束錄音並傳送俾 AI 處理
AI 生成回覆並透過 TTS 播放
使用視窗中嘅控制按鈕:
靜音/取消靜音按鈕:控制 TTS 輸出
暫停/繼續按鈕:暫停或繼續對話
設定按鈕:配置快捷鍵
摺疊按鈕:摺疊視窗,只保留長按說話嗰一行
點擊關閉按鈕結束通話
快捷鍵設定
喺語音通話視窗中,點擊設定按鈕
喺彈出嘅設定面板中,點擊快捷鍵按鈕
按下你想要設定嘅鍵(例如空格鍵、Shift 鍵等)
點擊「保存」按鈕保存設定
使用時,按住設定嘅快捷鍵開始錄音,放開結束錄音並傳送
五、常見問題同解決方案
TTS 相關問題
問題:TTS 無法播放聲音 解決方案:檢查是否啟用了 TTS 功能,確保選擇咗正確嘅服務類型同配置咗必要嘅參數
問題:TTS 播放質量唔好 解決方案:嘗試更換唔同嘅 TTS 服務類型或者音色
問題:TTS 播放時顯示錯誤信息 解決方案:檢查 API 密鑰是否正確,網絡連接是否正常
ASR 相關問題
問題:ASR 無法識別語音 解決方案:檢查是否啟用了 ASR 功能,確保選擇咗正確嘅服務類型同配置咗必要嘅參數
問題:ASR 識別準確率低 解決方案:嘗試更換唔同嘅 ASR 服務類型,或者調整咪高峰位置同音量
問題:ASR 伺服器連接失敗 解決方案:檢查本地伺服器是否正常運行,或者嘗試重啟應用程式
語音通話相關問題
問題:語音通話視窗無法打開 解決方案:檢查是否啟用了語音通話功能,確保 TTS 同 ASR 功能配置正確
問題:長按講嘢冇反應 解決方案:檢查咪高峰權限是否已授予,或者嘗試重新啟動語音通話
問題:AI 回覆冇語音輸出 解決方案:檢查是否啟用了 TTS 功能,確保冇靜音
六、高級設定同自定義選項
TTS 高級設定
過濾選項:可以選擇過濾思考過程、Markdown 標記同程式碼區塊,令 TTS 播放更順暢
進度條顯示:可以選擇是否顯示 TTS 進度條
自定義音色同模型:可以新增自定義嘅音色同模型選項
ASR 高級設定
自動啟動伺服器:可以設定應用啟動時是否自動啟動 ASR 伺服器
語言選擇:可以選擇唔同嘅語音識別語言
語音通話高級設定
自定義提示詞:可以自定義語音通話提示詞,指導 AI 喺語音通話模式下嘅回覆方式
專用模型選擇:可以為語音通話揀專門嘅 AI 模型,同目前對話用嘅模型分開
快捷鍵自定義:可以設定自定義快捷鍵嚟控制錄音
七、使用建議
選擇合適嘅 TTS 服務:
如果追求高質量語音,建議使用 OpenAI 或硅基流動
如果唔想配置 API,可以使用瀏覽器 TTS 或免費在線 TTS
選擇合適嘅 ASR 服務:
如果追求高準確率,建議使用 OpenAI
如果唔想配置 API,可以使用瀏覽器內置嘅語音識別
優化語音通話體驗:
使用耳機可以避免 TTS 輸出被 ASR 再次捕捉
喺安靜嘅環境中使用可以提高識別準確率
使用自定義提示詞可以令 AI 回覆更適合語音播放
根據需求調整設定:
如果主要使用文本交流,可以只啟用 TTS 功能
如果主要使用語音輸入,可以只啟用 ASR 功能
如果需要完整嘅語音對話體驗,啟用語音通話功能
希望呢份使用說明可以幫到你充分利用 Cherry Studio 嘅語音功能,享受更自然、方便嘅 AI 互動體驗!
Last updated
Was this helpful?