語音功能
呢個功能因為相關開發者無再繼續維護 PR 而擱置咗。
Cherry Studio 語音功能使用說明
一、語音功能概述
Cherry Studio 提供咗三大語音功能模組:TTS(文字轉語音)、ASR(語音識別)同語音通話。呢啲功能可以令你透過語音同 AI 自然交流,提升使用體驗。
TTS(文字轉語音):將 AI 回覆嘅文字轉換成語音輸出
ASR(語音識別):將你嘅語音轉換成文字輸入
語音通話:結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗
二、TTS(文字轉語音)功能
支援嘅服務類型
Cherry Studio 支援四種 TTS 服務類型:
OpenAI:使用 OpenAI 嘅 TTS API,需要 API 金鑰
瀏覽器 TTS:使用瀏覽器內置嘅語音合成功能,免費唔使配置
硅基流動:使用硅基流動(Siliconflow)嘅 TTS 服務,需要 API 金鑰
免費在線 TTS:使用免費嘅在線 TTS 服務,唔使 API 金鑰
設定方法
入去設定頁面,揀「語音功能」分頁
喺「TTS」子分頁入面:
啟用 TTS 功能(撳開開關)
揀 TTS 服務類型
根據所揀嘅服務類型,設定相應參數:
OpenAI:填寫 API 金鑰、API 地址、揀音色同模型
瀏覽器 TTS:揀音色
硅基流動:填寫 API 金鑰、API 地址、揀音色、模型、回應格式同語速
免費在線 TTS:揀音色同輸出格式
設定 TTS 過濾選項(可選):
過濾思考過程
過濾 Markdown 標記
過濾程式碼區塊
設定係咪顯示 TTS 進度條
撳「測試 TTS」按鈕測試設定係咪正確
使用方法
啟用 TTS 功能之後,AI 嘅回覆會自動轉換成語音輸出
喺聊天界面入面,每條 AI 回覆下面都會顯示 TTS 播放按鈕
撳播放按鈕可以播放/暫停語音
如果啟用咗 TTS 進度條,會喺文字下方顯示播放進度
長文字會自動分段合成並連續播放
三、ASR(語音識別)功能
支援嘅服務類型
Cherry Studio 支援三種 ASR 服務類型:
OpenAI:使用 OpenAI 嘅 Whisper 模型,需要 API 金鑰
瀏覽器:使用瀏覽器內置嘅語音識別功能,免費唔使配置
本地伺服器:連接到本地 WebSocket 伺服器進行語音識別
設定方法
入去設定頁面,揀「語音功能」分頁
喺「ASR」子分頁入面:
啟用 ASR 功能(撳開開關)
揀 ASR 服務類型
根據所揀嘅服務類型,設定相應參數:
OpenAI:填寫 API 金鑰、API 地址、揀模型
瀏覽器:唔使額外配置
本地伺服器:可以設定應用程式啟動時係咪自動啟動 ASR 伺服器
揀語音識別語言(預設係中文)
撳「測試 ASR」按鈕測試設定係咪正確
使用方法
啟用 ASR 功能之後,喺輸入框旁邊會顯示語音識別按鈕
撳語音識別按鈕開始錄音
講嘢之後,語音會轉成文字並填入輸入框
再撳一次按鈕結束錄音
語音識別支援連續識別多句說話,採用累加模式
四、語音通話功能
功能特點
結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗
使用可以拖動嘅浮動窗口界面
支援長按說話模式
支援自訂快捷鍵
支援窗口摺疊
可以揀專門嘅語音通話模型
支援自訂提示詞
設定方法
入去設定頁面,揀「語音功能」分頁
喺「通話功能」子分頁入面:
啟用語音通話功能(撳開開關)
撳「選擇模型」按鈕,揀用嚟語音通話嘅 AI 模型
喺提示詞文字框入面自訂語音通話提示詞(可選)
撳「保存」按鈕保存提示詞,或者撳「重置」按鈕恢復預設提示詞
使用方法
喺聊天界面入面,撳輸入框右側嘅語音通話按鈕(電話圖示)
語音通話窗口會打開,並播放歡迎語音
長按「長按說話」按鈕開始錄音(或者使用設定咗嘅快捷鍵)
放開按鈕結束錄音並發送俾 AI 處理
AI 生成回覆並透過 TTS 播放
使用窗口入面嘅控制按鈕:
靜音/取消靜音按鈕:控制 TTS 輸出
暫停/繼續按鈕:暫停或者繼續對話
設定按鈕:配置快捷鍵
摺疊按鈕:摺疊窗口,只保留長按說話嗰一行
撳關閉按鈕結束通話
快捷鍵設定
喺語音通話窗口入面,撳設定按鈕
喺彈出嘅設定面板入面,撳快捷鍵按鈕
撳你想設定嘅按鍵(例如空格鍵、Shift 鍵等)
撳「保存」按鈕保存設定
使用時,按住設定嘅快捷鍵開始錄音,放手結束錄音並發送
五、常見問題同解決方案
TTS 相關問題
問題:TTS 播放唔到聲音 解決方案:檢查係咪已經啟用 TTS 功能,確保揀咗正確嘅服務類型同配置咗必要參數
問題:TTS 播放質素唔好 解決方案:試下轉用唔同嘅 TTS 服務類型或者音色
問題:TTS 播放時顯示錯誤信息 解決方案:檢查 API 金鑰係咪正確,網絡連線係咪正常
ASR 相關問題
問題:ASR 認唔到語音 解決方案:檢查係咪已經啟用 ASR 功能,確保揀咗正確嘅服務類型同配置咗必要參數
問題:ASR 識別準確率低 解決方案:試下轉用唔同嘅 ASR 服務類型,或者調整麥克風位置同音量
問題:ASR 伺服器連線失敗 解決方案:檢查本地伺服器係咪正常運行,或者試下重新啟動應用
語音通話相關問題
問題:語音通話窗口打唔開 解決方案:檢查係咪已經啟用語音通話功能,確保 TTS 同 ASR 功能配置正確
問題:長按說話冇反應 解決方案:檢查麥克風權限係咪已經授予,或者試下重新啟動語音通話
問題:AI 回覆冇語音輸出 解決方案:檢查係咪已經啟用 TTS 功能,確保冇靜音
六、高級設定同自訂選項
TTS 高級設定
過濾選項:可以揀過濾思考過程、Markdown 標記同程式碼區塊,令 TTS 播放更流暢
進度條顯示:可以揀係咪顯示 TTS 進度條
自訂音色同模型:可以加自訂嘅音色同模型選項
ASR 高級設定
自動啟動伺服器:可以設定應用啟動時係咪自動啟動 ASR 伺服器
語言選擇:可以揀唔同嘅語音識別語言
語音通話高級設定
自訂提示詞:可以自訂語音通話提示詞,指導 AI 喺語音通話模式下嘅回覆方式
專用模型選擇:可以為語音通話揀專門嘅 AI 模型,將佢同而家對話用緊嘅模型分開
快捷鍵自訂:可以設定自訂快捷鍵嚟控制錄音
七、使用建議
揀合適嘅 TTS 服務:
如果追求高質素語音,推薦使用 OpenAI 或硅基流動
如果唔想配置 API,可以使用瀏覽器 TTS 或免費在線 TTS
揀合適嘅 ASR 服務:
如果追求高準確率,推薦使用 OpenAI
如果唔想配置 API,可以使用瀏覽器內置嘅語音識別
優化語音通話體驗:
使用耳機可以避免 TTS 輸出畀 ASR 再次捕捉到
喺安靜嘅環境中使用可以提高識別準確率
使用自訂提示詞可以令 AI 回覆更適合語音播放
根據需求調整設定:
如果主要使用文字交流,可以只啟用 TTS 功能
如果主要使用語音輸入,可以只啟用 ASR 功能
如果需要完整嘅語音對話體驗,啟用語音通話功能
希望呢份使用說明可以幫到你充分利用 Cherry Studio 嘅語音功能,享受更自然、方便嘅 AI 互動體驗!
Last updated
Was this helpful?