phone-arrow-up-right語音功能

circle-exclamation

Cherry Studio 語音功能使用說明

一、語音功能概述

Cherry Studio 提供咗三大語音功能模組:TTS(文字轉語音)、ASR(語音識別)同語音通話。呢啲功能可以令你透過語音同 AI 自然交流,提升使用體驗。

  • TTS(文字轉語音):將 AI 回覆嘅文字轉換成語音輸出

  • ASR(語音識別):將你嘅語音轉換成文字輸入

  • 語音通話:結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗

二、TTS(文字轉語音)功能

  1. 支援嘅服務類型

Cherry Studio 支援四種 TTS 服務類型:

  • OpenAI:使用 OpenAI 嘅 TTS API,需要 API 金鑰

  • 瀏覽器 TTS:使用瀏覽器內置嘅語音合成功能,免費唔使配置

  • 硅基流動:使用硅基流動(Siliconflow)嘅 TTS 服務,需要 API 金鑰

  • 免費在線 TTS:使用免費嘅在線 TTS 服務,唔使 API 金鑰

  1. 設定方法

  2. 入去設定頁面,揀「語音功能」分頁

  3. 喺「TTS」子分頁入面:

    • 啟用 TTS 功能(撳開開關)

    • 揀 TTS 服務類型

    • 根據所揀嘅服務類型,設定相應參數:

      • OpenAI:填寫 API 金鑰、API 地址、揀音色同模型

      • 瀏覽器 TTS:揀音色

      • 硅基流動:填寫 API 金鑰、API 地址、揀音色、模型、回應格式同語速

      • 免費在線 TTS:揀音色同輸出格式

  4. 設定 TTS 過濾選項(可選):

    • 過濾思考過程

    • 過濾 Markdown 標記

    • 過濾程式碼區塊

  5. 設定係咪顯示 TTS 進度條

  6. 撳「測試 TTS」按鈕測試設定係咪正確

  7. 使用方法

  • 啟用 TTS 功能之後,AI 嘅回覆會自動轉換成語音輸出

  • 喺聊天界面入面,每條 AI 回覆下面都會顯示 TTS 播放按鈕

  • 撳播放按鈕可以播放/暫停語音

  • 如果啟用咗 TTS 進度條,會喺文字下方顯示播放進度

  • 長文字會自動分段合成並連續播放

三、ASR(語音識別)功能

  1. 支援嘅服務類型

Cherry Studio 支援三種 ASR 服務類型:

  • OpenAI:使用 OpenAI 嘅 Whisper 模型,需要 API 金鑰

  • 瀏覽器:使用瀏覽器內置嘅語音識別功能,免費唔使配置

  • 本地伺服器:連接到本地 WebSocket 伺服器進行語音識別

  1. 設定方法

  2. 入去設定頁面,揀「語音功能」分頁

  3. 喺「ASR」子分頁入面:

    • 啟用 ASR 功能(撳開開關)

    • 揀 ASR 服務類型

    • 根據所揀嘅服務類型,設定相應參數:

      • OpenAI:填寫 API 金鑰、API 地址、揀模型

      • 瀏覽器:唔使額外配置

      • 本地伺服器:可以設定應用程式啟動時係咪自動啟動 ASR 伺服器

    • 揀語音識別語言(預設係中文)

  4. 撳「測試 ASR」按鈕測試設定係咪正確

  5. 使用方法

  • 啟用 ASR 功能之後,喺輸入框旁邊會顯示語音識別按鈕

  • 撳語音識別按鈕開始錄音

  • 講嘢之後,語音會轉成文字並填入輸入框

  • 再撳一次按鈕結束錄音

  • 語音識別支援連續識別多句說話,採用累加模式

四、語音通話功能

  1. 功能特點

  • 結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗

  • 使用可以拖動嘅浮動窗口界面

  • 支援長按說話模式

  • 支援自訂快捷鍵

  • 支援窗口摺疊

  • 可以揀專門嘅語音通話模型

  • 支援自訂提示詞

  1. 設定方法

  2. 入去設定頁面,揀「語音功能」分頁

  3. 喺「通話功能」子分頁入面:

    • 啟用語音通話功能(撳開開關)

    • 撳「選擇模型」按鈕,揀用嚟語音通話嘅 AI 模型

    • 喺提示詞文字框入面自訂語音通話提示詞(可選)

    • 撳「保存」按鈕保存提示詞,或者撳「重置」按鈕恢復預設提示詞

  4. 使用方法

  5. 喺聊天界面入面,撳輸入框右側嘅語音通話按鈕(電話圖示)

  6. 語音通話窗口會打開,並播放歡迎語音

  7. 長按「長按說話」按鈕開始錄音(或者使用設定咗嘅快捷鍵)

  8. 放開按鈕結束錄音並發送俾 AI 處理

  9. AI 生成回覆並透過 TTS 播放

  10. 使用窗口入面嘅控制按鈕:

    • 靜音/取消靜音按鈕:控制 TTS 輸出

    • 暫停/繼續按鈕:暫停或者繼續對話

    • 設定按鈕:配置快捷鍵

    • 摺疊按鈕:摺疊窗口,只保留長按說話嗰一行

  11. 撳關閉按鈕結束通話

  12. 快捷鍵設定

  13. 喺語音通話窗口入面,撳設定按鈕

  14. 喺彈出嘅設定面板入面,撳快捷鍵按鈕

  15. 撳你想設定嘅按鍵(例如空格鍵、Shift 鍵等)

  16. 撳「保存」按鈕保存設定

  17. 使用時,按住設定嘅快捷鍵開始錄音,放手結束錄音並發送

五、常見問題同解決方案

  1. TTS 相關問題

  • 問題:TTS 播放唔到聲音 解決方案:檢查係咪已經啟用 TTS 功能,確保揀咗正確嘅服務類型同配置咗必要參數

  • 問題:TTS 播放質素唔好 解決方案:試下轉用唔同嘅 TTS 服務類型或者音色

  • 問題:TTS 播放時顯示錯誤信息 解決方案:檢查 API 金鑰係咪正確,網絡連線係咪正常

  1. ASR 相關問題

  • 問題:ASR 認唔到語音 解決方案:檢查係咪已經啟用 ASR 功能,確保揀咗正確嘅服務類型同配置咗必要參數

  • 問題:ASR 識別準確率低 解決方案:試下轉用唔同嘅 ASR 服務類型,或者調整麥克風位置同音量

  • 問題:ASR 伺服器連線失敗 解決方案:檢查本地伺服器係咪正常運行,或者試下重新啟動應用

  1. 語音通話相關問題

  • 問題:語音通話窗口打唔開 解決方案:檢查係咪已經啟用語音通話功能,確保 TTS 同 ASR 功能配置正確

  • 問題:長按說話冇反應 解決方案:檢查麥克風權限係咪已經授予,或者試下重新啟動語音通話

  • 問題:AI 回覆冇語音輸出 解決方案:檢查係咪已經啟用 TTS 功能,確保冇靜音

六、高級設定同自訂選項

  1. TTS 高級設定

  • 過濾選項:可以揀過濾思考過程、Markdown 標記同程式碼區塊,令 TTS 播放更流暢

  • 進度條顯示:可以揀係咪顯示 TTS 進度條

  • 自訂音色同模型:可以加自訂嘅音色同模型選項

  1. ASR 高級設定

  • 自動啟動伺服器:可以設定應用啟動時係咪自動啟動 ASR 伺服器

  • 語言選擇:可以揀唔同嘅語音識別語言

  1. 語音通話高級設定

  • 自訂提示詞:可以自訂語音通話提示詞,指導 AI 喺語音通話模式下嘅回覆方式

  • 專用模型選擇:可以為語音通話揀專門嘅 AI 模型,將佢同而家對話用緊嘅模型分開

  • 快捷鍵自訂:可以設定自訂快捷鍵嚟控制錄音

七、使用建議

  1. 揀合適嘅 TTS 服務:

    • 如果追求高質素語音,推薦使用 OpenAI 或硅基流動

    • 如果唔想配置 API,可以使用瀏覽器 TTS 或免費在線 TTS

  2. 揀合適嘅 ASR 服務:

    • 如果追求高準確率,推薦使用 OpenAI

    • 如果唔想配置 API,可以使用瀏覽器內置嘅語音識別

  3. 優化語音通話體驗:

    • 使用耳機可以避免 TTS 輸出畀 ASR 再次捕捉到

    • 喺安靜嘅環境中使用可以提高識別準確率

    • 使用自訂提示詞可以令 AI 回覆更適合語音播放

  4. 根據需求調整設定:

    • 如果主要使用文字交流,可以只啟用 TTS 功能

    • 如果主要使用語音輸入,可以只啟用 ASR 功能

    • 如果需要完整嘅語音對話體驗,啟用語音通話功能

希望呢份使用說明可以幫到你充分利用 Cherry Studio 嘅語音功能,享受更自然、方便嘅 AI 互動體驗!

Last updated

Was this helpful?