phone-arrow-up-right語音功能

circle-exclamation

Cherry Studio 語音功能使用說明

一、語音功能概述

Cherry Studio 提供三大語音功能模組:TTS(文本轉語音)、ASR(語音識別)同語音通話。呢啲功能令你可以用語音同 AI 進行自然交流,提升使用體驗。

  • TTS(文本轉語音):將 AI 回覆嘅文本轉換成語音輸出

  • ASR(語音識別):將你嘅語音轉換為文本輸入

  • 語音通話:結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗

二、TTS(文本轉語音)功能

  1. 支持嘅服務類型

Cherry Studio 支援四種 TTS 服務類型:

  • OpenAI:使用 OpenAI 嘅 TTS API,需要 API 密鑰

  • 瀏覽器 TTS:使用瀏覽器內置嘅語音合成功能,免費無需配置

  • 硅基流動:使用硅基流動(Siliconflow)嘅 TTS 服務,需要 API 密鑰

  • 免費在線 TTS:使用免費嘅在線 TTS 服務,無需 API 密鑰

  1. 設定方法

  2. 進入設定頁面,選擇「語音功能」分頁

  3. 喺「TTS」子分頁中:

    • 啟用 TTS 功能(打開開關)

    • 選擇 TTS 服務類型

    • 根據所選嘅服務類型,配置相應參數:

      • OpenAI:填寫 API 密鑰、API 地址、選擇音色同模型

      • 瀏覽器 TTS:選擇音色

      • 硅基流動:填寫 API 密鑰、API 地址、選擇音色、模型、響應格式同語速

      • 免費在線 TTS:選擇音色同輸出格式

  4. 配置 TTS 過濾選項(可選):

    • 過濾思考過程

    • 過濾 Markdown 標記

    • 過濾程式碼區塊

  5. 設定是否顯示 TTS 進度條

  6. 點擊「測試 TTS」按鈕測試配置是否正確

  7. 使用方法

  • 啟用 TTS 功能後,AI 嘅回覆會自動轉換成語音輸出

  • 喺聊天介面中,每條 AI 回覆下方會顯示 TTS 播放按鈕

  • 點擊播放按鈕可以播放/暫停語音

  • 如果啟用了 TTS 進度條,會喺文本下方顯示播放進度

  • 長文本會自動分段合成並連續播放

三、ASR(語音識別)功能

  1. 支持嘅服務類型

Cherry Studio 支援三種 ASR 服務類型:

  • OpenAI:使用 OpenAI 嘅 Whisper 模型,需要 API 密鑰

  • 瀏覽器:使用瀏覽器內置嘅語音識別功能,免費無需配置

  • 本地伺服器:連接到本地 WebSocket 伺服器進行語音識別

  1. 設定方法

  2. 進入設定頁面,選擇「語音功能」分頁

  3. 喺「ASR」子分頁中:

    • 啟用 ASR 功能(打開開關)

    • 選擇 ASR 服務類型

    • 根據所選嘅服務類型,配置相應參數:

      • OpenAI:填寫 API 密鑰、API 地址、選擇模型

      • 瀏覽器:無需額外配置

      • 本地伺服器:可以設定是否喺應用啟動時自動啟動 ASR 伺服器

    • 選擇語音識別語言(預設為中文)

  4. 點擊「測試 ASR」按鈕測試配置是否正確

  5. 使用方法

  • 啟用 ASR 功能後,喺輸入框旁邊會顯示語音識別按鈕

  • 點擊語音識別按鈕開始錄音

  • 講嘢之後,語音會被轉換為文本並填入輸入框

  • 再次點擊按鈕結束錄音

  • 語音識別支持連續識別多句話,採用累加模式

四、語音通話功能

  1. 功能特點

  • 結合 TTS 同 ASR,實現類似 ChatGPT 嘅語音對話體驗

  • 使用可拖動嘅浮動視窗介面

  • 支持長按講嘢模式

  • 支持自定義快捷鍵

  • 支持視窗摺疊

  • 可以選擇專用嘅語音通話模型

  • 支持自定義提示詞

  1. 設定方法

  2. 進入設定頁面,選擇「語音功能」分頁

  3. 喺「通話功能」子分頁中:

    • 啟用語音通話功能(打開開關)

    • 點擊「選擇模型」按鈕,選擇用於語音通話嘅 AI 模型

    • 喺提示詞文本框中自定義語音通話提示詞(可選)

    • 點擊「保存」按鈕保存提示詞,或者點擊「重置」按鈕恢復預設提示詞

  4. 使用方法

  5. 喺聊天介面中,點擊輸入框右側嘅語音通話按鈕(電話圖示)

  6. 語音通話視窗會打開,並播放歡迎語音

  7. 長按「長按說話」按鈕開始錄音(或使用設定嘅快捷鍵)

  8. 放開按鈕結束錄音並傳送俾 AI 處理

  9. AI 生成回覆並透過 TTS 播放

  10. 使用視窗中嘅控制按鈕:

    • 靜音/取消靜音按鈕:控制 TTS 輸出

    • 暫停/繼續按鈕:暫停或繼續對話

    • 設定按鈕:配置快捷鍵

    • 摺疊按鈕:摺疊視窗,只保留長按說話嗰一行

  11. 點擊關閉按鈕結束通話

  12. 快捷鍵設定

  13. 喺語音通話視窗中,點擊設定按鈕

  14. 喺彈出嘅設定面板中,點擊快捷鍵按鈕

  15. 按下你想要設定嘅鍵(例如空格鍵、Shift 鍵等)

  16. 點擊「保存」按鈕保存設定

  17. 使用時,按住設定嘅快捷鍵開始錄音,放開結束錄音並傳送

五、常見問題同解決方案

  1. TTS 相關問題

  • 問題:TTS 無法播放聲音 解決方案:檢查是否啟用了 TTS 功能,確保選擇咗正確嘅服務類型同配置咗必要嘅參數

  • 問題:TTS 播放質量唔好 解決方案:嘗試更換唔同嘅 TTS 服務類型或者音色

  • 問題:TTS 播放時顯示錯誤信息 解決方案:檢查 API 密鑰是否正確,網絡連接是否正常

  1. ASR 相關問題

  • 問題:ASR 無法識別語音 解決方案:檢查是否啟用了 ASR 功能,確保選擇咗正確嘅服務類型同配置咗必要嘅參數

  • 問題:ASR 識別準確率低 解決方案:嘗試更換唔同嘅 ASR 服務類型,或者調整咪高峰位置同音量

  • 問題:ASR 伺服器連接失敗 解決方案:檢查本地伺服器是否正常運行,或者嘗試重啟應用程式

  1. 語音通話相關問題

  • 問題:語音通話視窗無法打開 解決方案:檢查是否啟用了語音通話功能,確保 TTS 同 ASR 功能配置正確

  • 問題:長按講嘢冇反應 解決方案:檢查咪高峰權限是否已授予,或者嘗試重新啟動語音通話

  • 問題:AI 回覆冇語音輸出 解決方案:檢查是否啟用了 TTS 功能,確保冇靜音

六、高級設定同自定義選項

  1. TTS 高級設定

  • 過濾選項:可以選擇過濾思考過程、Markdown 標記同程式碼區塊,令 TTS 播放更順暢

  • 進度條顯示:可以選擇是否顯示 TTS 進度條

  • 自定義音色同模型:可以新增自定義嘅音色同模型選項

  1. ASR 高級設定

  • 自動啟動伺服器:可以設定應用啟動時是否自動啟動 ASR 伺服器

  • 語言選擇:可以選擇唔同嘅語音識別語言

  1. 語音通話高級設定

  • 自定義提示詞:可以自定義語音通話提示詞,指導 AI 喺語音通話模式下嘅回覆方式

  • 專用模型選擇:可以為語音通話揀專門嘅 AI 模型,同目前對話用嘅模型分開

  • 快捷鍵自定義:可以設定自定義快捷鍵嚟控制錄音

七、使用建議

  1. 選擇合適嘅 TTS 服務:

    • 如果追求高質量語音,建議使用 OpenAI 或硅基流動

    • 如果唔想配置 API,可以使用瀏覽器 TTS 或免費在線 TTS

  2. 選擇合適嘅 ASR 服務:

    • 如果追求高準確率,建議使用 OpenAI

    • 如果唔想配置 API,可以使用瀏覽器內置嘅語音識別

  3. 優化語音通話體驗:

    • 使用耳機可以避免 TTS 輸出被 ASR 再次捕捉

    • 喺安靜嘅環境中使用可以提高識別準確率

    • 使用自定義提示詞可以令 AI 回覆更適合語音播放

  4. 根據需求調整設定:

    • 如果主要使用文本交流,可以只啟用 TTS 功能

    • 如果主要使用語音輸入,可以只啟用 ASR 功能

    • 如果需要完整嘅語音對話體驗,啟用語音通話功能

希望呢份使用說明可以幫到你充分利用 Cherry Studio 嘅語音功能,享受更自然、方便嘅 AI 互動體驗!

Last updated

Was this helpful?