# 語音功能

{% hint style="warning" %}
呢個功能因為相關開發者無再繼續維護 PR 而擱置咗。
{% endhint %}

Cherry Studio 語音功能使用說明

一、語音功能概述

Cherry Studio 提供咗三大語音功能模組：TTS（文字轉語音）、ASR（語音識別）同語音通話。呢啲功能可以令你透過語音同 AI 自然交流，提升使用體驗。

* TTS（文字轉語音）：將 AI 回覆嘅文字轉換成語音輸出
* ASR（語音識別）：將你嘅語音轉換成文字輸入
* 語音通話：結合 TTS 同 ASR，實現類似 ChatGPT 嘅語音對話體驗

二、TTS（文字轉語音）功能

1. 支援嘅服務類型

Cherry Studio 支援四種 TTS 服務類型：

* OpenAI：使用 OpenAI 嘅 TTS API，需要 API 金鑰
* 瀏覽器 TTS：使用瀏覽器內置嘅語音合成功能，免費唔使配置
* 硅基流動：使用硅基流動（Siliconflow）嘅 TTS 服務，需要 API 金鑰
* 免費在線 TTS：使用免費嘅在線 TTS 服務，唔使 API 金鑰

2. 設定方法
3. 入去設定頁面，揀「語音功能」分頁
4. 喺「TTS」子分頁入面：
   * 啟用 TTS 功能（撳開開關）
   * 揀 TTS 服務類型
   * 根據所揀嘅服務類型，設定相應參數：
     * OpenAI：填寫 API 金鑰、API 地址、揀音色同模型
     * 瀏覽器 TTS：揀音色
     * 硅基流動：填寫 API 金鑰、API 地址、揀音色、模型、回應格式同語速
     * 免費在線 TTS：揀音色同輸出格式
5. 設定 TTS 過濾選項（可選）：
   * 過濾思考過程
   * 過濾 Markdown 標記
   * 過濾程式碼區塊
6. 設定係咪顯示 TTS 進度條
7. 撳「測試 TTS」按鈕測試設定係咪正確
8. 使用方法

* 啟用 TTS 功能之後，AI 嘅回覆會自動轉換成語音輸出
* 喺聊天界面入面，每條 AI 回覆下面都會顯示 TTS 播放按鈕
* 撳播放按鈕可以播放/暫停語音
* 如果啟用咗 TTS 進度條，會喺文字下方顯示播放進度
* 長文字會自動分段合成並連續播放

三、ASR（語音識別）功能

1. 支援嘅服務類型

Cherry Studio 支援三種 ASR 服務類型：

* OpenAI：使用 OpenAI 嘅 Whisper 模型，需要 API 金鑰
* 瀏覽器：使用瀏覽器內置嘅語音識別功能，免費唔使配置
* 本地伺服器：連接到本地 WebSocket 伺服器進行語音識別

2. 設定方法
3. 入去設定頁面，揀「語音功能」分頁
4. 喺「ASR」子分頁入面：
   * 啟用 ASR 功能（撳開開關）
   * 揀 ASR 服務類型
   * 根據所揀嘅服務類型，設定相應參數：
     * OpenAI：填寫 API 金鑰、API 地址、揀模型
     * 瀏覽器：唔使額外配置
     * 本地伺服器：可以設定應用程式啟動時係咪自動啟動 ASR 伺服器
   * 揀語音識別語言（預設係中文）
5. 撳「測試 ASR」按鈕測試設定係咪正確
6. 使用方法

* 啟用 ASR 功能之後，喺輸入框旁邊會顯示語音識別按鈕
* 撳語音識別按鈕開始錄音
* 講嘢之後，語音會轉成文字並填入輸入框
* 再撳一次按鈕結束錄音
* 語音識別支援連續識別多句說話，採用累加模式

四、語音通話功能

1. 功能特點

* 結合 TTS 同 ASR，實現類似 ChatGPT 嘅語音對話體驗
* 使用可以拖動嘅浮動窗口界面
* 支援長按說話模式
* 支援自訂快捷鍵
* 支援窗口摺疊
* 可以揀專門嘅語音通話模型
* 支援自訂提示詞

2. 設定方法
3. 入去設定頁面，揀「語音功能」分頁
4. 喺「通話功能」子分頁入面：
   * 啟用語音通話功能（撳開開關）
   * 撳「選擇模型」按鈕，揀用嚟語音通話嘅 AI 模型
   * 喺提示詞文字框入面自訂語音通話提示詞（可選）
   * 撳「保存」按鈕保存提示詞，或者撳「重置」按鈕恢復預設提示詞
5. 使用方法
6. 喺聊天界面入面，撳輸入框右側嘅語音通話按鈕（電話圖示）
7. 語音通話窗口會打開，並播放歡迎語音
8. 長按「長按說話」按鈕開始錄音（或者使用設定咗嘅快捷鍵）
9. 放開按鈕結束錄音並發送俾 AI 處理
10. AI 生成回覆並透過 TTS 播放
11. 使用窗口入面嘅控制按鈕：
    * 靜音/取消靜音按鈕：控制 TTS 輸出
    * 暫停/繼續按鈕：暫停或者繼續對話
    * 設定按鈕：配置快捷鍵
    * 摺疊按鈕：摺疊窗口，只保留長按說話嗰一行
12. 撳關閉按鈕結束通話
13. 快捷鍵設定
14. 喺語音通話窗口入面，撳設定按鈕
15. 喺彈出嘅設定面板入面，撳快捷鍵按鈕
16. 撳你想設定嘅按鍵（例如空格鍵、Shift 鍵等）
17. 撳「保存」按鈕保存設定
18. 使用時，按住設定嘅快捷鍵開始錄音，放手結束錄音並發送

五、常見問題同解決方案

1. TTS 相關問題

* 問題：TTS 播放唔到聲音 解決方案：檢查係咪已經啟用 TTS 功能，確保揀咗正確嘅服務類型同配置咗必要參數
* 問題：TTS 播放質素唔好 解決方案：試下轉用唔同嘅 TTS 服務類型或者音色
* 問題：TTS 播放時顯示錯誤信息 解決方案：檢查 API 金鑰係咪正確，網絡連線係咪正常

2. ASR 相關問題

* 問題：ASR 認唔到語音 解決方案：檢查係咪已經啟用 ASR 功能，確保揀咗正確嘅服務類型同配置咗必要參數
* 問題：ASR 識別準確率低 解決方案：試下轉用唔同嘅 ASR 服務類型，或者調整麥克風位置同音量
* 問題：ASR 伺服器連線失敗 解決方案：檢查本地伺服器係咪正常運行，或者試下重新啟動應用

3. 語音通話相關問題

* 問題：語音通話窗口打唔開 解決方案：檢查係咪已經啟用語音通話功能，確保 TTS 同 ASR 功能配置正確
* 問題：長按說話冇反應 解決方案：檢查麥克風權限係咪已經授予，或者試下重新啟動語音通話
* 問題：AI 回覆冇語音輸出 解決方案：檢查係咪已經啟用 TTS 功能，確保冇靜音

六、高級設定同自訂選項

1. TTS 高級設定

* 過濾選項：可以揀過濾思考過程、Markdown 標記同程式碼區塊，令 TTS 播放更流暢
* 進度條顯示：可以揀係咪顯示 TTS 進度條
* 自訂音色同模型：可以加自訂嘅音色同模型選項

2. ASR 高級設定

* 自動啟動伺服器：可以設定應用啟動時係咪自動啟動 ASR 伺服器
* 語言選擇：可以揀唔同嘅語音識別語言

3. 語音通話高級設定

* 自訂提示詞：可以自訂語音通話提示詞，指導 AI 喺語音通話模式下嘅回覆方式
* 專用模型選擇：可以為語音通話揀專門嘅 AI 模型，將佢同而家對話用緊嘅模型分開
* 快捷鍵自訂：可以設定自訂快捷鍵嚟控制錄音

七、使用建議

1. 揀合適嘅 TTS 服務：
   * 如果追求高質素語音，推薦使用 OpenAI 或硅基流動
   * 如果唔想配置 API，可以使用瀏覽器 TTS 或免費在線 TTS
2. 揀合適嘅 ASR 服務：
   * 如果追求高準確率，推薦使用 OpenAI
   * 如果唔想配置 API，可以使用瀏覽器內置嘅語音識別
3. 優化語音通話體驗：
   * 使用耳機可以避免 TTS 輸出畀 ASR 再次捕捉到
   * 喺安靜嘅環境中使用可以提高識別準確率
   * 使用自訂提示詞可以令 AI 回覆更適合語音播放
4. 根據需求調整設定：
   * 如果主要使用文字交流，可以只啟用 TTS 功能
   * 如果主要使用語音輸入，可以只啟用 ASR 功能
   * 如果需要完整嘅語音對話體驗，啟用語音通話功能

希望呢份使用說明可以幫到你充分利用 Cherry Studio 嘅語音功能，享受更自然、方便嘅 AI 互動體驗！


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/zhong-wen-fan-ti/pre-basic/settings/yu-yin-gong-neng.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.