# 语音功能

{% hint style="warning" %}
此功能因相关开发者没有继续维护 PR 而搁置。
{% endhint %}

Cherry Studio 语音功能使用说明

一、语音功能概述

Cherry Studio 提供了三大语音功能模块：TTS（文本转语音）、ASR（语音识别）和语音通话。这些功能让您可以通过语音与 AI 进行自然交流，提升使用体验。

* TTS（文本转语音）：将 AI 回复的文本转换为语音输出
* ASR（语音识别）：将您的语音转换为文本输入
* 语音通话：结合 TTS 和 ASR，实现类似 ChatGPT 的语音对话体验

二、TTS（文本转语音）功能

1. 支持的服务类型

Cherry Studio 支持四种 TTS 服务类型：

* OpenAI：使用 OpenAI 的 TTS API，需要 API 密钥
* 浏览器 TTS：使用浏览器内置的语音合成功能，免费无需配置
* 硅基流动：使用硅基流动（Siliconflow）的 TTS 服务，需要 API 密钥
* 免费在线 TTS：使用免费的在线 TTS 服务，无需 API 密钥

2. 设置方法
3. 进入设置页面，选择"语音功能"选项卡
4. 在"TTS"子选项卡中：
   * 启用 TTS 功能（打开开关）
   * 选择 TTS 服务类型
   * 根据选择的服务类型，配置相应参数：
     * OpenAI：填写 API 密钥、API 地址、选择音色和模型
     * 浏览器 TTS：选择音色
     * 硅基流动：填写 API 密钥、API 地址、选择音色、模型、响应格式和语速
     * 免费在线 TTS：选择音色和输出格式
5. 配置 TTS 过滤选项（可选）：
   * 过滤思考过程
   * 过滤 Markdown 标记
   * 过滤代码块
6. 设置是否显示 TTS 进度条
7. 点击"测试 TTS"按钮测试配置是否正确
8. 使用方法

* 启用 TTS 功能后，AI 的回复会自动转换为语音输出
* 在聊天界面中，每条 AI 回复下方会显示 TTS 播放按钮
* 点击播放按钮可以播放/暂停语音
* 如果启用了 TTS 进度条，会在文本下方显示播放进度
* 长文本会自动分段合成并连续播放

三、ASR（语音识别）功能

1. 支持的服务类型

Cherry Studio 支持三种 ASR 服务类型：

* OpenAI：使用 OpenAI 的 Whisper 模型，需要 API 密钥
* 浏览器：使用浏览器内置的语音识别功能，免费无需配置
* 本地服务器：连接到本地 WebSocket 服务器进行语音识别

2. 设置方法
3. 进入设置页面，选择"语音功能"选项卡
4. 在"ASR"子选项卡中：
   * 启用 ASR 功能（打开开关）
   * 选择 ASR 服务类型
   * 根据选择的服务类型，配置相应参数：
     * OpenAI：填写 API 密钥、API 地址、选择模型
     * 浏览器：无需额外配置
     * 本地服务器：可以设置是否在应用启动时自动启动 ASR 服务器
   * 选择语音识别语言（默认为中文）
5. 点击"测试 ASR"按钮测试配置是否正确
6. 使用方法

* 启用 ASR 功能后，在输入框旁边会显示语音识别按钮
* 点击语音识别按钮开始录音
* 说话后，语音会被转换为文本并填入输入框
* 再次点击按钮结束录音
* 语音识别支持连续识别多句话，采用累加模式

四、语音通话功能

1. 功能特点

* 结合 TTS 和 ASR，实现类似 ChatGPT 的语音对话体验
* 使用可拖动的悬浮窗口界面
* 支持长按说话模式
* 支持自定义快捷键
* 支持窗口折叠
* 可以选择专门的语音通话模型
* 支持自定义提示词

2. 设置方法
3. 进入设置页面，选择"语音功能"选项卡
4. 在"通话功能"子选项卡中：
   * 启用语音通话功能（打开开关）
   * 点击"选择模型"按钮，选择用于语音通话的 AI 模型
   * 在提示词文本框中自定义语音通话提示词（可选）
   * 点击"保存"按钮保存提示词，或点击"重置"按钮恢复默认提示词
5. 使用方法
6. 在聊天界面中，点击输入框右侧的语音通话按钮（电话图标）
7. 语音通话窗口会打开，并播放欢迎语音
8. 长按"长按说话"按钮开始录音（或使用设置的快捷键）
9. 松开按钮结束录音并发送给 AI 处理
10. AI 生成回复并通过 TTS 播放
11. 使用窗口中的控制按钮：
    * 静音/取消静音按钮：控制 TTS 输出
    * 暂停/继续按钮：暂停或继续对话
    * 设置按钮：配置快捷键
    * 折叠按钮：折叠窗口，只保留长按说话那一行
12. 点击关闭按钮结束通话
13. 快捷键设置
14. 在语音通话窗口中，点击设置按钮
15. 在弹出的设置面板中，点击快捷键按钮
16. 按下您想要设置的键（如空格键、Shift 键等）
17. 点击"保存"按钮保存设置
18. 使用时，按住设置的快捷键开始录音，松开结束录音并发送

五、常见问题和解决方案

1. TTS 相关问题

* 问题：TTS 无法播放声音 解决方案：检查是否启用了 TTS 功能，确保选择了正确的服务类型和配置了必要的参数
* 问题：TTS 播放质量不佳 解决方案：尝试更换不同的 TTS 服务类型或音色
* 问题：TTS 播放时显示错误信息 解决方案：检查 API 密钥是否正确，网络连接是否正常

2. ASR 相关问题

* 问题：ASR 无法识别语音 解决方案：检查是否启用了 ASR 功能，确保选择了正确的服务类型和配置了必要的参数
* 问题：ASR 识别准确率低 解决方案：尝试更换不同的 ASR 服务类型，或调整麦克风位置和音量
* 问题：ASR 服务器连接失败 解决方案：检查本地服务器是否正常运行，或尝试重启应用

3. 语音通话相关问题

* 问题：语音通话窗口无法打开 解决方案：检查是否启用了语音通话功能，确保 TTS 和 ASR 功能配置正确
* 问题：长按说话没有反应 解决方案：检查麦克风权限是否已授予，或尝试重新启动语音通话
* 问题：AI 回复没有语音输出 解决方案：检查是否启用了 TTS 功能，确保没有静音

六、高级设置和自定义选项

1. TTS 高级设置

* 过滤选项：可以选择过滤思考过程、Markdown 标记和代码块，使 TTS 播放更流畅
* 进度条显示：可以选择是否显示 TTS 进度条
* 自定义音色和模型：可以添加自定义的音色和模型选项

2. ASR 高级设置

* 自动启动服务器：可以设置应用启动时是否自动启动 ASR 服务器
* 语言选择：可以选择不同的语音识别语言

3. 语音通话高级设置

* 自定义提示词：可以自定义语音通话提示词，指导 AI 在语音通话模式下的回复方式
* 专用模型选择：可以为语音通话选择专门的 AI 模型，与当前对话使用的模型分开
* 快捷键自定义：可以设置自定义快捷键来控制录音

七、使用建议

1. 选择合适的 TTS 服务：
   * 如果追求高质量语音，推荐使用 OpenAI 或硅基流动
   * 如果不想配置 API，可以使用浏览器 TTS 或免费在线 TTS
2. 选择合适的 ASR 服务：
   * 如果追求高准确率，推荐使用 OpenAI
   * 如果不想配置 API，可以使用浏览器内置的语音识别
3. 优化语音通话体验：
   * 使用耳机可以避免 TTS 输出被 ASR 再次捕获
   * 在安静的环境中使用可以提高识别准确率
   * 使用自定义提示词可以让 AI 回复更适合语音播放
4. 根据需求调整设置：
   * 如果主要使用文本交流，可以只启用 TTS 功能
   * 如果主要使用语音输入，可以只启用 ASR 功能
   * 如果需要完整的语音对话体验，启用语音通话功能

希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能，享受更自然、便捷的 AI 交互体验！


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/pre-basic/settings/yu-yin-gong-neng.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.