语音功能

Cherry Studio 语音功能使用说明

一、语音功能概述

Cherry Studio 提供了三大语音功能模块：TTS（文本转语音）、ASR（语音识别）和语音通话。这些功能让您可以通过语音与 AI 进行自然交流，提升使用体验。

- TTS（文本转语音）：将 AI 回复的文本转换为语音输出
- ASR（语音识别）：将您的语音转换为文本输入
- 语音通话：结合 TTS 和 ASR，实现类似 ChatGPT 的语音对话体验

二、TTS（文本转语音）功能

1. 支持的服务类型

Cherry Studio 支持四种 TTS 服务类型：

- OpenAI：使用 OpenAI 的 TTS API，需要 API 密钥
- 浏览器 TTS：使用浏览器内置的语音合成功能，免费无需配置
- 硅基流动：使用硅基流动（Siliconflow）的 TTS 服务，需要 API 密钥
- 免费在线 TTS：使用免费的在线 TTS 服务，无需 API 密钥

2. 设置方法

1) 进入设置页面，选择"语音功能"选项卡
2) 在"TTS"子选项卡中：
   - 启用 TTS 功能（打开开关）
   - 选择 TTS 服务类型
   - 根据选择的服务类型，配置相应参数：
     - OpenAI：填写 API 密钥、API 地址、选择音色和模型
     - 浏览器 TTS：选择音色
     - 硅基流动：填写 API 密钥、API 地址、选择音色、模型、响应格式和语速
     - 免费在线 TTS：选择音色和输出格式
3) 配置 TTS 过滤选项（可选）：
   - 过滤思考过程
   - 过滤 Markdown 标记
   - 过滤代码块
4) 设置是否显示 TTS 进度条
5) 点击"测试 TTS"按钮测试配置是否正确

3. 使用方法

- 启用 TTS 功能后，AI 的回复会自动转换为语音输出
- 在聊天界面中，每条 AI 回复下方会显示 TTS 播放按钮
- 点击播放按钮可以播放/暂停语音
- 如果启用了 TTS 进度条，会在文本下方显示播放进度
- 长文本会自动分段合成并连续播放

三、ASR（语音识别）功能

1. 支持的服务类型

Cherry Studio 支持三种 ASR 服务类型：

- OpenAI：使用 OpenAI 的 Whisper 模型，需要 API 密钥
- 浏览器：使用浏览器内置的语音识别功能，免费无需配置
- 本地服务器：连接到本地 WebSocket 服务器进行语音识别

2. 设置方法

1) 进入设置页面，选择"语音功能"选项卡
2) 在"ASR"子选项卡中：
   - 启用 ASR 功能（打开开关）
   - 选择 ASR 服务类型
   - 根据选择的服务类型，配置相应参数：
     - OpenAI：填写 API 密钥、API 地址、选择模型
     - 浏览器：无需额外配置
     - 本地服务器：可以设置是否在应用启动时自动启动 ASR 服务器
   - 选择语音识别语言（默认为中文）
3) 点击"测试 ASR"按钮测试配置是否正确

3. 使用方法

- 启用 ASR 功能后，在输入框旁边会显示语音识别按钮
- 点击语音识别按钮开始录音
- 说话后，语音会被转换为文本并填入输入框
- 再次点击按钮结束录音
- 语音识别支持连续识别多句话，采用累加模式

四、语音通话功能

1. 功能特点

- 结合 TTS 和 ASR，实现类似 ChatGPT 的语音对话体验
- 使用可拖动的悬浮窗口界面
- 支持长按说话模式
- 支持自定义快捷键
- 支持窗口折叠
- 可以选择专门的语音通话模型
- 支持自定义提示词

2. 设置方法

1) 进入设置页面，选择"语音功能"选项卡
2) 在"通话功能"子选项卡中：
   - 启用语音通话功能（打开开关）
   - 点击"选择模型"按钮，选择用于语音通话的 AI 模型
   - 在提示词文本框中自定义语音通话提示词（可选）
   - 点击"保存"按钮保存提示词，或点击"重置"按钮恢复默认提示词

3. 使用方法

1) 在聊天界面中，点击输入框右侧的语音通话按钮（电话图标）
2) 语音通话窗口会打开，并播放欢迎语音
3) 长按"长按说话"按钮开始录音（或使用设置的快捷键）
4) 松开按钮结束录音并发送给 AI 处理
5) AI 生成回复并通过 TTS 播放
6) 使用窗口中的控制按钮：
   - 静音/取消静音按钮：控制 TTS 输出
   - 暂停/继续按钮：暂停或继续对话
   - 设置按钮：配置快捷键
   - 折叠按钮：折叠窗口，只保留长按说话那一行
7) 点击关闭按钮结束通话

4. 快捷键设置

1) 在语音通话窗口中，点击设置按钮
2) 在弹出的设置面板中，点击快捷键按钮
3) 按下您想要设置的键（如空格键、Shift 键等）
4) 点击"保存"按钮保存设置
5) 使用时，按住设置的快捷键开始录音，松开结束录音并发送

五、常见问题和解决方案

1. TTS 相关问题

- 问题：TTS 无法播放声音
  解决方案：检查是否启用了 TTS 功能，确保选择了正确的服务类型和配置了必要的参数

- 问题：TTS 播放质量不佳
  解决方案：尝试更换不同的 TTS 服务类型或音色

- 问题：TTS 播放时显示错误信息
  解决方案：检查 API 密钥是否正确，网络连接是否正常

2. ASR 相关问题

- 问题：ASR 无法识别语音
  解决方案：检查是否启用了 ASR 功能，确保选择了正确的服务类型和配置了必要的参数

- 问题：ASR 识别准确率低
  解决方案：尝试更换不同的 ASR 服务类型，或调整麦克风位置和音量

- 问题：ASR 服务器连接失败
  解决方案：检查本地服务器是否正常运行，或尝试重启应用

3. 语音通话相关问题

- 问题：语音通话窗口无法打开
  解决方案：检查是否启用了语音通话功能，确保 TTS 和 ASR 功能配置正确

- 问题：长按说话没有反应
  解决方案：检查麦克风权限是否已授予，或尝试重新启动语音通话

- 问题：AI 回复没有语音输出
  解决方案：检查是否启用了 TTS 功能，确保没有静音

六、高级设置和自定义选项

1. TTS 高级设置

- 过滤选项：可以选择过滤思考过程、Markdown 标记和代码块，使 TTS 播放更流畅
- 进度条显示：可以选择是否显示 TTS 进度条
- 自定义音色和模型：可以添加自定义的音色和模型选项

2. ASR 高级设置

- 自动启动服务器：可以设置应用启动时是否自动启动 ASR 服务器
- 语言选择：可以选择不同的语音识别语言

3. 语音通话高级设置

- 自定义提示词：可以自定义语音通话提示词，指导 AI 在语音通话模式下的回复方式
- 专用模型选择：可以为语音通话选择专门的 AI 模型，与当前对话使用的模型分开
- 快捷键自定义：可以设置自定义快捷键来控制录音

七、使用建议

1. 选择合适的 TTS 服务：
   - 如果追求高质量语音，推荐使用 OpenAI 或硅基流动
   - 如果不想配置 API，可以使用浏览器 TTS 或免费在线 TTS

2. 选择合适的 ASR 服务：
   - 如果追求高准确率，推荐使用 OpenAI
   - 如果不想配置 API，可以使用浏览器内置的语音识别

3. 优化语音通话体验：
   - 使用耳机可以避免 TTS 输出被 ASR 再次捕获
   - 在安静的环境中使用可以提高识别准确率
   - 使用自定义提示词可以让 AI 回复更适合语音播放

4. 根据需求调整设置：
   - 如果主要使用文本交流，可以只启用 TTS 功能
   - 如果主要使用语音输入，可以只启用 ASR 功能
   - 如果需要完整的语音对话体验，启用语音通话功能

希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能，享受更自然、便捷的 AI 交互体验！
最后更新于3个月前
这有帮助吗？