语音功能

Cherry Studio 语音功能使用说明

一、语音功能概述

Cherry Studio 提供了三大语音功能模块:TTS(文本转语音)、ASR(语音识别)和语音通话。这些功能让您可以通过语音与 AI 进行自然交流,提升使用体验。

- TTS(文本转语音):将 AI 回复的文本转换为语音输出
- ASR(语音识别):将您的语音转换为文本输入
- 语音通话:结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验

二、TTS(文本转语音)功能

1. 支持的服务类型

Cherry Studio 支持四种 TTS 服务类型:

- OpenAI:使用 OpenAI 的 TTS API,需要 API 密钥
- 浏览器 TTS:使用浏览器内置的语音合成功能,免费无需配置
- 硅基流动:使用硅基流动(Siliconflow)的 TTS 服务,需要 API 密钥
- 免费在线 TTS:使用免费的在线 TTS 服务,无需 API 密钥

2. 设置方法

1) 进入设置页面,选择"语音功能"选项卡
2) 在"TTS"子选项卡中:
   - 启用 TTS 功能(打开开关)
   - 选择 TTS 服务类型
   - 根据选择的服务类型,配置相应参数:
     - OpenAI:填写 API 密钥、API 地址、选择音色和模型
     - 浏览器 TTS:选择音色
     - 硅基流动:填写 API 密钥、API 地址、选择音色、模型、响应格式和语速
     - 免费在线 TTS:选择音色和输出格式
3) 配置 TTS 过滤选项(可选):
   - 过滤思考过程
   - 过滤 Markdown 标记
   - 过滤代码块
4) 设置是否显示 TTS 进度条
5) 点击"测试 TTS"按钮测试配置是否正确

3. 使用方法

- 启用 TTS 功能后,AI 的回复会自动转换为语音输出
- 在聊天界面中,每条 AI 回复下方会显示 TTS 播放按钮
- 点击播放按钮可以播放/暂停语音
- 如果启用了 TTS 进度条,会在文本下方显示播放进度
- 长文本会自动分段合成并连续播放

三、ASR(语音识别)功能

1. 支持的服务类型

Cherry Studio 支持三种 ASR 服务类型:

- OpenAI:使用 OpenAI 的 Whisper 模型,需要 API 密钥
- 浏览器:使用浏览器内置的语音识别功能,免费无需配置
- 本地服务器:连接到本地 WebSocket 服务器进行语音识别

2. 设置方法

1) 进入设置页面,选择"语音功能"选项卡
2) 在"ASR"子选项卡中:
   - 启用 ASR 功能(打开开关)
   - 选择 ASR 服务类型
   - 根据选择的服务类型,配置相应参数:
     - OpenAI:填写 API 密钥、API 地址、选择模型
     - 浏览器:无需额外配置
     - 本地服务器:可以设置是否在应用启动时自动启动 ASR 服务器
   - 选择语音识别语言(默认为中文)
3) 点击"测试 ASR"按钮测试配置是否正确

3. 使用方法

- 启用 ASR 功能后,在输入框旁边会显示语音识别按钮
- 点击语音识别按钮开始录音
- 说话后,语音会被转换为文本并填入输入框
- 再次点击按钮结束录音
- 语音识别支持连续识别多句话,采用累加模式

四、语音通话功能

1. 功能特点

- 结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验
- 使用可拖动的悬浮窗口界面
- 支持长按说话模式
- 支持自定义快捷键
- 支持窗口折叠
- 可以选择专门的语音通话模型
- 支持自定义提示词

2. 设置方法

1) 进入设置页面,选择"语音功能"选项卡
2) 在"通话功能"子选项卡中:
   - 启用语音通话功能(打开开关)
   - 点击"选择模型"按钮,选择用于语音通话的 AI 模型
   - 在提示词文本框中自定义语音通话提示词(可选)
   - 点击"保存"按钮保存提示词,或点击"重置"按钮恢复默认提示词

3. 使用方法

1) 在聊天界面中,点击输入框右侧的语音通话按钮(电话图标)
2) 语音通话窗口会打开,并播放欢迎语音
3) 长按"长按说话"按钮开始录音(或使用设置的快捷键)
4) 松开按钮结束录音并发送给 AI 处理
5) AI 生成回复并通过 TTS 播放
6) 使用窗口中的控制按钮:
   - 静音/取消静音按钮:控制 TTS 输出
   - 暂停/继续按钮:暂停或继续对话
   - 设置按钮:配置快捷键
   - 折叠按钮:折叠窗口,只保留长按说话那一行
7) 点击关闭按钮结束通话

4. 快捷键设置

1) 在语音通话窗口中,点击设置按钮
2) 在弹出的设置面板中,点击快捷键按钮
3) 按下您想要设置的键(如空格键、Shift 键等)
4) 点击"保存"按钮保存设置
5) 使用时,按住设置的快捷键开始录音,松开结束录音并发送

五、常见问题和解决方案

1. TTS 相关问题

- 问题:TTS 无法播放声音
  解决方案:检查是否启用了 TTS 功能,确保选择了正确的服务类型和配置了必要的参数

- 问题:TTS 播放质量不佳
  解决方案:尝试更换不同的 TTS 服务类型或音色

- 问题:TTS 播放时显示错误信息
  解决方案:检查 API 密钥是否正确,网络连接是否正常

2. ASR 相关问题

- 问题:ASR 无法识别语音
  解决方案:检查是否启用了 ASR 功能,确保选择了正确的服务类型和配置了必要的参数

- 问题:ASR 识别准确率低
  解决方案:尝试更换不同的 ASR 服务类型,或调整麦克风位置和音量

- 问题:ASR 服务器连接失败
  解决方案:检查本地服务器是否正常运行,或尝试重启应用

3. 语音通话相关问题

- 问题:语音通话窗口无法打开
  解决方案:检查是否启用了语音通话功能,确保 TTS 和 ASR 功能配置正确

- 问题:长按说话没有反应
  解决方案:检查麦克风权限是否已授予,或尝试重新启动语音通话

- 问题:AI 回复没有语音输出
  解决方案:检查是否启用了 TTS 功能,确保没有静音

六、高级设置和自定义选项

1. TTS 高级设置

- 过滤选项:可以选择过滤思考过程、Markdown 标记和代码块,使 TTS 播放更流畅
- 进度条显示:可以选择是否显示 TTS 进度条
- 自定义音色和模型:可以添加自定义的音色和模型选项

2. ASR 高级设置

- 自动启动服务器:可以设置应用启动时是否自动启动 ASR 服务器
- 语言选择:可以选择不同的语音识别语言

3. 语音通话高级设置

- 自定义提示词:可以自定义语音通话提示词,指导 AI 在语音通话模式下的回复方式
- 专用模型选择:可以为语音通话选择专门的 AI 模型,与当前对话使用的模型分开
- 快捷键自定义:可以设置自定义快捷键来控制录音

七、使用建议

1. 选择合适的 TTS 服务:
   - 如果追求高质量语音,推荐使用 OpenAI 或硅基流动
   - 如果不想配置 API,可以使用浏览器 TTS 或免费在线 TTS

2. 选择合适的 ASR 服务:
   - 如果追求高准确率,推荐使用 OpenAI
   - 如果不想配置 API,可以使用浏览器内置的语音识别

3. 优化语音通话体验:
   - 使用耳机可以避免 TTS 输出被 ASR 再次捕获
   - 在安静的环境中使用可以提高识别准确率
   - 使用自定义提示词可以让 AI 回复更适合语音播放

4. 根据需求调整设置:
   - 如果主要使用文本交流,可以只启用 TTS 功能
   - 如果主要使用语音输入,可以只启用 ASR 功能
   - 如果需要完整的语音对话体验,启用语音通话功能

希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能,享受更自然、便捷的 AI 交互体验!

最后更新于

这有帮助吗?