语音功能

Cherry Studio 语音功能使用说明

一、语音功能概述

Cherry Studio 提供了三大语音功能模块:TTS(文本转语音)、ASR(语音识别)和语音通话。这些功能让您可以通过语音与 AI 进行自然交流,提升使用体验。

  • TTS(文本转语音):将 AI 回复的文本转换为语音输出

  • ASR(语音识别):将您的语音转换为文本输入

  • 语音通话:结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验

二、TTS(文本转语音)功能

  1. 支持的服务类型

Cherry Studio 支持四种 TTS 服务类型:

  • OpenAI:使用 OpenAI 的 TTS API,需要 API 密钥

  • 浏览器 TTS:使用浏览器内置的语音合成功能,免费无需配置

  • 硅基流动:使用硅基流动(Siliconflow)的 TTS 服务,需要 API 密钥

  • 免费在线 TTS:使用免费的在线 TTS 服务,无需 API 密钥

  1. 设置方法

  2. 进入设置页面,选择"语音功能"选项卡

  3. 在"TTS"子选项卡中:

    • 启用 TTS 功能(打开开关)

    • 选择 TTS 服务类型

    • 根据选择的服务类型,配置相应参数:

      • OpenAI:填写 API 密钥、API 地址、选择音色和模型

      • 浏览器 TTS:选择音色

      • 硅基流动:填写 API 密钥、API 地址、选择音色、模型、响应格式和语速

      • 免费在线 TTS:选择音色和输出格式

  4. 配置 TTS 过滤选项(可选):

    • 过滤思考过程

    • 过滤 Markdown 标记

    • 过滤代码块

  5. 设置是否显示 TTS 进度条

  6. 点击"测试 TTS"按钮测试配置是否正确

  7. 使用方法

  • 启用 TTS 功能后,AI 的回复会自动转换为语音输出

  • 在聊天界面中,每条 AI 回复下方会显示 TTS 播放按钮

  • 点击播放按钮可以播放/暂停语音

  • 如果启用了 TTS 进度条,会在文本下方显示播放进度

  • 长文本会自动分段合成并连续播放

三、ASR(语音识别)功能

  1. 支持的服务类型

Cherry Studio 支持三种 ASR 服务类型:

  • OpenAI:使用 OpenAI 的 Whisper 模型,需要 API 密钥

  • 浏览器:使用浏览器内置的语音识别功能,免费无需配置

  • 本地服务器:连接到本地 WebSocket 服务器进行语音识别

  1. 设置方法

  2. 进入设置页面,选择"语音功能"选项卡

  3. 在"ASR"子选项卡中:

    • 启用 ASR 功能(打开开关)

    • 选择 ASR 服务类型

    • 根据选择的服务类型,配置相应参数:

      • OpenAI:填写 API 密钥、API 地址、选择模型

      • 浏览器:无需额外配置

      • 本地服务器:可以设置是否在应用启动时自动启动 ASR 服务器

    • 选择语音识别语言(默认为中文)

  4. 点击"测试 ASR"按钮测试配置是否正确

  5. 使用方法

  • 启用 ASR 功能后,在输入框旁边会显示语音识别按钮

  • 点击语音识别按钮开始录音

  • 说话后,语音会被转换为文本并填入输入框

  • 再次点击按钮结束录音

  • 语音识别支持连续识别多句话,采用累加模式

四、语音通话功能

  1. 功能特点

  • 结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验

  • 使用可拖动的悬浮窗口界面

  • 支持长按说话模式

  • 支持自定义快捷键

  • 支持窗口折叠

  • 可以选择专门的语音通话模型

  • 支持自定义提示词

  1. 设置方法

  2. 进入设置页面,选择"语音功能"选项卡

  3. 在"通话功能"子选项卡中:

    • 启用语音通话功能(打开开关)

    • 点击"选择模型"按钮,选择用于语音通话的 AI 模型

    • 在提示词文本框中自定义语音通话提示词(可选)

    • 点击"保存"按钮保存提示词,或点击"重置"按钮恢复默认提示词

  4. 使用方法

  5. 在聊天界面中,点击输入框右侧的语音通话按钮(电话图标)

  6. 语音通话窗口会打开,并播放欢迎语音

  7. 长按"长按说话"按钮开始录音(或使用设置的快捷键)

  8. 松开按钮结束录音并发送给 AI 处理

  9. AI 生成回复并通过 TTS 播放

  10. 使用窗口中的控制按钮:

    • 静音/取消静音按钮:控制 TTS 输出

    • 暂停/继续按钮:暂停或继续对话

    • 设置按钮:配置快捷键

    • 折叠按钮:折叠窗口,只保留长按说话那一行

  11. 点击关闭按钮结束通话

  12. 快捷键设置

  13. 在语音通话窗口中,点击设置按钮

  14. 在弹出的设置面板中,点击快捷键按钮

  15. 按下您想要设置的键(如空格键、Shift 键等)

  16. 点击"保存"按钮保存设置

  17. 使用时,按住设置的快捷键开始录音,松开结束录音并发送

五、常见问题和解决方案

  1. TTS 相关问题

  • 问题:TTS 无法播放声音 解决方案:检查是否启用了 TTS 功能,确保选择了正确的服务类型和配置了必要的参数

  • 问题:TTS 播放质量不佳 解决方案:尝试更换不同的 TTS 服务类型或音色

  • 问题:TTS 播放时显示错误信息 解决方案:检查 API 密钥是否正确,网络连接是否正常

  1. ASR 相关问题

  • 问题:ASR 无法识别语音 解决方案:检查是否启用了 ASR 功能,确保选择了正确的服务类型和配置了必要的参数

  • 问题:ASR 识别准确率低 解决方案:尝试更换不同的 ASR 服务类型,或调整麦克风位置和音量

  • 问题:ASR 服务器连接失败 解决方案:检查本地服务器是否正常运行,或尝试重启应用

  1. 语音通话相关问题

  • 问题:语音通话窗口无法打开 解决方案:检查是否启用了语音通话功能,确保 TTS 和 ASR 功能配置正确

  • 问题:长按说话没有反应 解决方案:检查麦克风权限是否已授予,或尝试重新启动语音通话

  • 问题:AI 回复没有语音输出 解决方案:检查是否启用了 TTS 功能,确保没有静音

六、高级设置和自定义选项

  1. TTS 高级设置

  • 过滤选项:可以选择过滤思考过程、Markdown 标记和代码块,使 TTS 播放更流畅

  • 进度条显示:可以选择是否显示 TTS 进度条

  • 自定义音色和模型:可以添加自定义的音色和模型选项

  1. ASR 高级设置

  • 自动启动服务器:可以设置应用启动时是否自动启动 ASR 服务器

  • 语言选择:可以选择不同的语音识别语言

  1. 语音通话高级设置

  • 自定义提示词:可以自定义语音通话提示词,指导 AI 在语音通话模式下的回复方式

  • 专用模型选择:可以为语音通话选择专门的 AI 模型,与当前对话使用的模型分开

  • 快捷键自定义:可以设置自定义快捷键来控制录音

七、使用建议

  1. 选择合适的 TTS 服务:

    • 如果追求高质量语音,推荐使用 OpenAI 或硅基流动

    • 如果不想配置 API,可以使用浏览器 TTS 或免费在线 TTS

  2. 选择合适的 ASR 服务:

    • 如果追求高准确率,推荐使用 OpenAI

    • 如果不想配置 API,可以使用浏览器内置的语音识别

  3. 优化语音通话体验:

    • 使用耳机可以避免 TTS 输出被 ASR 再次捕获

    • 在安静的环境中使用可以提高识别准确率

    • 使用自定义提示词可以让 AI 回复更适合语音播放

  4. 根据需求调整设置:

    • 如果主要使用文本交流,可以只启用 TTS 功能

    • 如果主要使用语音输入,可以只启用 ASR 功能

    • 如果需要完整的语音对话体验,启用语音通话功能

希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能,享受更自然、便捷的 AI 交互体验!

最后更新于

这有帮助吗?