语音功能
此功能因相关开发者没有继续维护 PR 而搁置。
Cherry Studio 语音功能使用说明
一、语音功能概述
Cherry Studio 提供了三大语音功能模块:TTS(文本转语音)、ASR(语音识别)和语音通话。这些功能让您可以通过语音与 AI 进行自然交流,提升使用体验。
TTS(文本转语音):将 AI 回复的文本转换为语音输出
ASR(语音识别):将您的语音转换为文本输入
语音通话:结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验
二、TTS(文本转语音)功能
支持的服务类型
Cherry Studio 支持四种 TTS 服务类型:
OpenAI:使用 OpenAI 的 TTS API,需要 API 密钥
浏览器 TTS:使用浏览器内置的语音合成功能,免费无需配置
硅基流动:使用硅基流动(Siliconflow)的 TTS 服务,需要 API 密钥
免费在线 TTS:使用免费的在线 TTS 服务,无需 API 密钥
设置方法
进入设置页面,选择"语音功能"选项卡
在"TTS"子选项卡中:
启用 TTS 功能(打开开关)
选择 TTS 服务类型
根据选择的服务类型,配置相应参数:
OpenAI:填写 API 密钥、API 地址、选择音色和模型
浏览器 TTS:选择音色
硅基流动:填写 API 密钥、API 地址、选择音色、模型、响应格式和语速
免费在线 TTS:选择音色和输出格式
配置 TTS 过滤选项(可选):
过滤思考过程
过滤 Markdown 标记
过滤代码块
设置是否显示 TTS 进度条
点击"测试 TTS"按钮测试配置是否正确
使用方法
启用 TTS 功能后,AI 的回复会自动转换为语音输出
在聊天界面中,每条 AI 回复下方会显示 TTS 播放按钮
点击播放按钮可以播放/暂停语音
如果启用了 TTS 进度条,会在文本下方显示播放进度
长文本会自动分段合成并连续播放
三、ASR(语音识别)功能
支持的服务类型
Cherry Studio 支持三种 ASR 服务类型:
OpenAI:使用 OpenAI 的 Whisper 模型,需要 API 密钥
浏览器:使用浏览器内置的语音识别功能,免费无需配置
本地服务器:连接到本地 WebSocket 服务器进行语音识别
设置方法
进入设置页面,选择"语音功能"选项卡
在"ASR"子选项卡中:
启用 ASR 功能(打开开关)
选择 ASR 服务类型
根据选择的服务类型,配置相应参数:
OpenAI:填写 API 密钥、API 地址、选择模型
浏览器:无需额外配置
本地服务器:可以设置是否在应用启动时自动启动 ASR 服务器
选择语音识别语言(默认为中文)
点击"测试 ASR"按钮测试配置是否正确
使用方法
启用 ASR 功能后,在输入框旁边会显示语音识别按钮
点击语音识别按钮开始录音
说话后,语音会被转换为文本并填入输入框
再次点击按钮结束录音
语音识别支持连续识别多句话,采用累加模式
四、语音通话功能
功能特点
结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验
使用可拖动的悬浮窗口界面
支持长按说话模式
支持自定义快捷键
支持窗口折叠
可以选择专门的语音通话模型
支持自定义提示词
设置方法
进入设置页面,选择"语音功能"选项卡
在"通话功能"子选项卡中:
启用语音通话功能(打开开关)
点击"选择模型"按钮,选择用于语音通话的 AI 模型
在提示词文本框中自定义语音通话提示词(可选)
点击"保存"按钮保存提示词,或点击"重置"按钮恢复默认提示词
使用方法
在聊天界面中,点击输入框右侧的语音通话按钮(电话图标)
语音通话窗口会打开,并播放欢迎语音
长按"长按说话"按钮开始录音(或使用设置的快捷键)
松开按钮结束录音并发送给 AI 处理
AI 生成回复并通过 TTS 播放
使用窗口中的控制按钮:
静音/取消静音按钮:控制 TTS 输出
暂停/继续按钮:暂停或继续对话
设置按钮:配置快捷键
折叠按钮:折叠窗口,只保留长按说话那一行
点击关闭按钮结束通话
快捷键设置
在语音通话窗口中,点击设置按钮
在弹出的设置面板中,点击快捷键按钮
按下您想要设置的键(如空格键、Shift 键等)
点击"保存"按钮保存设置
使用时,按住设置的快捷键开始录音,松开结束录音并发送
五、常见问题和解决方案
TTS 相关问题
问题:TTS 无法播放声音 解决方案:检查是否启用了 TTS 功能,确保选择了正确的服务类型和配置了必要的参数
问题:TTS 播放质量不佳 解决方案:尝试更换不同的 TTS 服务类型或音色
问题:TTS 播放时显示错误信息 解决方案:检查 API 密钥是否正确,网络连接是否正常
ASR 相关问题
问题:ASR 无法识别语音 解决方案:检查是否启用了 ASR 功能,确保选择了正确的服务类型和配置了必要的参数
问题:ASR 识别准确率低 解决方案:尝试更换不同的 ASR 服务类型,或调整麦克风位置和音量
问题:ASR 服务器连接失败 解决方案:检查本地服务器是否正常运行,或尝试重启应用
语音通话相关问题
问题:语音通话窗口无法打开 解决方案:检查是否启用了语音通话功能,确保 TTS 和 ASR 功能配置正确
问题:长按说话没有反应 解决方案:检查麦克风权限是否已授予,或尝试重新启动语音通话
问题:AI 回复没有语音输出 解决方案:检查是否启用了 TTS 功能,确保没有静音
六、高级设置和自定义选项
TTS 高级设置
过滤选项:可以选择过滤思考过程、Markdown 标记和代码块,使 TTS 播放更流畅
进度条显示:可以选择是否显示 TTS 进度条
自定义音色和模型:可以添加自定义的音色和模型选项
ASR 高级设置
自动启动服务器:可以设置应用启动时是否自动启动 ASR 服务器
语言选择:可以选择不同的语音识别语言
语音通话高级设置
自定义提示词:可以自定义语音通话提示词,指导 AI 在语音通话模式下的回复方式
专用模型选择:可以为语音通话选择专门的 AI 模型,与当前对话使用的模型分开
快捷键自定义:可以设置自定义快捷键来控制录音
七、使用建议
选择合适的 TTS 服务:
如果追求高质量语音,推荐使用 OpenAI 或硅基流动
如果不想配置 API,可以使用浏览器 TTS 或免费在线 TTS
选择合适的 ASR 服务:
如果追求高准确率,推荐使用 OpenAI
如果不想配置 API,可以使用浏览器内置的语音识别
优化语音通话体验:
使用耳机可以避免 TTS 输出被 ASR 再次捕获
在安静的环境中使用可以提高识别准确率
使用自定义提示词可以让 AI 回复更适合语音播放
根据需求调整设置:
如果主要使用文本交流,可以只启用 TTS 功能
如果主要使用语音输入,可以只启用 ASR 功能
如果需要完整的语音对话体验,启用语音通话功能
希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能,享受更自然、便捷的 AI 交互体验!
最后更新于
这有帮助吗?