Голосовые функции
Эта функция отложена из‑за того, что соответствующий разработчик не поддерживает PR.
Инструкция по использованию голосовых функций Cherry Studio
1. Обзор голосовых функций
Cherry Studio предоставляет три основных голосовых модуля: TTS (текст в речь), ASR (распознавание речи) и голосовые звонки. Эти функции позволяют вам естественно общаться с ИИ голосом, улучшая опыт использования.
TTS (текст в речь): преобразует текст ответов ИИ в голосовой вывод
ASR (распознавание речи): преобразует вашу речь в текстовый ввод
Голосовые звонки: сочетает TTS и ASR для создания голосового диалога, похожего на ChatGPT
2. Функция TTS (текст в речь)
Поддерживаемые типы сервисов
Cherry Studio поддерживает четыре типа TTS‑сервисов:
OpenAI: использует TTS API OpenAI, требует API‑ключ
TTS в браузере: использует встроенные в браузер возможности синтеза речи, бесплатно и не требует настройки
Siliconflow: использует TTS‑сервис Siliconflow, требует API‑ключ
Бесплатный онлайн TTS: использует бесплатный онлайн‑TTS сервис, не требует API‑ключа
Метод настройки
Перейдите на страницу настроек и выберите вкладку "Голосовые функции"
Во вкладке "TTS":
Включите функцию TTS (переключите тумблер)
Выберите тип TTS‑сервиса
В зависимости от выбранного типа сервиса настройте соответствующие параметры:
OpenAI: введите API‑ключ, адрес API, выберите голос и модель
TTS в браузере: выберите голос
Siliconflow: введите API‑ключ, адрес API, выберите голос, модель, формат ответа и скорость речи
Бесплатный онлайн TTS: выберите голос и формат вывода
Настройка фильтров TTS (по желанию):
Фильтрация мыслительного процесса
Фильтрация Markdown‑разметки
Фильтрация блоков кода
Установите, отображать ли индикатор прогресса TTS
Нажмите кнопку "Тест TTS", чтобы проверить корректность настройки
Способ использования
После включения TTS ответы ИИ автоматически будут преобразовываться в голосовой вывод
В окне чата под каждым ответом ИИ будет отображаться кнопка воспроизведения TTS
Нажатие на кнопку воспроизведения позволяет воспроизводить/приостанавливать голос
Если включен индикатор прогресса TTS, под текстом будет отображаться прогресс воспроизведения
Длинные тексты автоматически разделяются на части для последовательного синтеза и воспроизведения
3. Функция ASR (распознавание речи)
Поддерживаемые типы сервисов
Cherry Studio поддерживает три типа ASR‑сервисов:
OpenAI: использует модель Whisper от OpenAI, требует API‑ключ
Браузер: использует встроенное в браузер распознавание речи, бесплатно и не требует настройки
Локальный сервер: подключение к локальному WebSocket‑серверу для распознавания речи
Метод настройки
Перейдите на страницу настроек и выберите вкладку "Голосовые функции"
Во вкладке "ASR":
Включите функцию ASR (переключите тумблер)
Выберите тип ASR‑сервиса
В зависимости от выбранного типа сервиса настройте соответствующие параметры:
OpenAI: введите API‑ключ, адрес API, выберите модель
Браузер: не требует дополнительной настройки
Локальный сервер: можно настроить автоматический запуск ASR‑сервера при запуске приложения
Выберите язык распознавания речи (по умолчанию — китайский)
Нажмите кнопку "Тест ASR", чтобы проверить корректность настройки
Способ использования
После включения ASR рядом с полем ввода появится кнопка распознавания речи
Нажмите кнопку распознавания речи, чтобы начать запись
После разговора речь будет преобразована в текст и вставлена в поле ввода
Повторное нажатие кнопки завершит запись
Распознавание речи поддерживает непрерывную обработку нескольких фраз в накопительном режиме
4. Функция голосовых звонков
Особенности функции
Сочетание TTS и ASR для реализации голосового диалога, похожего на ChatGPT
Использование перетаскиваемого плавающего окна интерфейса
Поддержка режима «держать для говорения»
Поддержка настраиваемых горячих клавиш
Поддержка сворачивания окна
Возможность выбора специализированной модели для голосовых звонков
Поддержка пользовательских подсказок
Метод настройки
Перейдите на страницу настроек и выберите вкладку "Голосовые функции"
Во вкладке "Функция звонков":
Включите функцию голосовых звонков (переключите тумблер)
Нажмите кнопку "Выбрать модель", чтобы выбрать модель ИИ для голосовых звонков
По желанию задайте подсказку для голосовых звонков в текстовом поле подсказки
Нажмите кнопку "Сохранить", чтобы сохранить подсказку, или кнопку "Сброс", чтобы восстановить подсказку по умолчанию
Способ использования
В окне чата нажмите кнопку голосового звонка справа от поля ввода (иконка телефона)
Откроется окно голосового звонка и будет воспроизведено приветственное голосовое сообщение
Удерживайте кнопку "Держать для говорения", чтобы начать запись (или используйте установленную горячую клавишу)
Отпустите кнопку, чтобы закончить запись и отправить её на обработку ИИ
ИИ сгенерирует ответ и воспроизведет его через TTS
Используйте кнопки управления в окне:
Кнопка отключения/включения звука: управляет TTS‑выходом
Кнопка паузы/продолжения: приостанавливает или возобновляет диалог
Кнопка настроек: настройка горячих клавиш
Кнопка свертывания: сворачивает окно, оставляя только строку с кнопкой «держать для говорения»
Нажмите кнопку закрытия, чтобы завершить звонок
Настройка горячих клавиш
В окне голосового звонка нажмите кнопку настроек
В появившейся панели настроек нажмите кнопку горячих клавиш
Нажмите клавишу, которую хотите назначить (например, пробел, Shift и т. п.)
Нажмите кнопку "Сохранить", чтобы сохранить настройку
При использовании удерживайте заданную горячую клавишу, чтобы начать запись; отпускание завершит запись и отправит её
5. Частые проблемы и их решения
Проблемы, связанные с TTS
Проблема: TTS не воспроизводит звук. Решение: проверьте, включена ли функция TTS, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры
Проблема: плохое качество воспроизведения TTS. Решение: попробуйте сменить тип TTS‑сервиса или голос
Проблема: при воспроизведении TTS появляется сообщение об ошибке. Решение: проверьте правильность API‑ключа и состояние сетевого соединения
Проблемы, связанные с ASR
Проблема: ASR не распознаёт речь. Решение: проверьте, включена ли функция ASR, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры
Проблема: низкая точность распознавания ASR. Решение: попробуйте сменить тип ASR‑сервиса или отрегулировать положение микрофона и уровень громкости
Проблема: не удалось подключиться к ASR‑серверу. Решение: проверьте, работает ли локальный сервер, или попробуйте перезапустить приложение
Проблемы, связанные с голосовыми звонками
Проблема: окно голосового звонка не открывается. Решение: проверьте, включена ли функция голосовых звонков, убедитесь, что функции TTS и ASR настроены правильно
Проблема: удержание кнопки для говорения не реагирует. Решение: проверьте, предоставлены ли права на микрофон, или попробуйте перезапустить голосовой звонок
Проблема: у ИИ нет голосового вывода ответа. Решение: проверьте, включена ли функция TTS, убедитесь, что звук не отключён
6. Расширенные настройки и параметры кастомизации
Расширенные настройки TTS
Параметры фильтрации: можно выбрать фильтрацию мыслительного процесса, Markdown‑разметки и блоков кода, чтобы воспроизведение TTS было более плавным
Отображение индикатора прогресса: можно выбрать, показывать ли индикатор прогресса TTS
Пользовательские голоса и модели: можно добавить пользовательские варианты голосов и моделей
Расширенные настройки ASR
Автоматический запуск сервера: можно настроить автоматический запуск ASR‑сервера при старте приложения
Выбор языка: можно выбирать разные языки распознавания речи
Расширенные настройки голосовых звонков
Пользовательские подсказки: можно задать собственные подсказки для голосовых звонков, чтобы направлять ответы ИИ в режиме звонка
Выбор специализированной модели: для голосовых звонков можно выбрать отдельную модель ИИ, отличную от той, что используется в текущем разговоре
Настройка горячих клавиш: можно задать пользовательские горячие клавиши для управления записью
7. Рекомендации по использованию
Выбор подходящего TTS‑сервиса:
Если вы стремитесь к высокому качеству голоса, рекомендуется использовать OpenAI или Siliconflow
Если не хотите настраивать API, можно использовать TTS в браузере или бесплатный онлайн‑TTS
Выбор подходящего ASR‑сервиса:
Если вы стремитесь к высокой точности, рекомендуется использовать OpenAI
Если не хотите настраивать API, можно использовать встроенное в браузер распознавание речи
Оптимизация опыта голосовых звонков:
Использование наушников поможет избежать повторного захвата TTS‑выхода ASR
Использование в тихой обстановке повысит точность распознавания
Использование пользовательских подсказок поможет ИИ формировать ответы, более пригодные для голосового воспроизведения
Настройка в соответствии с потребностями:
Если вы в основном общаетесь текстом, можно включить только функцию TTS
Если вы в основном используете голосовой ввод, можно включить только функцию ASR
Если вам нужен полный голосовой диалог, включите функцию голосовых звонков
Надеемся, что это руководство поможет вам максимально эффективно использовать голосовые функции Cherry Studio и получать более естественное и удобное взаимодействие с ИИ!
Последнее обновление
Это было полезно?