phone-arrow-up-rightГолосовые функции

circle-exclamation

Инструкция по использованию голосовых функций Cherry Studio

1. Обзор голосовых функций

Cherry Studio предоставляет три основных голосовых модуля: TTS (текст в речь), ASR (распознавание речи) и голосовые звонки. Эти функции позволяют вам естественно общаться с ИИ голосом, улучшая опыт использования.

  • TTS (текст в речь): преобразует текст ответов ИИ в голосовой вывод

  • ASR (распознавание речи): преобразует вашу речь в текстовый ввод

  • Голосовые звонки: сочетает TTS и ASR для создания голосового диалога, похожего на ChatGPT

2. Функция TTS (текст в речь)

  1. Поддерживаемые типы сервисов

Cherry Studio поддерживает четыре типа TTS‑сервисов:

  • OpenAI: использует TTS API OpenAI, требует API‑ключ

  • TTS в браузере: использует встроенные в браузер возможности синтеза речи, бесплатно и не требует настройки

  • Siliconflow: использует TTS‑сервис Siliconflow, требует API‑ключ

  • Бесплатный онлайн TTS: использует бесплатный онлайн‑TTS сервис, не требует API‑ключа

  1. Метод настройки

  2. Перейдите на страницу настроек и выберите вкладку "Голосовые функции"

  3. Во вкладке "TTS":

    • Включите функцию TTS (переключите тумблер)

    • Выберите тип TTS‑сервиса

    • В зависимости от выбранного типа сервиса настройте соответствующие параметры:

      • OpenAI: введите API‑ключ, адрес API, выберите голос и модель

      • TTS в браузере: выберите голос

      • Siliconflow: введите API‑ключ, адрес API, выберите голос, модель, формат ответа и скорость речи

      • Бесплатный онлайн TTS: выберите голос и формат вывода

  4. Настройка фильтров TTS (по желанию):

    • Фильтрация мыслительного процесса

    • Фильтрация Markdown‑разметки

    • Фильтрация блоков кода

  5. Установите, отображать ли индикатор прогресса TTS

  6. Нажмите кнопку "Тест TTS", чтобы проверить корректность настройки

  7. Способ использования

  • После включения TTS ответы ИИ автоматически будут преобразовываться в голосовой вывод

  • В окне чата под каждым ответом ИИ будет отображаться кнопка воспроизведения TTS

  • Нажатие на кнопку воспроизведения позволяет воспроизводить/приостанавливать голос

  • Если включен индикатор прогресса TTS, под текстом будет отображаться прогресс воспроизведения

  • Длинные тексты автоматически разделяются на части для последовательного синтеза и воспроизведения

3. Функция ASR (распознавание речи)

  1. Поддерживаемые типы сервисов

Cherry Studio поддерживает три типа ASR‑сервисов:

  • OpenAI: использует модель Whisper от OpenAI, требует API‑ключ

  • Браузер: использует встроенное в браузер распознавание речи, бесплатно и не требует настройки

  • Локальный сервер: подключение к локальному WebSocket‑серверу для распознавания речи

  1. Метод настройки

  2. Перейдите на страницу настроек и выберите вкладку "Голосовые функции"

  3. Во вкладке "ASR":

    • Включите функцию ASR (переключите тумблер)

    • Выберите тип ASR‑сервиса

    • В зависимости от выбранного типа сервиса настройте соответствующие параметры:

      • OpenAI: введите API‑ключ, адрес API, выберите модель

      • Браузер: не требует дополнительной настройки

      • Локальный сервер: можно настроить автоматический запуск ASR‑сервера при запуске приложения

    • Выберите язык распознавания речи (по умолчанию — китайский)

  4. Нажмите кнопку "Тест ASR", чтобы проверить корректность настройки

  5. Способ использования

  • После включения ASR рядом с полем ввода появится кнопка распознавания речи

  • Нажмите кнопку распознавания речи, чтобы начать запись

  • После разговора речь будет преобразована в текст и вставлена в поле ввода

  • Повторное нажатие кнопки завершит запись

  • Распознавание речи поддерживает непрерывную обработку нескольких фраз в накопительном режиме

4. Функция голосовых звонков

  1. Особенности функции

  • Сочетание TTS и ASR для реализации голосового диалога, похожего на ChatGPT

  • Использование перетаскиваемого плавающего окна интерфейса

  • Поддержка режима «держать для говорения»

  • Поддержка настраиваемых горячих клавиш

  • Поддержка сворачивания окна

  • Возможность выбора специализированной модели для голосовых звонков

  • Поддержка пользовательских подсказок

  1. Метод настройки

  2. Перейдите на страницу настроек и выберите вкладку "Голосовые функции"

  3. Во вкладке "Функция звонков":

    • Включите функцию голосовых звонков (переключите тумблер)

    • Нажмите кнопку "Выбрать модель", чтобы выбрать модель ИИ для голосовых звонков

    • По желанию задайте подсказку для голосовых звонков в текстовом поле подсказки

    • Нажмите кнопку "Сохранить", чтобы сохранить подсказку, или кнопку "Сброс", чтобы восстановить подсказку по умолчанию

  4. Способ использования

  5. В окне чата нажмите кнопку голосового звонка справа от поля ввода (иконка телефона)

  6. Откроется окно голосового звонка и будет воспроизведено приветственное голосовое сообщение

  7. Удерживайте кнопку "Держать для говорения", чтобы начать запись (или используйте установленную горячую клавишу)

  8. Отпустите кнопку, чтобы закончить запись и отправить её на обработку ИИ

  9. ИИ сгенерирует ответ и воспроизведет его через TTS

  10. Используйте кнопки управления в окне:

    • Кнопка отключения/включения звука: управляет TTS‑выходом

    • Кнопка паузы/продолжения: приостанавливает или возобновляет диалог

    • Кнопка настроек: настройка горячих клавиш

    • Кнопка свертывания: сворачивает окно, оставляя только строку с кнопкой «держать для говорения»

  11. Нажмите кнопку закрытия, чтобы завершить звонок

  12. Настройка горячих клавиш

  13. В окне голосового звонка нажмите кнопку настроек

  14. В появившейся панели настроек нажмите кнопку горячих клавиш

  15. Нажмите клавишу, которую хотите назначить (например, пробел, Shift и т. п.)

  16. Нажмите кнопку "Сохранить", чтобы сохранить настройку

  17. При использовании удерживайте заданную горячую клавишу, чтобы начать запись; отпускание завершит запись и отправит её

5. Частые проблемы и их решения

  1. Проблемы, связанные с TTS

  • Проблема: TTS не воспроизводит звук. Решение: проверьте, включена ли функция TTS, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры

  • Проблема: плохое качество воспроизведения TTS. Решение: попробуйте сменить тип TTS‑сервиса или голос

  • Проблема: при воспроизведении TTS появляется сообщение об ошибке. Решение: проверьте правильность API‑ключа и состояние сетевого соединения

  1. Проблемы, связанные с ASR

  • Проблема: ASR не распознаёт речь. Решение: проверьте, включена ли функция ASR, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры

  • Проблема: низкая точность распознавания ASR. Решение: попробуйте сменить тип ASR‑сервиса или отрегулировать положение микрофона и уровень громкости

  • Проблема: не удалось подключиться к ASR‑серверу. Решение: проверьте, работает ли локальный сервер, или попробуйте перезапустить приложение

  1. Проблемы, связанные с голосовыми звонками

  • Проблема: окно голосового звонка не открывается. Решение: проверьте, включена ли функция голосовых звонков, убедитесь, что функции TTS и ASR настроены правильно

  • Проблема: удержание кнопки для говорения не реагирует. Решение: проверьте, предоставлены ли права на микрофон, или попробуйте перезапустить голосовой звонок

  • Проблема: у ИИ нет голосового вывода ответа. Решение: проверьте, включена ли функция TTS, убедитесь, что звук не отключён

6. Расширенные настройки и параметры кастомизации

  1. Расширенные настройки TTS

  • Параметры фильтрации: можно выбрать фильтрацию мыслительного процесса, Markdown‑разметки и блоков кода, чтобы воспроизведение TTS было более плавным

  • Отображение индикатора прогресса: можно выбрать, показывать ли индикатор прогресса TTS

  • Пользовательские голоса и модели: можно добавить пользовательские варианты голосов и моделей

  1. Расширенные настройки ASR

  • Автоматический запуск сервера: можно настроить автоматический запуск ASR‑сервера при старте приложения

  • Выбор языка: можно выбирать разные языки распознавания речи

  1. Расширенные настройки голосовых звонков

  • Пользовательские подсказки: можно задать собственные подсказки для голосовых звонков, чтобы направлять ответы ИИ в режиме звонка

  • Выбор специализированной модели: для голосовых звонков можно выбрать отдельную модель ИИ, отличную от той, что используется в текущем разговоре

  • Настройка горячих клавиш: можно задать пользовательские горячие клавиши для управления записью

7. Рекомендации по использованию

  1. Выбор подходящего TTS‑сервиса:

    • Если вы стремитесь к высокому качеству голоса, рекомендуется использовать OpenAI или Siliconflow

    • Если не хотите настраивать API, можно использовать TTS в браузере или бесплатный онлайн‑TTS

  2. Выбор подходящего ASR‑сервиса:

    • Если вы стремитесь к высокой точности, рекомендуется использовать OpenAI

    • Если не хотите настраивать API, можно использовать встроенное в браузер распознавание речи

  3. Оптимизация опыта голосовых звонков:

    • Использование наушников поможет избежать повторного захвата TTS‑выхода ASR

    • Использование в тихой обстановке повысит точность распознавания

    • Использование пользовательских подсказок поможет ИИ формировать ответы, более пригодные для голосового воспроизведения

  4. Настройка в соответствии с потребностями:

    • Если вы в основном общаетесь текстом, можно включить только функцию TTS

    • Если вы в основном используете голосовой ввод, можно включить только функцию ASR

    • Если вам нужен полный голосовой диалог, включите функцию голосовых звонков

Надеемся, что это руководство поможет вам максимально эффективно использовать голосовые функции Cherry Studio и получать более естественное и удобное взаимодействие с ИИ!

Последнее обновление

Это было полезно?