phone-arrow-up-rightГолосовые функции

circle-exclamation

Инструкция по использованию голосовых функций Cherry Studio

1. Обзор голосовых функций

Cherry Studio предлагает три основных модуля голосовых функций: TTS (преобразование текста в речь), ASR (распознавание речи) и голосовые звонки. Эти функции позволяют вам естественно общаться с ИИ с помощью голоса, улучшая пользовательский опыт.

  • TTS (преобразование текста в речь): преобразует текст ответа ИИ в голосовой вывод

  • ASR (распознавание речи): преобразует вашу речь в текстовый ввод

  • Голосовые звонки: сочетание TTS и ASR для опыта голосового общения, похожего на ChatGPT

2. Функция TTS (преобразование текста в речь)

  1. Поддерживаемые типы сервисов

Cherry Studio поддерживает четыре типа TTS-сервисов:

  • OpenAI: использует TTS API от OpenAI, требуется API-ключ

  • Браузерный TTS: использует встроенную в браузер функцию синтеза речи, бесплатно и без настройки

  • Siliconflow: использует TTS-сервис Siliconflow, требуется API-ключ

  • Бесплатный онлайн TTS: использует бесплатный онлайн TTS-сервис, без API-ключа

  1. Способ настройки

  2. Перейдите на страницу настроек и выберите вкладку «Голосовые функции»

  3. Во вкладке «TTS»:

    • Включите функцию TTS (переключите тумблер)

    • Выберите тип TTS-сервиса

    • В зависимости от выбранного типа сервиса настройте соответствующие параметры:

      • OpenAI: укажите API-ключ, адрес API, выберите голос и модель

      • Браузерный TTS: выберите голос

      • Siliconflow: укажите API-ключ, адрес API, выберите голос, модель, формат ответа и скорость речи

      • Бесплатный онлайн TTS: выберите голос и формат вывода

  4. Настройте параметры фильтрации TTS (необязательно):

    • Фильтрация процесса рассуждений

    • Фильтрация Markdown-разметки

    • Фильтрация блоков кода

  5. Установите, показывать ли индикатор прогресса TTS

  6. Нажмите кнопку «Тест TTS», чтобы проверить правильность настроек

  7. Как использовать

  • После включения TTS ответы ИИ автоматически преобразуются в голосовой вывод

  • В интерфейсе чата под каждым ответом ИИ будет отображаться кнопка воспроизведения TTS

  • Нажмите кнопку воспроизведения, чтобы воспроизвести/поставить на паузу голос

  • Если включён индикатор прогресса TTS, под текстом будет отображаться прогресс воспроизведения

  • Длинный текст автоматически будет разбиваться на части для синтеза и воспроизводиться непрерывно

3. Функция ASR (распознавание речи)

  1. Поддерживаемые типы сервисов

Cherry Studio поддерживает три типа ASR-сервисов:

  • OpenAI: использует модель Whisper от OpenAI, требуется API-ключ

  • Браузер: использует встроенную в браузер функцию распознавания речи, бесплатно и без настройки

  • Локальный сервер: подключение к локальному WebSocket-серверу для распознавания речи

  1. Способ настройки

  2. Перейдите на страницу настроек и выберите вкладку «Голосовые функции»

  3. Во вкладке «ASR»:

    • Включите функцию ASR (переключите тумблер)

    • Выберите тип ASR-сервиса

    • В зависимости от выбранного типа сервиса настройте соответствующие параметры:

      • OpenAI: укажите API-ключ, адрес API, выберите модель

      • Браузер: дополнительная настройка не требуется

      • Локальный сервер: можно задать, запускать ли ASR-сервер автоматически при запуске приложения

    • Выберите язык распознавания речи (по умолчанию — китайский)

  4. Нажмите кнопку «Тест ASR», чтобы проверить правильность настроек

  5. Как использовать

  • После включения ASR рядом с полем ввода будет отображаться кнопка распознавания речи

  • Нажмите кнопку распознавания речи, чтобы начать запись

  • После речи голос будет преобразован в текст и вставлен в поле ввода

  • Нажмите кнопку ещё раз, чтобы завершить запись

  • Распознавание речи поддерживает непрерывное распознавание нескольких фраз в режиме накопления

4. Функция голосового звонка

  1. Особенности функции

  • Сочетает TTS и ASR, обеспечивая опыт голосового общения, похожий на ChatGPT

  • Использует перетаскиваемое плавающее окно

  • Поддерживает режим удержания для разговора

  • Поддерживает настраиваемые горячие клавиши

  • Поддерживает сворачивание окна

  • Можно выбрать отдельную модель для голосового звонка

  • Поддерживает пользовательские подсказки

  1. Способ настройки

  2. Перейдите на страницу настроек и выберите вкладку «Голосовые функции»

  3. Во вкладке «Функция звонка»:

    • Включите функцию голосового звонка (переключите тумблер)

    • Нажмите кнопку «Выбрать модель» и выберите AI-модель для голосового звонка

    • В текстовом поле подсказки настройте подсказку для голосового звонка (необязательно)

    • Нажмите кнопку «Сохранить», чтобы сохранить подсказку, или кнопку «Сброс», чтобы восстановить подсказку по умолчанию

  4. Как использовать

  5. В интерфейсе чата нажмите кнопку голосового звонка справа от поля ввода (иконка телефона)

  6. Окно голосового звонка откроется и воспроизведёт приветственное сообщение

  7. Нажмите и удерживайте кнопку «Нажмите и говорите», чтобы начать запись (или используйте заданную горячую клавишу)

  8. Отпустите кнопку, чтобы завершить запись и отправить её на обработку ИИ

  9. ИИ сгенерирует ответ и воспроизведёт его через TTS

  10. Используйте кнопки управления в окне:

    • Кнопка «Вкл./выкл. звук»: управляет выводом TTS

    • Кнопка «Пауза/Продолжить»: приостанавливает или продолжает разговор

    • Кнопка «Настройки»: настройка горячих клавиш

    • Кнопка «Свернуть»: сворачивает окно, оставляя только строку «Нажмите и говорите»

  11. Нажмите кнопку закрытия, чтобы завершить звонок

  12. Настройка горячих клавиш

  13. В окне голосового звонка нажмите кнопку настроек

  14. Во всплывающей панели настроек нажмите кнопку горячих клавиш

  15. Нажмите нужную клавишу (например, пробел, Shift и т. д.)

  16. Нажмите кнопку «Сохранить», чтобы сохранить настройки

  17. При использовании удерживайте заданную горячую клавишу, чтобы начать запись, и отпустите, чтобы завершить её и отправить

5. Часто задаваемые вопросы и решения

  1. Проблемы, связанные с TTS

  • Проблема: TTS не воспроизводит звук. Решение: проверьте, включена ли функция TTS, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры

  • Проблема: низкое качество воспроизведения TTS. Решение: попробуйте сменить тип TTS-сервиса или голос

  • Проблема: при воспроизведении TTS отображается сообщение об ошибке. Решение: проверьте правильность API-ключа и наличие сетевого соединения

  1. Проблемы, связанные с ASR

  • Проблема: ASR не распознаёт речь. Решение: проверьте, включена ли функция ASR, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры

  • Проблема: низкая точность распознавания ASR. Решение: попробуйте сменить тип ASR-сервиса или отрегулировать положение микрофона и громкость

  • Проблема: не удалось подключиться к ASR-серверу. Решение: проверьте, работает ли локальный сервер нормально, или попробуйте перезапустить приложение

  1. Проблемы, связанные с голосовым звонком

  • Проблема: окно голосового звонка не открывается. Решение: проверьте, включена ли функция голосового звонка, и убедитесь, что TTS и ASR настроены правильно

  • Проблема: удержание кнопки «Нажмите и говорите» не реагирует. Решение: проверьте, предоставлено ли разрешение на микрофон, или попробуйте перезапустить голосовой звонок

  • Проблема: у ответа ИИ нет голосового вывода. Решение: проверьте, включена ли функция TTS, и убедитесь, что звук не отключён

6. Расширенные настройки и параметры кастомизации

  1. Расширенные настройки TTS

  • Параметры фильтрации: можно выбрать фильтрацию процесса рассуждений, Markdown-разметки и блоков кода, чтобы воспроизведение TTS было более плавным

  • Отображение индикатора прогресса: можно выбрать, показывать ли индикатор прогресса TTS

  • Пользовательские голоса и модели: можно добавить собственные варианты голосов и моделей

  1. Расширенные настройки ASR

  • Автозапуск сервера: можно задать, запускать ли ASR-сервер автоматически при запуске приложения

  • Выбор языка: можно выбрать разные языки распознавания речи

  1. Расширенные настройки голосового звонка

  • Пользовательские подсказки: можно настроить подсказку для голосового звонка, чтобы направлять стиль ответов ИИ в режиме голосового звонка

  • Выбор специальной модели: можно выбрать отдельную AI-модель для голосового звонка, отличную от модели, используемой в текущем диалоге

  • Настройка горячих клавиш: можно задать пользовательские горячие клавиши для управления записью

7. Рекомендации по использованию

  1. Выберите подходящий TTS-сервис:

    • Если важна высокая качество голоса, рекомендуется использовать OpenAI или Siliconflow

    • Если не хотите настраивать API, можно использовать браузерный TTS или бесплатный онлайн TTS

  2. Выберите подходящий ASR-сервис:

    • Если важна высокая точность, рекомендуется использовать OpenAI

    • Если не хотите настраивать API, можно использовать встроенное в браузер распознавание речи

  3. Оптимизируйте опыт голосового звонка:

    • Использование наушников поможет избежать повторного захвата TTS-вывода ASR

    • Использование в тихой обстановке может повысить точность распознавания

    • Использование пользовательских подсказок поможет сделать ответы ИИ более подходящими для голосового воспроизведения

  4. Настраивайте параметры в зависимости от ваших потребностей:

    • Если вы в основном используете текстовое общение, можно включить только TTS

    • Если вы в основном используете голосовой ввод, можно включить только ASR

    • Если нужен полноценный опыт голосового общения, включите функцию голосового звонка

Надеемся, что это руководство поможет вам в полной мере использовать голосовые функции Cherry Studio и наслаждаться более естественным и удобным взаимодействием с ИИ!

Последнее обновление

Это было полезно?