# Голосовые функции

{% hint style="warning" %}
Эта функция была отложена, поскольку соответствующий разработчик не продолжил сопровождать PR.
{% endhint %}

Инструкция по использованию голосовых функций Cherry Studio

1\. Обзор голосовых функций

Cherry Studio предлагает три основных модуля голосовых функций: TTS (преобразование текста в речь), ASR (распознавание речи) и голосовые звонки. Эти функции позволяют вам естественно общаться с ИИ с помощью голоса, улучшая пользовательский опыт.

* TTS (преобразование текста в речь): преобразует текст ответа ИИ в голосовой вывод
* ASR (распознавание речи): преобразует вашу речь в текстовый ввод
* Голосовые звонки: сочетание TTS и ASR для опыта голосового общения, похожего на ChatGPT

2\. Функция TTS (преобразование текста в речь)

1. Поддерживаемые типы сервисов

Cherry Studio поддерживает четыре типа TTS-сервисов:

* OpenAI: использует TTS API от OpenAI, требуется API-ключ
* Браузерный TTS: использует встроенную в браузер функцию синтеза речи, бесплатно и без настройки
* Siliconflow: использует TTS-сервис Siliconflow, требуется API-ключ
* Бесплатный онлайн TTS: использует бесплатный онлайн TTS-сервис, без API-ключа

2. Способ настройки
3. Перейдите на страницу настроек и выберите вкладку «Голосовые функции»
4. Во вкладке «TTS»:
   * Включите функцию TTS (переключите тумблер)
   * Выберите тип TTS-сервиса
   * В зависимости от выбранного типа сервиса настройте соответствующие параметры:
     * OpenAI: укажите API-ключ, адрес API, выберите голос и модель
     * Браузерный TTS: выберите голос
     * Siliconflow: укажите API-ключ, адрес API, выберите голос, модель, формат ответа и скорость речи
     * Бесплатный онлайн TTS: выберите голос и формат вывода
5. Настройте параметры фильтрации TTS (необязательно):
   * Фильтрация процесса рассуждений
   * Фильтрация Markdown-разметки
   * Фильтрация блоков кода
6. Установите, показывать ли индикатор прогресса TTS
7. Нажмите кнопку «Тест TTS», чтобы проверить правильность настроек
8. Как использовать

* После включения TTS ответы ИИ автоматически преобразуются в голосовой вывод
* В интерфейсе чата под каждым ответом ИИ будет отображаться кнопка воспроизведения TTS
* Нажмите кнопку воспроизведения, чтобы воспроизвести/поставить на паузу голос
* Если включён индикатор прогресса TTS, под текстом будет отображаться прогресс воспроизведения
* Длинный текст автоматически будет разбиваться на части для синтеза и воспроизводиться непрерывно

3\. Функция ASR (распознавание речи)

1. Поддерживаемые типы сервисов

Cherry Studio поддерживает три типа ASR-сервисов:

* OpenAI: использует модель Whisper от OpenAI, требуется API-ключ
* Браузер: использует встроенную в браузер функцию распознавания речи, бесплатно и без настройки
* Локальный сервер: подключение к локальному WebSocket-серверу для распознавания речи

2. Способ настройки
3. Перейдите на страницу настроек и выберите вкладку «Голосовые функции»
4. Во вкладке «ASR»:
   * Включите функцию ASR (переключите тумблер)
   * Выберите тип ASR-сервиса
   * В зависимости от выбранного типа сервиса настройте соответствующие параметры:
     * OpenAI: укажите API-ключ, адрес API, выберите модель
     * Браузер: дополнительная настройка не требуется
     * Локальный сервер: можно задать, запускать ли ASR-сервер автоматически при запуске приложения
   * Выберите язык распознавания речи (по умолчанию — китайский)
5. Нажмите кнопку «Тест ASR», чтобы проверить правильность настроек
6. Как использовать

* После включения ASR рядом с полем ввода будет отображаться кнопка распознавания речи
* Нажмите кнопку распознавания речи, чтобы начать запись
* После речи голос будет преобразован в текст и вставлен в поле ввода
* Нажмите кнопку ещё раз, чтобы завершить запись
* Распознавание речи поддерживает непрерывное распознавание нескольких фраз в режиме накопления

4\. Функция голосового звонка

1. Особенности функции

* Сочетает TTS и ASR, обеспечивая опыт голосового общения, похожий на ChatGPT
* Использует перетаскиваемое плавающее окно
* Поддерживает режим удержания для разговора
* Поддерживает настраиваемые горячие клавиши
* Поддерживает сворачивание окна
* Можно выбрать отдельную модель для голосового звонка
* Поддерживает пользовательские подсказки

2. Способ настройки
3. Перейдите на страницу настроек и выберите вкладку «Голосовые функции»
4. Во вкладке «Функция звонка»:
   * Включите функцию голосового звонка (переключите тумблер)
   * Нажмите кнопку «Выбрать модель» и выберите AI-модель для голосового звонка
   * В текстовом поле подсказки настройте подсказку для голосового звонка (необязательно)
   * Нажмите кнопку «Сохранить», чтобы сохранить подсказку, или кнопку «Сброс», чтобы восстановить подсказку по умолчанию
5. Как использовать
6. В интерфейсе чата нажмите кнопку голосового звонка справа от поля ввода (иконка телефона)
7. Окно голосового звонка откроется и воспроизведёт приветственное сообщение
8. Нажмите и удерживайте кнопку «Нажмите и говорите», чтобы начать запись (или используйте заданную горячую клавишу)
9. Отпустите кнопку, чтобы завершить запись и отправить её на обработку ИИ
10. ИИ сгенерирует ответ и воспроизведёт его через TTS
11. Используйте кнопки управления в окне:
    * Кнопка «Вкл./выкл. звук»: управляет выводом TTS
    * Кнопка «Пауза/Продолжить»: приостанавливает или продолжает разговор
    * Кнопка «Настройки»: настройка горячих клавиш
    * Кнопка «Свернуть»: сворачивает окно, оставляя только строку «Нажмите и говорите»
12. Нажмите кнопку закрытия, чтобы завершить звонок
13. Настройка горячих клавиш
14. В окне голосового звонка нажмите кнопку настроек
15. Во всплывающей панели настроек нажмите кнопку горячих клавиш
16. Нажмите нужную клавишу (например, пробел, Shift и т. д.)
17. Нажмите кнопку «Сохранить», чтобы сохранить настройки
18. При использовании удерживайте заданную горячую клавишу, чтобы начать запись, и отпустите, чтобы завершить её и отправить

5\. Часто задаваемые вопросы и решения

1. Проблемы, связанные с TTS

* Проблема: TTS не воспроизводит звук. Решение: проверьте, включена ли функция TTS, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры
* Проблема: низкое качество воспроизведения TTS. Решение: попробуйте сменить тип TTS-сервиса или голос
* Проблема: при воспроизведении TTS отображается сообщение об ошибке. Решение: проверьте правильность API-ключа и наличие сетевого соединения

2. Проблемы, связанные с ASR

* Проблема: ASR не распознаёт речь. Решение: проверьте, включена ли функция ASR, убедитесь, что выбран правильный тип сервиса и настроены необходимые параметры
* Проблема: низкая точность распознавания ASR. Решение: попробуйте сменить тип ASR-сервиса или отрегулировать положение микрофона и громкость
* Проблема: не удалось подключиться к ASR-серверу. Решение: проверьте, работает ли локальный сервер нормально, или попробуйте перезапустить приложение

3. Проблемы, связанные с голосовым звонком

* Проблема: окно голосового звонка не открывается. Решение: проверьте, включена ли функция голосового звонка, и убедитесь, что TTS и ASR настроены правильно
* Проблема: удержание кнопки «Нажмите и говорите» не реагирует. Решение: проверьте, предоставлено ли разрешение на микрофон, или попробуйте перезапустить голосовой звонок
* Проблема: у ответа ИИ нет голосового вывода. Решение: проверьте, включена ли функция TTS, и убедитесь, что звук не отключён

6\. Расширенные настройки и параметры кастомизации

1. Расширенные настройки TTS

* Параметры фильтрации: можно выбрать фильтрацию процесса рассуждений, Markdown-разметки и блоков кода, чтобы воспроизведение TTS было более плавным
* Отображение индикатора прогресса: можно выбрать, показывать ли индикатор прогресса TTS
* Пользовательские голоса и модели: можно добавить собственные варианты голосов и моделей

2. Расширенные настройки ASR

* Автозапуск сервера: можно задать, запускать ли ASR-сервер автоматически при запуске приложения
* Выбор языка: можно выбрать разные языки распознавания речи

3. Расширенные настройки голосового звонка

* Пользовательские подсказки: можно настроить подсказку для голосового звонка, чтобы направлять стиль ответов ИИ в режиме голосового звонка
* Выбор специальной модели: можно выбрать отдельную AI-модель для голосового звонка, отличную от модели, используемой в текущем диалоге
* Настройка горячих клавиш: можно задать пользовательские горячие клавиши для управления записью

7\. Рекомендации по использованию

1. Выберите подходящий TTS-сервис:
   * Если важна высокая качество голоса, рекомендуется использовать OpenAI или Siliconflow
   * Если не хотите настраивать API, можно использовать браузерный TTS или бесплатный онлайн TTS
2. Выберите подходящий ASR-сервис:
   * Если важна высокая точность, рекомендуется использовать OpenAI
   * Если не хотите настраивать API, можно использовать встроенное в браузер распознавание речи
3. Оптимизируйте опыт голосового звонка:
   * Использование наушников поможет избежать повторного захвата TTS-вывода ASR
   * Использование в тихой обстановке может повысить точность распознавания
   * Использование пользовательских подсказок поможет сделать ответы ИИ более подходящими для голосового воспроизведения
4. Настраивайте параметры в зависимости от ваших потребностей:
   * Если вы в основном используете текстовое общение, можно включить только TTS
   * Если вы в основном используете голосовой ввод, можно включить только ASR
   * Если нужен полноценный опыт голосового общения, включите функцию голосового звонка

Надеемся, что это руководство поможет вам в полной мере использовать голосовые функции Cherry Studio и наслаждаться более естественным и удобным взаимодействием с ИИ!


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.cherry-ai.com/docs/russian/pre-basic/settings/yu-yin-gong-neng.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.