# 音声機能

{% hint style="warning" %}
この機能は、関連する開発者が PR の維持を続けなかったため保留されています。
{% endhint %}

Cherry Studio 音声機能の使用説明

一、音声機能の概要

Cherry Studio は TTS（テキスト読み上げ）、ASR（音声認識）、音声通話の3つの主要な音声機能モジュールを提供します。これらの機能により、音声で AI と自然にやり取りでき、使用体験が向上します。

* TTS（テキスト読み上げ）：AI の返信テキストを音声出力に変換する
* ASR（音声認識）：あなたの音声をテキスト入力に変換する
* 音声通話：TTS と ASR を組み合わせ、ChatGPT のような音声対話体験を実現する

二、TTS（テキスト読み上げ）機能

1. 対応するサービスの種類

Cherry Studio は4種類の TTS サービスをサポートします：

* OpenAI：OpenAI の TTS API を使用します。API キーが必要です
* ブラウザ TTS：ブラウザ内蔵の音声合成機能を使用します。無料で設定不要です
* Siliconflow：Siliconflow の TTS サービスを使用します。API キーが必要です
* 無料オンライン TTS：無料のオンライン TTS サービスを使用します。API キーは不要です

2. 設定方法
3. 設定ページに入り、「音声機能」タブを選択します
4. 「TTS」サブタブで：
   * TTS 機能を有効にする（スイッチをオン）
   * TTS サービスの種類を選択する
   * 選択したサービスの種類に応じて、該当するパラメータを設定します：
     * OpenAI：API キー、API アドレスを入力し、音色とモデルを選択します
     * ブラウザ TTS：音色を選択します
     * Siliconflow：API キー、API アドレスを入力し、音色、モデル、応答形式、再生速度を選択します
     * 無料オンライン TTS：音色と出力形式を選択します
5. TTS のフィルタオプションを設定する（任意）：
   * 思考過程をフィルタする
   * Markdown タグをフィルタする
   * コードブロックをフィルタする
6. TTS の進捗バーを表示するかどうかを設定する
7. 「TTS をテスト」ボタンをクリックして設定が正しいか確認する
8. 使用方法

* TTS 機能を有効にすると、AI の返信が自動的に音声出力に変換されます
* チャット画面では、各 AI 返信の下に TTS 再生ボタンが表示されます
* 再生ボタンをクリックして音声を再生／一時停止できます
* TTS 進捗バーを有効にしている場合、テキストの下に再生進捗が表示されます
* 長文は自動的に分割して合成し、連続再生されます

三、ASR（音声認識）機能

1. 対応するサービスの種類

Cherry Studio は3種類の ASR サービスをサポートします：

* OpenAI：OpenAI の Whisper モデルを使用します。API キーが必要です
* ブラウザ：ブラウザ内蔵の音声認識機能を使用します。無料で設定不要です
* ローカルサーバー：ローカルの WebSocket サーバーに接続して音声認識を行います

2. 設定方法
3. 設定ページに入り、「音声機能」タブを選択します
4. 「ASR」サブタブで：
   * ASR 機能を有効にする（スイッチをオン）
   * ASR サービスの種類を選択する
   * 選択したサービスの種類に応じて、該当するパラメータを設定します：
     * OpenAI：API キー、API アドレスを入力し、モデルを選択します
     * ブラウザ：追加の設定は不要です
     * ローカルサーバー：アプリ起動時に ASR サーバーを自動起動するかどうかを設定できます
   * 音声認識の言語を選択する（デフォルトは中国語）
5. 「ASR をテスト」ボタンをクリックして設定が正しいか確認する
6. 使用方法

* ASR 機能を有効にすると、入力欄の横に音声認識ボタンが表示されます
* 音声認識ボタンをクリックして録音を開始します
* 話すと、音声がテキストに変換され入力欄に入ります
* 再度ボタンをクリックして録音を終了します
* 音声認識は複数の文を連続で認識でき、累積モードを採用します

四、音声通話機能

1. 機能の特徴

* TTS と ASR を組み合わせ、ChatGPT のような音声対話体験を実現します
* ドラッグ可能なフローティングウィンドウのインターフェースを使用します
* 長押しで話すモードをサポートします
* カスタムホットキーをサポートします
* ウィンドウの折りたたみに対応します
* 専用の音声通話モデルを選択することができます
* カスタムプロンプトをサポートします

2. 設定方法
3. 設定ページに入り、「音声機能」タブを選択します
4. 「通話機能」サブタブで：
   * 音声通話機能を有効にする（スイッチをオン）
   * 「モデルを選択」ボタンをクリックして、音声通話に使用する AI モデルを選択します
   * プロンプトのテキストボックスで音声通話用のプロンプトをカスタマイズします（任意）
   * 「保存」ボタンをクリックしてプロンプトを保存するか、「リセット」ボタンでデフォルトに戻します
5. 使用方法
6. チャット画面で、入力欄の右側にある音声通話ボタン（電話アイコン）をクリックします
7. 音声通話ウィンドウが開き、ウェルカムボイスが再生されます
8. 「長押しで話す」ボタンを長押しして録音を開始します（または設定したホットキーを使用）
9. ボタンを離すと録音が終了し、AI に送信されます
10. AI が返信を生成し、TTS を通じて再生されます
11. ウィンドウ内のコントロールボタンを使用します：
    * ミュート／ミュート解除ボタン：TTS 出力を制御します
    * 一時停止／再開ボタン：対話を一時停止または再開します
    * 設定ボタン：ホットキーを設定します
    * 折りたたみボタン：ウィンドウを折りたたみ、長押しで話す行のみを残します
12. 閉じるボタンをクリックして通話を終了します
13. ホットキーの設定
14. 音声通話ウィンドウで設定ボタンをクリックします
15. ポップアップする設定パネルでホットキーのボタンをクリックします
16. 設定したいキーを押します（例：スペースキー、Shift キーなど）
17. 「保存」ボタンをクリックして設定を保存します
18. 使用時は、設定したホットキーを押し続けて録音を開始し、離して録音を終了して送信します

五、よくある質問と解決方法

1. TTS に関する問題

* 問題：TTS で音が再生されない 解決方法：TTS 機能が有効になっているか確認し、正しいサービス種別を選択し必要なパラメータが設定されているか確認してください
* 問題：TTS の再生品質が悪い 解決方法：別の TTS サービスまたは音色に切り替えてみてください
* 問題：TTS 再生時にエラーが表示される 解決方法：API キーが正しいか、ネットワーク接続に問題がないか確認してください

2. ASR に関する問題

* 問題：ASR が音声を認識できない 解決方法：ASR 機能が有効になっているか確認し、正しいサービス種別を選択し必要なパラメータが設定されているか確認してください
* 問題：ASR の認識精度が低い 解決方法：別の ASR サービスに切り替えるか、マイクの位置や音量を調整してみてください
* 問題：ASR サーバーへの接続に失敗する 解決方法：ローカルサーバーが正常に動作しているか確認するか、アプリを再起動してみてください

3. 音声通話に関する問題

* 問題：音声通話ウィンドウが開かない 解決方法：音声通話機能が有効になっているか確認し、TTS と ASR の設定が正しいか確認してください
* 問題：長押しで話すが反応しない 解決方法：マイクの権限が付与されているか確認するか、音声通話を再起動してみてください
* 問題：AI の返信に音声出力がない 解決方法：TTS 機能が有効か、ミュートになっていないか確認してください

六、上級設定とカスタムオプション

1. TTS 上級設定

* フィルタオプション：思考過程、Markdown タグ、コードブロックをフィルタして TTS の再生をより滑らかにできます
* 進捗バー表示：TTS の進捗バーを表示するかどうかを選択できます
* カスタム音色とモデル：カスタムの音色やモデルオプションを追加できます

2. ASR 上級設定

* サーバーの自動起動：アプリ起動時に ASR サーバーを自動起動するかどうか設定できます
* 言語選択：異なる音声認識言語を選択できます

3. 音声通話上級設定

* カスタムプロンプト：音声通話モードでの AI の応答方法を誘導するためにプロンプトをカスタマイズできます
* 専用モデルの選択：音声通話用に専用の AI モデルを選択でき、現在の会話で使用しているモデルとは別にできます
* ホットキーのカスタム：録音を制御するカスタムホットキーを設定できます

七、使用上の提案

1. 適切な TTS サービスを選ぶ：
   * 高品質な音声を求めるなら、OpenAI または Siliconflow の使用を推奨します
   * API を設定したくない場合は、ブラウザ TTS または無料オンライン TTS を使用できます
2. 適切な ASR サービスを選ぶ：
   * 高い認識精度を求めるなら OpenAI の使用を推奨します
   * API を設定したくない場合は、ブラウザ内蔵の音声認識を使用できます
3. 音声通話体験を最適化する：
   * ヘッドフォンを使用すると TTS 出力が ASR に再び拾われるのを避けられます
   * 静かな環境で使用すると認識精度が向上します
   * カスタムプロンプトを使用すると AI の返信を音声再生に適したものにできます
4. ニーズに応じて設定を調整する：
   * 主にテキストでやり取りする場合は、TTS 機能のみを有効にできます
   * 主に音声入力を使用する場合は、ASR 機能のみを有効にできます
   * 完全な音声対話体験が必要な場合は、音声通話機能を有効にしてください

この使用説明が Cherry Studio の音声機能を十分に活用し、より自然で便利な AI との対話体験をお楽しみいただく助けになれば幸いです！