phone-arrow-up-right音声機能

circle-exclamation

Cherry Studio 音声機能の使い方

一、音声機能の概要

Cherry Studio は、TTS(テキスト読み上げ)、ASR(音声認識)、音声通話という3つの主要な音声機能モジュールを提供しています。これらの機能により、音声で AI と自然にやり取りでき、使用体験が向上します。

  • TTS(テキスト読み上げ):AI の返信テキストを音声出力に変換します

  • ASR(音声認識):あなたの音声をテキスト入力に変換します

  • 音声通話:TTS と ASR を組み合わせ、ChatGPT のような音声対話体験を実現します

二、TTS(テキスト読み上げ)機能

  1. 対応サービスの種類

Cherry Studio は4種類の TTS サービスに対応しています:

  • OpenAI:OpenAI の TTS API を使用します。API キーが必要です

  • ブラウザ TTS:ブラウザ内蔵の音声合成機能を使用します。無料で設定不要です

  • Siliconflow:Siliconflow の TTS サービスを使用します。API キーが必要です

  • 無料オンライン TTS:無料のオンライン TTS サービスを使用します。API キーは不要です

  1. 設定方法

  2. 設定ページに入り、「音声機能」タブを選択します

  3. 「TTS」サブタブで:

    • TTS 機能を有効にします(スイッチをオンにする)

    • TTS サービスの種類を選択します

    • 選択したサービスの種類に応じて、対応するパラメータを設定します:

      • OpenAI:API キー、API アドレスを入力し、音色とモデルを選択します

      • ブラウザ TTS:音色を選択します

      • Siliconflow:API キー、API アドレスを入力し、音色、モデル、レスポンス形式、話速を選択します

      • 無料オンライン TTS:音色と出力形式を選択します

  4. TTS フィルタオプションを設定します(任意):

    • 思考過程をフィルタ

    • Markdown 記号をフィルタ

    • コードブロックをフィルタ

  5. TTS 進捗バーを表示するかを設定します

  6. 「TTS テスト」ボタンをクリックして、設定が正しいかテストします

  7. 使い方

  • TTS 機能を有効にすると、AI の返信は自動的に音声出力に変換されます

  • チャット画面では、各 AI 返信の下に TTS 再生ボタンが表示されます

  • 再生ボタンをクリックすると、音声を再生/一時停止できます

  • TTS 進捗バーを有効にしている場合、テキストの下に再生進捗が表示されます

  • 長いテキストは自動的に分割して合成され、連続再生されます

三、ASR(音声認識)機能

  1. 対応サービスの種類

Cherry Studio は3種類の ASR サービスに対応しています:

  • OpenAI:OpenAI の Whisper モデルを使用します。API キーが必要です

  • ブラウザ:ブラウザ内蔵の音声認識機能を使用します。無料で設定不要です

  • ローカルサーバー:ローカルの WebSocket サーバーに接続して音声認識を行います

  1. 設定方法

  2. 設定ページに入り、「音声機能」タブを選択します

  3. 「ASR」サブタブで:

    • ASR 機能を有効にします(スイッチをオンにする)

    • ASR サービスの種類を選択します

    • 選択したサービスの種類に応じて、対応するパラメータを設定します:

      • OpenAI:API キー、API アドレスを入力し、モデルを選択します

      • ブラウザ:追加の設定は不要です

      • ローカルサーバー:アプリ起動時に ASR サーバーを自動起動するかを設定できます

    • 音声認識の言語を選択します(既定は中国語)

  4. 「ASR テスト」ボタンをクリックして、設定が正しいかテストします

  5. 使い方

  • ASR 機能を有効にすると、入力欄の横に音声認識ボタンが表示されます

  • 音声認識ボタンをクリックして録音を開始します

  • 話した後、音声はテキストに変換され、入力欄に入力されます

  • もう一度ボタンをクリックすると録音が終了します

  • 音声認識は、複数の文を連続して認識する累積モードに対応しています

四、音声通話機能

  1. 機能の特徴

  • TTS と ASR を組み合わせ、ChatGPT のような音声対話体験を実現します

  • ドラッグ可能なフローティングウィンドウ形式のインターフェースを使用します

  • 長押しして話すモードに対応しています

  • カスタムショートカットキーに対応しています

  • ウィンドウの折りたたみに対応しています

  • 音声通話専用のモデルを選択できます

  • カスタムプロンプトに対応しています

  1. 設定方法

  2. 設定ページに入り、「音声機能」タブを選択します

  3. 「通話機能」サブタブで:

    • 音声通話機能を有効にします(スイッチをオンにする)

    • 「モデルを選択」ボタンをクリックし、音声通話に使用する AI モデルを選択します

    • プロンプトのテキストボックスで音声通話用プロンプトをカスタマイズします(任意)

    • 「保存」ボタンをクリックしてプロンプトを保存するか、「リセット」ボタンをクリックして既定のプロンプトに戻します

  4. 使い方

  5. チャット画面で、入力欄右側の音声通話ボタン(電話アイコン)をクリックします

  6. 音声通話ウィンドウが開き、ウェルカム音声が再生されます

  7. 「長押しして話す」ボタンを長押しして録音を開始します(または設定したショートカットキーを使用します)

  8. ボタンを離すと録音が終了し、AI に送信して処理されます

  9. AI が返信を生成し、TTS で再生します

  10. ウィンドウ内のコントロールボタンを使用します:

    • ミュート/ミュート解除ボタン:TTS 出力を制御します

    • 一時停止/再開ボタン:会話を一時停止または再開します

    • 設定ボタン:ショートカットキーを設定します

    • 折りたたみボタン:ウィンドウを折りたたみ、「長押しして話す」の1行だけを残します

  11. 閉じるボタンをクリックして通話を終了します

  12. ショートカットキーの設定

  13. 音声通話ウィンドウで、設定ボタンをクリックします

  14. 表示された設定パネルで、ショートカットキーのボタンをクリックします

  15. 設定したいキーを押します(例:スペースキー、Shift キーなど)

  16. 「保存」ボタンをクリックして設定を保存します

  17. 使用時は、設定したショートカットキーを押し続けて録音を開始し、離すと録音が終了して送信されます

五、よくある問題と解決策

  1. TTS 関連の問題

  • 問題:TTS が音声を再生できない 解決策:TTS 機能が有効になっているか、正しいサービス種類を選択し必要なパラメータが設定されているか確認してください

  • 問題:TTS の再生品質が良くない 解決策:別の TTS サービス種類や音色に変更してみてください

  • 問題:TTS 再生時にエラーメッセージが表示される 解決策:API キーが正しいか、ネットワーク接続が正常か確認してください

  1. ASR 関連の問題

  • 問題:ASR が音声を認識できない 解決策:ASR 機能が有効になっているか、正しいサービス種類を選択し必要なパラメータが設定されているか確認してください

  • 問題:ASR の認識精度が低い 解決策:別の ASR サービス種類に変更するか、マイクの位置と音量を調整してみてください

  • 問題:ASR サーバーへの接続に失敗する 解決策:ローカルサーバーが正常に動作しているか確認するか、アプリを再起動してみてください

  1. 音声通話関連の問題

  • 問題:音声通話ウィンドウが開けない 解決策:音声通話機能が有効になっているか、TTS と ASR の設定が正しいか確認してください

  • 問題:「長押しして話す」が反応しない 解決策:マイク権限が付与されているか確認するか、音声通話を再起動してみてください

  • 問題:AI の返信に音声出力がない 解決策:TTS 機能が有効になっているか、ミュートになっていないか確認してください

六、高度な設定とカスタマイズ項目

  1. TTS の高度な設定

  • フィルタオプション:思考過程、Markdown 記号、コードブロックをフィルタすることで、TTS 再生をより滑らかにできます

  • 進捗バー表示:TTS 進捗バーを表示するかどうかを選択できます

  • 音色とモデルのカスタマイズ:カスタムの音色やモデル項目を追加できます

  1. ASR の高度な設定

  • サーバー自動起動:アプリ起動時に ASR サーバーを自動起動するかを設定できます

  • 言語選択:異なる音声認識言語を選択できます

  1. 音声通話の高度な設定

  • カスタムプロンプト:音声通話用プロンプトをカスタマイズし、音声通話モードでの AI の返信方法を指示できます

  • 専用モデルの選択:現在の会話で使用しているモデルとは別に、音声通話専用の AI モデルを選択できます

  • ショートカットキーのカスタマイズ:録音を制御するためのカスタムショートカットキーを設定できます

七、使用のおすすめ

  1. 適切な TTS サービスを選ぶ:

    • 高品質な音声を求めるなら、OpenAI または Siliconflow の使用をおすすめします

    • API 設定をしたくない場合は、ブラウザ TTS または無料オンライン TTS を使用できます

  2. 適切な ASR サービスを選ぶ:

    • 高い認識精度を求めるなら、OpenAI の使用をおすすめします

    • API 設定をしたくない場合は、ブラウザ内蔵の音声認識を使用できます

  3. 音声通話体験の最適化:

    • ヘッドホンを使用すると、TTS 出力が ASR に再度拾われるのを防げます

    • 静かな環境で使用すると、認識精度が向上します

    • カスタムプロンプトを使用すると、AI の返信を音声再生により適したものにできます

  4. 必要に応じて設定を調整します:

    • 主にテキストでやり取りする場合は、TTS 機能のみを有効にします

    • 主に音声入力を使う場合は、ASR 機能のみを有効にします

    • 完全な音声対話体験が必要な場合は、音声通話機能を有効にします

この使い方ガイドが、Cherry Studio の音声機能を十分に活用し、より自然で便利な AI とのやり取りを楽しむ助けになれば幸いです!

最終更新

役に立ちましたか?