概要AIコールセンターやAIアバターなど、音声をインターフェイスとしたボイスボットは今後需要が伸びていくと予想されます。ボイスボットの顧客体験を最大化するためには、以下のポイントが重要になります。回答スピードが優れている回答精度が高い日本語が流暢である今回の記事では、優れたボイスボットを構築するためのステップについて解説します。ボイスボットの現在地点2024年2月にリリースされたCotomoは素晴らしいユーザ体験を提供しています。Cotomoは非常に自然な音声コミュニケーションを楽しむことができるアプリです。話しかけるとすぐに返答をもらえ、過去の会話の記憶を持っているかのような回答をしてくれます。また日本語も非常に心地が良い声になっています。優れたボイスボットを構築するためのステップ優れたボイスボットを作るためには以下のステップで開発を行ないます。① 要件定義(目的と機能の明確化)② テクノロジー選定③ 低レンテンシーの音声ボットの構築④ RAGによる独自データ対応⑤ テストと改善それぞれのステップについて詳細に記載していきます。Step1 要件定義(目的と機能の明確化)ボイスボットは目的と目標によって、重視すべき基本機能が異なります。まずは自分たちが達成したい目標からどのようなKPIを最大化すべきかを検討します。目的目標基本機能顧客サポート応答時間の短縮、顧客満足度の向上FAQの自動回答、問題のトラブルシューティング、サポートチケットの作成予約・予定管理予約手続きの簡素化、利用者の時間管理のサポート予約の受付と管理、予約変更とキャンセル、リマインダーの設定エンターテインメントユーザーエンゲージメントの強化、コンテンツへのアクセス促進楽しい会話、ゲーム、コンテンツへの案内教育・学習知識の提供、学習体験の向上言語学習、一般知識のクイズ、学習コンテンツへの案内パーソナルアシスタント個人の生活や業務の効率化スケジュール管理、リマインダー設定、天気予報、ニュースの提供Step2 テクノロジー選定ボイスボットを構築するためには主に次の技術選定が必要になります。① 音声認識(Speech To Text)② 合成音声(Text To Speech)③ 対話エンジン(LLM)④ クラウドサービス⑤ プラットフォーム(IP電話, Web, Google Meet, etc)特に1 ~ 3はAIに関わる現在でも非常に移り変わりが激しく、新しい技術がどんどん出てきています。網羅的に調べた上で要件に合致したテクノロジーを選定する必要がありますが、技術進歩が早いのでより優れたものが数ヶ月後に出ている可能性があります。あまりここに時間をかけすぎないことも必要だと思います。例えば、合成音声(Text to Speech)については以下のような観点で様々な事業体とモデルを比較します非公開情報を含むため情報をダミーにしています(詳細知りたい方はお問い合わせください)提供料金速度話者 (日本語)品質外国語対応感情音声パラメータ調整辞書機能導入コスト備考CoefontAPIxxx円 + yyy円/文字1時間利用するユーザが1000人の場合、合計zzz円前処理: x秒1文字あたり: y秒x種類⚪︎ △ ×⚪︎ ×⚪︎ ×⚪︎ ×⚪︎ ×xxx円CoestationAPIReadSpeakerAPIVoicepeakAPIAI.Voice bizAPIopenaiAPIVoiceboxSDKParakeetSDKCLOVA voiceAPIGoogle Text-to-speechAPIAzure AI speechAPIAmazon PollyAPIElevenLabsAPIIBM watsonAPIWeb Speech API Speech SynthesisWeb品質・速度・コスト・機能性などで差があるため、要件にあったモデルを選択します。Step3 低レイテンシーの音声ボットの構築スピーディに回答をする音声ボットを構築することが非常に重要です。ユーザが話し終わってから1秒以上の沈黙があるとストレスを感じ、顧客体験が悪化すると言われています。しかし、ボイスボットの処理は以下のようなフローになるため、シンプルに実装をすると容易に1秒以上の回答遅延が発生します。ユーザの発言をテキスト化(Speech To Text) → LLMで回答生成 → 回答を音声化(Text to Speech)以下のポイントで高速化を検討します。Speech To Textのリアルタイム化LLMのキャッシュ化Text to Speechの高速化対話システムの最適化それぞれについて以下で解説します。Speech To TextはGoogle Cloud Speech API等を使い、ユーザの発話を聞いてリアルタイムで文字化させてレイテンシーを下げます。OpenAIのWhisper APIは音声ファイルをアップロードしてテキスト化してくれますが、バッチでの処理となるためボイスボットでは適さないことが多いです。LLMについてはキャッシュで高速化します。今後の技術進歩ではローカルで高速に動くLLMなどを活用することで更なる高速化が見込めると思いますが、現在だと回答の質とのトレードオフでChatGPTを使うケースが多いと思います。よってLLM部分はなかなか根本的な高速化が現状できないため、ローカルもしくはCloudflare等のプロキシ内でキャッシュを生成し、同じような質問には素早く回答を生成できるような工夫をします。Text to Speechの高速化はモデル選定で決まります。Text to Speechのレイテンシーは(イニシャルの起動コスト) + (1文字あたりの生成速度) + (ネットワークレイテンシー)で決まるため、サーバ内で高速に動くローカルのモデルを利用するのが良いと思われます。最後に対話システムの最適化です。ユーザが喋り終わってから回答を考えると、必ず「考えている時間」が発生してしまいます。そのため、ユーザの発話中に第一声で何を喋るかなどを考えておく必要があります。「うんうん」「そうだね」「違うよ」など会話の間を埋めるフィラーを選定したり、ユーザの発話が少し切れたタイミングで第一声の返答を検討するなどを行うことで、ユーザが話し終わってすぐに返答をするボイスボットを構築することができます。Step4 RAGによる独自データ対応ボイスボットを構築する際に必ず独自データをベースとした回答をすることが要件として求められると思います。その際は現在はRAGで解決することが多いかと思います。ただし、RAGを利用しても思ったような回答精度が出ないことがあります。いわゆるハルシネーションが発生しますが、その原因は多岐にわたります。原因解決策そもそも辞書の中に回答が存在しない(回答することが不可能)データの整備辞書の中に回答があるがヒット率が低いQ&A形式のデータにクレンジングをして保持不要なデータの除去回答がヒットはしているがLLMが誤ったことを言う複雑化したプロンプトを最適化するプロンプトエンジニアリングの実施複数の情報をもとに回答しなければならないような複雑な質問に答えることができない回答に失敗したデータを貯めて改善可能なシステムを構築するデータの持ち方のチューニングやクレンジング打ち手を様々に検証することと、地道な改善を積み重ねることで精度を上げる必要があります。Step5 テストと改善精度向上、低レイテンシーの達成には絶え間ない改善が不可欠です。そして改善のためには、ログの取得やテストの整備が不可欠です。ボイスボットの改善のためには以下のようなことを地道に行なっていきます。会話ログの分析ユーザ評価に基づく自動学習ハルシネーション対策プロンプトのリグレッションテスト対話フローの最適化実例紹介弊社で実際に構築したボイスボットの例を最後に4つ紹介したいと思います。レストラン予約ボイスボット%3Ciframe%20width%3D%22560%22%20height%3D%22315%22%20src%3D%22https%3A%2F%2Fwww.youtube.com%2Fembed%2Fk1xryxX3Vt4%3Fsi%3Dbar-qAGGUZblZjtA%22%20title%3D%22YouTube%20video%20player%22%20frameborder%3D%220%22%20allow%3D%22accelerometer%3B%20autoplay%3B%20clipboard-write%3B%20encrypted-media%3B%20gyroscope%3B%20picture-in-picture%3B%20web-share%22%20allowfullscreen%3D%22%22%3E%3C%2Fiframe%3E動画内で以下をデモしています。① 電話応答② 予約状況確認③ 満席時対応④ 予約受付 ⑤ 多言語対応レストラン注文受付ボイスボットKaya Group様向けに、レストランの注文を受け付けるタブレットを構築し、複雑なオペレーションに対応できるボイスボットを開発しています。VtuberのAIアバターサービス(詳細非公開)Vtuberの配信データから声と知識を学習させAIアバターを作成できるサービスを開発しました。ファンとのコミュニケーション接点に注力することで、 2000ユーザー数突破、30000会話を達成しています。タレントのボイスボットサービス月がきれい様とParakeet様と共同でLINE上で会話できるファン向けのAI会話アプリを構築しています。タレントの声色を高い精度で再現し、高速な応答と自然な感情やイントネーションを実現しています。近日中にリリース予定です。まとめ: 高品質なボイスボットの構築について高品質なボイスボットを構築するためには、優れた回答スピード、回答精度、声質をあげました。またそれを達成するためのステップと詳細について記載しました。① 要件定義(目的と機能の明確化)② テクノロジー選定③ 低レンテンシーの音声ボットの構築④ RAGによる独自データ対応⑤ テストと改善弊社では、生成AI活用のコンサルティングサービスやシステム開発を通し、様々な業界の業務自動化と効率化に貢献しています:生成AI活用に特化したコンサルティングサービス: LangCoreは、最先端の生成AI技術とWeb開発の専門知識を活かし、お客様のデジタルトランスフォーメーション(DX)の推進、業務プロセスの効率化、および高効率なシステム開発をサポートします。要件定義からシステムの実装に至るまで、お客様のビジネスが直面する課題を解決し、可能性を最大化するための総合的なコンサルティングサービスを提供しています。LangCoreのシステム開発サービス:私たちは、システムの初期段階の要件定義から、その構築、そして運用に至るまで、一貫したシステム開発サービスを提供します。プロトタイプの開発による事業検証の支援、ChatGPTを使用したAIプロダクトの開発、さらにはクラウドインフラの構築に至るまで、多岐にわたる技術ニーズに対応しています。「1時間の無料相談」を承っております!「生成AIでこんなことをやってみたいが、できるか?」「何か生成AIでできそうなことを探している」など、まずはお気軽にお問い合わせください。弊社の生成AIのプロ集団が、あらゆる分野と規模のビジネスに合った生成AIやChatGPTを使用したご提案をいたします。→こちらで無料相談を予約する