会話のための音声認識

会話のためのストリーミング音声認識

人とロボットが自然に会話するためには,「何を話したか」だけでなく,「どのように話したか」や「話すタイミング」を適切に捉えることが重要です.本研究では,会話の流れを保ったままリアルタイムに理解するための音声認識技術の開発に取り組んでいます.

従来の音声認識は,発話が終わった後にまとめて処理することが一般的でした.しかし実際の会話では,「えー」「あの」といったフィラーや言い直し,「うん」といった相槌などが頻繁に現れ,これらは対話の進行や話者の状態を示す重要な手がかりとなります.

そこで本研究では,音声を逐次的に処理しながら,発話内容とともに,こうした補助的な情報を同時に認識する手法を検討しています.例えば,「えーと…それはですね」といった発話に対して,単なるテキストとしてではなく,発話の構造や話し方を含めて理解することで,より適切な応答タイミングや対話制御につなげることが可能になります.

技術的には,ストリーミング型の音声認識モデルを用い,音声の時間的な流れに沿って逐次的に認識を行います.さらに,フィラーや言い直しといった現象を言語情報と一体として扱うことで,従来よりも会話に適した表現を得ることを目指しています.

このようなアプローチにより,会話中の適切なタイミングでの応答や,人にとって自然な対話の実現に寄与することが期待されます.

関連する研究業績

  • 小堀聡太,藤江真也,”日本語音声認識における補助情報の認識方式の比較,” 日本音響学会秋季研究発表会, pp. 1345-1348, Sep. 2025.
  • 小堀聡太,藤江真也,”補助情報を同時に認識する日本語音声認識における出力表現形式の比較,” 日本音響学会春季研究発表会, pp. 1105-1108, Mar. 2025.
  • 藤江真也, 小林哲則, “非流暢現象ラベル付き発音形認識モデルとテキスト変換モデルを組み合わせた音声認識システム,” 日本音響学会秋季研究発表会, pp. 1315-1316, 2023.

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA: *