会話のための音声認識

会話のためのストリーミング音声認識

人とロボットが自然に会話するためには，「何を話したか」だけでなく，「どのように話したか」や「話すタイミング」を適切に捉えることが重要です．本研究では，会話の流れを保ったままリアルタイムに理解するための音声認識技術の開発に取り組んでいます．

従来の音声認識は，発話が終わった後にまとめて処理することが一般的でした．しかし実際の会話では，「えー」「あの」といったフィラーや言い直し，「うん」といった相槌などが頻繁に現れ，これらは対話の進行や話者の状態を示す重要な手がかりとなります．

そこで本研究では，音声を逐次的に処理しながら，発話内容とともに，こうした補助的な情報を同時に認識する手法を検討しています．例えば，「えーと…それはですね」といった発話に対して，単なるテキストとしてではなく，発話の構造や話し方を含めて理解することで，より適切な応答タイミングや対話制御につなげることが可能になります．

技術的には，ストリーミング型の音声認識モデルを用い，音声の時間的な流れに沿って逐次的に認識を行います．さらに，フィラーや言い直しといった現象を言語情報と一体として扱うことで，従来よりも会話に適した表現を得ることを目指しています．

このようなアプローチにより，会話中の適切なタイミングでの応答や，人にとって自然な対話の実現に寄与することが期待されます．

千葉工業大学藤江真也研究室

先進工学部未来ロボティクス学科

会話のためのストリーミング音声認識

関連する研究業績

コメントを残すコメントをキャンセル

会話のためのストリーミング音声認識

関連する研究業績

共有:

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル