音声言語情報処理

言語・韻律情報による柔軟なターンテイキング

発話継続/終了のスコア音声を使った会話は,参加者が互いに発話を交換することで成り立ちます.このとき,参加者が他の参加者のことを考えずに好き勝手に喋っていては会話が成立しません.そこで考えなければいけないのがターンテイキング,つまり喋る番(ターン)を誰が取る・取っているか(テイク),です.

システムがいつ話し始めるべきか,という問題は案外簡単ではありません.音声認識が完了すると即座にシステムが何かを喋るという仕組みが最も単純ですが,果たしてそれでよいでしょうか?例えばハンバーガーショップで注文するときのことを考えると,「ハンバーガーのセットをー」「飲み物はー」「アイスコーヒーで」というように,ひとつの注文を複数の発話に分けて話すことがあると思います.このとき,それを受けた店員は,途中途中でいちいち口を挟むべきではなく,一通りの内容が終わった時に初めて注文の確認をするなどの発話をすることが好ましいでしょう.

このようなことから,システムが話し始めるべきタイミングを,ユーザの音声が持つ韻律情報(声の高さや大きさなど)から検出する方法を開発しました.韻律情報の持つ意味は「を」「は」「で」のような発話末要素の違いによって異なります.そこで,発話末要素毎にモデル化を行うことで,精度の高い認識を目指しました.

パラ言語情報の認識

会話の中で,人から何か提案を受けたり,相談を受けた時に,言葉ではっきりと「そうだ」「違う」「嫌だ」と言う人はあまり多くないと思います.例えば「ラーメンなんてどう?」と言われたときには,「ラーメンか」などと繰り返す人が多いでしょう.文字だけ見れば単に言葉を復唱して確認しているように取れますが,音声を聞いてみると乗り気かそうでないかが案外はっきりと分かります.例えば,明るく大きな声で弾んだような言い方であれば賛成しているように感じますし,低い声で淡々と言っている場合は反対しているように感じられます.このように,言葉には現れないが発話に伴って伝達される情報のことをパラ言語情報といいます.ここで説明している発話態度もパラ言語情報の一つです.パラ言語情報が会話の役に立つのは明らかですが,通常の音声認識器では音声に含まれる言葉の情報のみを抽出するため,多くの会話システムでは無視されていました.

そのような状況のもと,音声認識の結果と,音声から抽出される基本周波数(声の高さに対応するパラメータ)の時間変化をもとに計算される特徴量を用いて,音声が伝達する発話態度(肯定/否定)を認識するシステムを開発しました.システムの提案に対して,ユーザがはっきりと言葉で肯定や否定を示さなくても,発話態度認識の結果によってシステムが提案が受け入れられたかどうかを理解することができます.そのため,全体として会話が効率的に進行するようになりました.

相槌生成タイミングの検出

システムが喋っている間,システム(例えば会話ロボット)が直立不動で話を聞いていると不自然に感じるのではないでしょうか?それどころか,システムが話をちゃんと聞いていないのではないかという不安を感じてしまうこともあるでしょう.実際にはちゃんと話を聞いていたとしても,それが正しくユーザに伝わらなければ,余計な不安を生じさせ,会話がうまくいかないことが考えられます.そこで出てくるのが相槌です.ただし,相槌もまた,デタラメなタイミングで生成していたのでは,役に立たないどころか,返って邪魔になってしまいます.

このことから,ユーザが喋り終わるのを待たずに,喋っている途中から逐次処理することによって,適切なタイミングを検出して,システムに相槌を打たせるシステムを構築しました.ユーザの音声に含まれる韻律情報(声の高さ,大きさ)を逐次抽出して特徴量を計算し,相槌を打っていいタイミングがどうかをパターン認識によって検出します.また,常に「はい」と相槌を打っていると,話を正しく理解しているかどうかはわかりません.そこで,音声認識の結果を利用して内容の一部を復唱するような機能も実現しました.このため,通常発話の最後まで待って認識結果を出す音声認識器を,発話の終了を待たずに途中で結果を確定する早期確定機能を備えるように改造しました.

関連する研究業績

  • 藤江真也,木下裕介,小林哲則,”発話期待度/意欲度に基づく発話タイミング制御,” 人工知能学会 言語・音声理解と対話研究会,SIG-SLUD-B102,pp.43-48,Oct. 2011.
  • 藤江真也,江尻 康,菊池英明,小林哲則,”肯定的/否定的発話態度の認識とその音声対話システムへの応用,” 電子情報通信学会論文誌(D-II),vol.J88-D2,no.3,pp.489-498,March 2005.
  • S. Fujie, K. Fukushima, and T. Kobayashi, “Back-channel feedback generation using linguistic and nonlinguistic information and its application to spoken dialogue system,” Proc. 9th European Conf. on Speech Communication and Technology, Interspeech2005, pp.889-892, Lisbon, Portugal, Sept. 2005.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA: *