2026年2月26日〜3月1日に開催される The 16th International Workshop on Spoken Dialogue Systems Technology (IWSDS 2026) において,藤江先生が関わる研究の成果が発表されます.
- Yuto Abe, Mao Saeki, Atsumoto Ohashi, Shinnosuke Takamichi,
Shinya Fujie, Tetsunori Kobayashi, Tetsuji Ogawa, Ryuichiro Higashinaka,“Effects of Dialogue Corpora Properties on Fine-Tuning a Moshi-Based Spoken Dialogue Model”
本研究では,同時に聞き取りと発話を行う フルデュプレックス音声対話モデル(Moshi 系モデル) を対象に,対話コーパスのターンテイキング特性(発話間隔・オーバーラップなど)がモデルの対話行動に与える影響を分析しました.
複数の日本語対話コーパスを比較し,発話間のギャップ,ポーズ,オーバーラップなどの時間的指標を用いて対話スタイルを定量化しました.さらに,これらの特性を考慮したカリキュラム学習によりモデルをファインチューニングし,生成される対話のリズムや自然さがコーパスの性質によって変化することを示しました.
研究成果は,フルデュプレックス型音声対話システムにおいて,目的とする対話スタイルに応じたコーパス設計や学習手順の重要性を示すものです.