作成者別アーカイブ: shinya.fujie

[学会発表] 日本音響学会2026年春季研究発表会

2026年3月17日〜19日に日本大学理工学部駿河台キャンパスで開催される 日本音響学会第155回(2026年春季)研究発表会 において,藤江研究室の学生および共同研究者による研究発表が行われます.

本研究会では,音声認識,マルチモーダル情報を用いた対話解析,および音声対話モデルの学習に関する研究成果について発表します.

  • 小堀 聡太,藤江 真也,“RNN-Transducer を用いたマルチタスク補助情報音声認識手法”
  • 花川 主税,藤江 真也,“マルチモーダル情報を用いた Voice Activity Projection”
  • 阿部 雄斗,佐伯 真於,大橋 厚元,高道 慎之介,藤江 真也,小林 哲則,小川 哲司,東中 竜一郎,“Moshi に基づく音声対話モデルの日本語ファインチューニングにおける対話データ特性の影響”

[学会発表] IWSDS 2026

2026年2月26日〜3月1日に開催される The 16th International Workshop on Spoken Dialogue Systems Technology (IWSDS 2026) において,藤江先生が関わる研究の成果が発表されます.

  • Yuto Abe, Mao Saeki, Atsumoto Ohashi, Shinnosuke Takamichi,
    Shinya Fujie, Tetsunori Kobayashi, Tetsuji Ogawa, Ryuichiro Higashinaka,“Effects of Dialogue Corpora Properties on Fine-Tuning a Moshi-Based Spoken Dialogue Model”

本研究では,同時に聞き取りと発話を行う フルデュプレックス音声対話モデル(Moshi 系モデル) を対象に,対話コーパスのターンテイキング特性(発話間隔・オーバーラップなど)がモデルの対話行動に与える影響を分析しました.

複数の日本語対話コーパスを比較し,発話間のギャップ,ポーズ,オーバーラップなどの時間的指標を用いて対話スタイルを定量化しました.さらに,これらの特性を考慮したカリキュラム学習によりモデルをファインチューニングし,生成される対話のリズムや自然さがコーパスの性質によって変化することを示しました.

研究成果は,フルデュプレックス型音声対話システムにおいて,目的とする対話スタイルに応じたコーパス設計や学習手順の重要性を示すものです.

[学会発表] 日本音響学会2025年秋季研究発表会

2025年9月10日〜12日に東北工業大学で開催される日本音響学会2025年秋季研究発表会で,藤江研究室修士1年の小堀君の発表があります.

  • 小堀聡太,藤江真也,”日本語音声認識における補助情報の認識方式の比較,” 日本音響学会秋季研究発表会, pp. 1345-1348, Sep. 2025.

[受賞] 第7回対話システムライブコンペティション 優秀賞

人工知能学会 言語・音声理解と対話処理研究会(SIG-SLUD)で開催された対話システムライブコンペティションで未来ロボティクス学科 藤江研究室のチームが優秀賞を受賞しました.

対話システムライブコンペティションとは

対話システムライブコンペティションとは,オーディエンスの前で実際に対話システムを動作させ,評価を行うイベントです.対話システムに関するコンペティションはいくつか開催されていますが,このコンペティションは実システムとユーザとの会話をその場で評価されることで競い合う,ライブ感を大切としていることに特徴があります.

本コンペティションは2018年から開催されており今回で第7回となります.第1回が開催された2018年から現在に至るまで,大規模言語モデルを代表とする生成AIの登場など,対話システムを取り巻く状況が大きく変化しています.それに伴いコンペティションの内容も年々変化しており,2022年に行われた第5回から主に音声入出力を用いるマルチモーダル対話システムを用いた競技が行われています.

第7回 対話システムライブコンペティション

今回実施されたコンペティションでは,シチュエーショントラックとタスクトラックの2つのトラックが設定されました.

シチュエーショントラックでは,友人関係に悩むユーザの愚痴を聞き,その後の対応に対する決断の後押しをするシステムの構築が求められました.このトラックでは,音声入出力などの部分の基本的なシステム構成は変えず,システムの発話内容等を決めるための大規模言語モデルに与えるプロンプト(指示内容)を設計し,適切な対話ができるかを競います.

タスクトラックでは,旅行目的を持った客に対して,その目的に沿った観光地を提案する旅行代理店の店員として対話を行うシステムの構築を求められました.このトラックは,音声認識,表情認識,対話処理などを自由に構築して競い合うものです.観光地の情報は,事前に与えられた,実際の旅行代理店のウェブサイトで提供される情報を検索するサービスを用いて,対話をしながら検索して取得します.

コンペティションは予選と決勝から構成されていて,予選では提出されたシステムをコンペティション運営において集められた実験協力者が実際に対話をして評価した結果に基づき順位づけされます.各トラック予選上位3チームが決勝に進出します.決勝は,研究会の会場にて対話を実施し,その様子を見た聴衆が評価した結果で順位づけされます.

チームCITAR(千葉工業大学 未来ロボティクス学科 藤江研究室)の結果

藤江研究室の学生で構成されるチームCITAR(Chiba Institute of Technology, Advanced Roboticsの略)は,今回シチュエーショントラック,タスクトラックの両方にエントリーしました.シチュエーショントラックで予選3位となり通過,タスクトラックは予選4位となり惜しくも予選敗退となりました.3月21日に行われたシチュエーショントラック決勝においても第3位となり優秀賞を受賞しました.

同時に開催された研究会において,提出したシステムに関する研究発表を行いました.

  • 花川主税, 山元広太, 小堀聡太, 藤江真也,”話し手の感情に応じた愚痴の傾聴と決断の後押しを行う音声対話システム,” 人工知能学会 研究会資料, SIG-SLUD-103, pp. 13-18, 2025. (口頭発表,ポスター発表)
  • 小堀聡太, 花川主税, 伊藤雪, 藤江真也, “複数評価指標による状態管理と発話完了度予測による発話権管理を用いた観光案内対話システム,” 人工知能学会 研究会資料, SIG-SLUD-103, pp. 46-49, 2025.(ポスター発表)

関連リンク

[研究助成] 科学研究費補助金(基盤研究C)に採択

藤江研究室の研究課題が,科学研究費補助金(科研費)基盤研究(C)に採択されました.

  • 藤江 真也, “音声インタラクションにおける円滑性の客観評価指標の構築”

本研究では,人とシステムの音声インタラクションにおける「円滑さ」を客観的に評価するための指標の構築を目指します.会話分析の知見を取り入れながら,話者交替や対話の時間構造などを考慮した評価方法を工学的に設計し,より自然な音声対話システムの実現に貢献することを目的としています.

研究課題の詳細は,下記ページをご参照ください.
https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-25K15211/

[学会発表] 人工知能学会 言語・音声理解と対話処理研究会(SLUD)第103回研究会

2025年3月20日〜22日に早稲田大学で開催される人工知能学会 言語・音声理解と対話処理研究会(SLUD)第103回研究会で,藤江研究室の学生の発表が複数あります.

  • 小堀 聡太,花川 主税,伊藤 雪,藤江 真也, “複数評価指標による状態管理と発話完了度予測による発話権管理を用いた観光案内対話システム”
  • 川 主税,山元 広太,小堀 聡太,藤江 真也, “話し手の感情に応じた愚痴の傾聴と決断の後押しを行う音声対話システム”

[学会発表] 日本音響学会2025年春季研究発表会

2025年3月17日〜19日に埼玉大学で開催される日本音響学会2025年春季研究発表会で,藤江研究室学部4年の小堀君,花川君などの発表があります.

  • 小堀 聡太,藤江 真也, “補助情報を同時に認識する日本語音声認識における出力表現形式の比較”
  • 花川 主税,藤江 真也, “複数の日本語音声対話コーパスによるVoice Activity Projection の性能比較”
  • 谷口 友紀,藤江 真也,小林 哲則, “テンポのずれに関する知覚実験”

[学会発表] 日本音響学会2023年秋季研究発表会

2022年9月26日〜28日に名古屋工業大学で開催される日本音響学会2023年秋季研究発表会で,藤江教授,修士課程2年の岡永さん,根岸さんの発表などがあります.

  • 岡永 佳子,藤江 真也, “円滑な対話における交替潜時の予測のための対話テンポの推定”
  • 根岸 慧,藤江 真也, “自然言語による説明文に基づくキャラクタ性を考慮した音声合成”
  • 藤江 真也,小林 哲則, “非流暢現象ラベル付き発音形認識モデルとテキスト変換モデルを組み合わせた音声認識システム”
  • 謝 佳臻,藤江 真也,小林 哲則, “情報伝達のための音声合成における発話文の役割情報付与手法の検討”
  • 谷口 友紀,藤江 真也,小坂 直敏,小林 哲則, “発話タイミング推定における時間心理尺度の考慮”
  • Zhao Huaibo,Fujie Shinya,Ogawa Tetsuji,Kobayashi Tetsunori, “An investigation on constructing Multi-look-ahead Contextual Block Streaming Transducer”
Dublin

[学会発表] Interspeech 2023

2023年8月20日〜24日にアイルランド,ダブリンで開催されるIEEE Interspeech 2023 で,藤江教授が関わる研究の発表があります.

  • Jin Sakuma, Shinya Fujie, Huaibo Zhao, Tetsunori Kobayashi, “Improving the response timing estimation for spoken dialogue systems by reducing the effect of speech recognition delay”
  • Fuma Kurata, Mao Saeki, Shinya Fujie, Yoichi Matsuyama, “Multimodal Turn-Taking Model Using Visual Cues for End-of-Utterance Prediction in Spoken Dialogue Systems”

[学会発表] ICASSP 2023

2023年6月4日〜6月10日にギリシャ,ロードス島で開催されるIEEE ICASSP 2023 (International Conference on Acoustics, Speech and Signal Processing)で,藤江教授が関わる研究の発表があります.

  • Huaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida and Tetsunori Kobayash, “Conversation-oriented ASR with multi-look-ahead CBS architecture”