Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

雑談・接客相手との距離縮める、名大「声が重なっても大丈夫な音声対話モデル」開発

名古屋大学の大橋厚元大学院生と東中竜一郎教授らは、声が重なっても大丈夫な音声対話モデル「J―Moshi」を開発した。音声を入力すると直接音声を出力する。テキストや意味情報に直さないためリアルタイムに双方向の対話が可能。従来はトランシーバーのように交代で発話する必要があった。雑談などに提案していく。

フランスで開発された英語音声対話モデル「Moshi」に日本語対話を学習させた。人間の対話の受け答えを、音声データの入力と出力として学習させる。テキストや意味情報は与えないが、大量のデータを学習させると文脈を汲んだような応答ができる。

英語圏の対話は相づちが少ないが、日本語対話は相づちが多い。J―Moshiでも「あはは、そうなんですねー」などと間をつなぐ発話が再現された。雑談や接客などの相手との距離を縮めたり、場を温めたりする対話に有効になる。解説や説得のような目的ごとに文脈のある対話は、大規模言語モデル(LLM)などを組み合わせて構築する。無目的な雑談が難しかったが突破口になる。

日刊工業新聞 2025年02月06日

編集部のおすすめ