対話システムにおけるインタラクション　技術のこれまでとこれから：携帯機器での音声情報検索案内システムを例として(南泰浩)

対話システムにおけるインタラクション
技術のこれまでとこれから：
携帯機器での音声情報検索案内
システムを例として
電気通信大学大学院
情報システム学研究科
南泰浩

今年７月NTTより転職
これまでの研究
• 音声認識： 1000万語を対象とした音声認識
• 対話処理：各種対話システムを作成
docomo が公開した雑談APIに貢献
• 幼児語彙習得：語彙爆発を解明
• 東ロボプロジェクト：英語偏差値50.5 (NHK他で報
道)，半分以上が，NTT対話Gの元メンバー
自己紹介

対話処理に関して，携わった仕事

ＮＴＴで作成した実用的対話システム
•障害者サポートシステム
–利用技術：音声認識、音声合成、言語処理、
音響処理
–実験システム、
•テレフォンバンキングシステム
–利用技術：音声認識、音声合成、言語処理、
音響処理
–実システム
•秘書システム
–利用技術：音声認識、音声合成、言語処理
–実システム

障害者サポートシステム
電話
テレビ
エアコン

テレフォンバンキングシステム
• ある指定の口座から口座へ転送
￥
銀行口座１銀行口座２

電子秘書システム
田中さんに
電話したいんですが
田中さんですね。
おつなぎします。

概要
• これまで
– タスク達成型システム
– 大規模データベース＋タスク達成型システム
しゃべってコンシェル，CALO(Siriの基になった
プロジェクト）題材に
• これから
– 非タスク達成型対話
各手法の比較
– 感情の流れの把握
東ロボを題材に
• まとめ

タスク達成型システム
Mokusei:天気案内システムを題材に

対話インターフェースの構成
対話状況
対話管理
データベース
図＆表
音声理解
意味表現
意味
言語生成音声合成
音声
文章
音声認識
音声
単語列

言語生成
音声認識対話解決
音声合成対話管理
言語理解
Application
Back-end
Audio
Server
Audio
Server
I/O
サーバ
システムアーキテクチャ: Galaxy
Hub
Application
Back-endアプリケーション
http://communicator.sourceforge.net/index.shtml

ルール記述
音声認識言語理解
言語生成
言語独立言語依存
ルール
ルール
SPEECH
SYNTHESIS
音声合成音声合成
ModelsModelsモデル
言語透明
対話管理
データベース
図＆表
意味表現対話状況

Mokusei の文生成（言語依存）
rain (possible (in the morning)) [English original]
((morning in) possible) rain [Japanese ordering]
((gozenchuu ni) kanoo na) ame [nonsense]
gozenchuu (((ame no) kanoosee ga) arimasu) [fluent]
morning (((rain of) possibility) exist)
SBJ [English equivalent]

{c weather_event
topic:
{q precip_act name: "rain"
pred:
{p possibility
qualifier: "possible"
pred:
{p in_time
topic:
{q time_of_day
name: "morning"
quantifier: "def"} } } } }
Mokusei の意味表現（言語共通）

タスク達成型対話制御の実現方法
１．プログラムで直接記述
初期の実用システムのほとんどは
このタイプ
２．If then ルールで記述
人工知能研究
プログラムと知識を分離
比較的理解し易い
小規模なシステムで実用化

• プログラム
-汎用性がない
-システムのメンテナンスが大変
• ルールベース
-全てのルールを書ききることができない
-ルールの適用順序によって結果が異なる
タスク達成型対話制御の問題点
大規模なシステムでは不利

大規模データ＋タスク達成型システム：
しゃべってコンシェル，CALOを例として

データ
３３３m
東京タワー
の高さは情
報教えて
学習
データから知識を獲得

•機械学習によるユーザ意図の振り分け
•知識検索エンジン
知識DBを構成
• それから外れたものは、
自然言語によるQA（質問応答）検索
一問一答型＋α
docomo しゃべってコンシェル

しゃべってコンシェルのアーキテクチャ
音声認識
エンジン
意図解析
エンジン
知識検索
エンジン知識検索
エンジン
知識検索
エンジン
知識検索
エンジン
画像検索
エンジン
専門検索
エンジン
しゃべって
コンシェル
電話
メール
スケジューラ
アラーム
音楽プレーヤ
ユーザ発話の
音声認識
発話内容の
意図理解
専門検索
実行
アプリの
インテント
起動
吉村健，情報処理学会研究報告,SLP93-4, 2012

意図エンジンの処理
形態素解析発話内容を形態素に分割
カテゴリ付与単語にカテゴリ情報を付与
特徴量抽出形態素やカテゴリ等から特徴量を抽出
タスク判定
特徴量と学習モデルに基づきタスク
判定を実行（機械学習）
キーワード抽出発話内容に含まれる名詞と
タスク判定結果からキーワードを抽出
発話内容

知識検索エンジン
知識データ
ベース
DB質問型
QAシステム
検索型QA
システム
Web検索エ
ンジン
フロントサー
バ
質問文
QA: 質問応答

DB質問型QA
ユーザ質問
「エベレストの高さは？」
対象抽出属性判定
システム解答
「8848m」
データベース検索
対象：エベレスト属性：標高
富士山 3776 m
エベレスト 8848 m
K2 8611 m
キリマン
ジャロ
5895 m
標高テーブル
東中竜一郎他，NTT技術ジャーナル，2，2013

検索型QA
ユーザ質問
「世界で一番高い
山は」
文書解析
システム解答
「エベレスト」
富士山，北岳，モン
ブラン，エベレスト，
K2，カンチェンガ，
ローツェ
回答タイプ：単語回答型
拡張固有表現タイプ：山
検索キーワード：世界, 一番, 高い, 山
質問解析
Web検索
エンジン
リアルタイム
検索エンジン
回答評価
回答抽出
上位回答
表示
質問解析結果
回答抽出結果
東中竜一郎他，NTT技術ジャーナル，2，2013

DARPA CALO
・知識を統一的なオントロジーに変換
・統一的な検索エンジンで検索
一問一答型＋α
http://en.wikipedia.org/wiki/CALO
https://pal.sri.com/Plone/framework

DARPA PAL CALO
• The DARPA PAL program (the Personalized
Assistant that Learns)
コンピューターが認知システムを利用して，人
間を支援する手法の改善にフォーカスする．
• CALO (Cognitive Assistant that Learns and
Organizes)
CALOは認知的な多数のAI技術を統合する
ことで人を補助するシステムを目指す人工知
能プロジェクト。

DARPA プロジェクト
PAL
CALO
Siri
Apple
Trapit Project
2007年10月
2008年8月
2003年5月
～2008年
CALOとSiriの関係

Mediator
Asking
Reasoner
Asking Control Reasoner
Iterative Deepening Reasoner
Model Elimination Reasoner
Asking Control Dispatcher
Rule Expansion
Reasoner Query Planner
Assigned Goal
Dispatcher
Domain ModelRule Base
KM Asking
Reasoner
Time
Reasoner
IRIS
Asking
Reasoner
MOKB
Asking
Reasoner
PTIME
Asking
Reasoner
KM IRIS MOKB PTIMEMediator
CALOの質問応答

IRISオントロジー
ユーザー
インターフェース
知識ベース
情報源
Framework
Harvesters

質問からKIFへ
Which meetings
will have a conflict if the CALO Test meeting runs overtime by
an hour?
(and (CurrentCaloUser ?user)
(is-calendar-attendee ?user ?meeting) (Event-Entry ?meeting)
(calendar-summary ?meeting “CALO Test”)
(has-end-date ?meeting ?end-date)
(time-add ?end-date “PT60M” ?new-end-date)
(Event-Entry ?affected-meeting)
(time-inside-event ?new-end-date ?affected-meeting)
(is-calendar-attendee ?user ?affected-meeting))
KIF ：Knowledge Interchange Format

Query
Manager
Task
Management
User Interface
Advice Preference
Task
Manager
SPARK
Process Models
Time
Manager
PTIME
Effectors
Sensors
CALOのスケジュール管理
Belief Desire Intention
(BDI)フレームワーク

Belief Desire Intention フレームワーク
Belief：信念
Desire：欲求
Intention：意図
エージェントは信念に基づき，自分の目標
（欲求）を定める．その目標を達成するプ
ランを選んでそれを実行する意図を形成
し、その意図にそって行動を決めて，実行
する．

• 手続き的推論スタイルでのBDI エージェン
トフレームワーク
Beliefs
ProceduresIntentions
SensorsEffectors
Outside World
Desires
Executor
Agent
Advice

Sparkの動作
外部
世界
信念
実行部
意図構造
手続き
{defprocedure
Proc_name cue:
[newfact: p $x $y)]
Preconditions: (True)
body: {…}}
{defprocedure Proc
Name cue: [do (act)]
Precondiotns: …
Body: {…}}
cue
Procedure
instance
① 実行する
意図を選択
②行動を実施
④信念の変更と
新しいタスクが
意図を起動③信念を更新
②信念を更新
②新しいタスク
を配置
④手続きの実態を
実施予定にする

非タスク達成型対話
（雑談対話）

非タスク達成型対話の必要性
・過去の対話デモでの経験
‐何人かのデモ体験者は雑談を言う．
・対話システムに関する雑誌の記事
- 雑談ができることを強調する．
仮説：人間は，相手がどのようなことができる
のかを無意識に確認してしまう（心理学的に
はあり得そう）．

雑談に対応する手法
(1)ルールベース
しゃべってコンシェル，Siri(推定)
ひたすらルールを書く
(2)検索手法１
類似したツイートを探し，その応答を返す
(3)検索手法２
ツイートから類似した応答を探す．

-40-
（４）統計ベース：係り受け構造を利用
関連話題データベース
お腹空いたしご飯食べようー
「何も食べてなくて
お腹空いたなあ」
ユーザ発話
お腹→空いた
入力係り受け構造
ご飯→食べる
何か→食べる
力 →出ない
関連係り受け構造
システム発話文候補
「ご飯食べるんですね」
「何か食べたいんですね」
「力が出ないんですね」
H. Sugiyama, T. Meguro, R. Higashinaka, Y. Minami, “Open-domain Utterance Generation for
Conversational Dialogue Systems using Web-scale Dependency Structures,” in Proc. SIGDIAL, pp.
334-338, 2013.

ルールの作成
雑談対話の性能比較
1. 雑談：12万発話，パーソナリティ質問：4200件から発話
対（ユーザ発話：システム発話）の抽出
2. ユーザ発話から重要語以外の単語を削除し * を挿入し
パターンを自動生成（重要語：名詞，動詞，形容詞，終
助詞「か」，連体詞など）
3. 作成者が取捨選択
+α: 雑談コーパス中の頻出キーワード250個に対して
「対話を続けたいと思う発話」を100 文ずつ作成し追加

ルールの修正
雑談対話の性能比較
1. 作成したルールを使って評価用データに
より応答文を生成
2. 90%の応答が妥当とみなされるまでルー
ル修正
149300ルールを作成

ルールベース型対話システム対話例
話者発話マッチしたルール
ユーザこんにちは
システムこんにちはこんには
ユーザお名前は何ですか
システム愛子といいます *お名前*何*か*
ユーザ愛子さんですね，こんにちは
システムこんにちはこんにちは
ユーザご機嫌はどうですか
システムええー？どうなんでしょう．．．どう*か
ユーザ体調はどうですか
システム CMでよく見るパブロンという風邪薬が
すごくよくきいてびっくりしました
体調*どう
ユーザ風邪をひいてたんですか
システムそうなんですですか

各手法で生成された応答例
システム応答例評価値
ルール雷は怖いですね 1
文節ペアの係り受けいい感じに混ざって
美味しかったな
5
単語間の係り受けヤングコーンも卵だ 1
類似したツイートの返
信
カレーだと 2
類似した返信ツイート混ざり合おう 1
入力分：卵とカレーほどよく混ざり合って美味しそう。

各手法の比較
応答文として
の自然さ
ルール文節ペア
の係受け
単語間の
係受け
類似した
ツイートの
応答
類似した
応答
雑談
（想定内）
4.11 3.16* 3.31* 2.11* 2.96*
Twitter
（想定外）
3.17 3.33 3.39 2.20* 2.74*
目黒豊美, 杉山弘晃, 東中竜一郎, 南泰浩, “ルールベース発話生成と統計的発話生成の融合に基づく対話システ
ムの構築,”人工知能学会全国大会, 2014.

Oracle(最良の
システム）
提案各手法単独
ルール単語間の係り受け
雑談 4.44** 4.33 4.11** 3.31**
Twitter 4.02** 3.63 3.17** 3.39*
適切な識別によって，手法単独に比べて
ユーザ評価が向上
*：有意差あり（提案手法との比較）
目黒豊美, 杉山弘晃, 東中竜一郎, 南泰浩, “ルールベース発話生成と統計的発話生成の融合に基づく対話システ
ムの構築,”人工知能学会全国大会, 2014.
ハイブリッド手法の評価

感情の流れの把握
東ロボプロジェクト
（秋田県立大学堂坂教授担当）

まとめ
• これまで
プログラム・ルールベースのシステム
＋データベース＋機械学習
• これから
＋非タスク達成型対話
＋感情の流れの把握

対話システムにおけるインタラクション 技術のこれまでとこれから：携帯機器での音声情報検索案内システムを例として(南 泰浩)

More Related Content