Presentation is loading. Please wait.

Presentation is loading. Please wait.

擬人化エージェントGalateaのための VoiceXML処理系

Similar presentations


Presentation on theme: "擬人化エージェントGalateaのための VoiceXML処理系"— Presentation transcript:

1 擬人化エージェントGalateaのための VoiceXML処理系
西本卓也・嵯峨山茂樹(東京大学) 人工知能学会全国大会 オーガナイズドセッション 「VoiceXMLを利用した研究・開発事例」 2003年6月26日

2 背景 音声対話システムへの期待 擬人化音声対話エージェント VoiceXML利用の意義 GUIを超えるHMI手段としての可能性
対話実験を効率的に行う手段 自由な発話を許容するシステムへの期待 誤認識を想定した確認対話 効率的な対話制御

3 VoiceXMLの概要 音声対話パターンの記述言語 対話の単位=フォーム/メニュー フォーム=複数のフィールドから構成される
電話回線から音声でウェブを利用する技術 World Wide Web Consortium (W3C) で標準化 現在 Ver.2.0 Candidate Recommendation 対話の単位=フォーム/メニュー フォーム=複数のフィールドから構成される 音声出力 <prompt> 音声入力 <grammar> 入力の後処理 <filled>

4 本報告の概要 擬人化エージェントの役割 求められるツール カスタマイズ性の高い実験環境 音声対話研究におけるVoiceXML利用
Galatea ツールキット モジュール拡張 対話マネージャ(Galatea DM)の実装

5 擬人化エージェントへの期待 視覚的な表現の可能性 研究課題 内部状態を直観的に開示(システムの透過性) 同じ時間で多くの情報を提示
視覚的表現の利用指針 どのような方針に基づいて用いるべきか 表現手段やアプリケーションの詳細に依存 試行錯誤が必要 魅力的なアプリケーション/デモ

6 デモ(小話) おぬしは洒落の名手だそうだな? 庭の前の池にカニがたわむれているが, あれで何か洒落をいってみるがよい
仰せではございますが, そうニワカニは洒落られません。 なんだと? わしの申しつけなのに洒落られないとは!

7 Galatea VoiceXMLによる記述例

8 音声対話研究におけるVoiceXML ブートストラップ段階での開発効率化 VoiceXMLファイルの動的生成 タスク記述の可読性が高い
対話の流れのカスタマイズが可能 変数や条件分岐などの併用 VoiceXMLファイルの動的生成 不足する機能を補える VoiceXML 処理系 VXML ファイル Web サーバ (CGI) データベース

9 VoiceXMLを用いた反復的開発 対話コーパス収集とシステム改良の効率化 [Araki et al, 2003]
被験者とシステムによる音声対話 実験者による監視 ・操作の代行  (文法外の発話などに対処)  ・ログの分析とフィードバック

10 VoiceXML処理系への要求 外部(実験者)の関与 現状 音声入力の代行 誤認識/文法外発話への対処
対話タスク機能のための要素 評価実験支援のための要素 非音声の入力手段の制約 DTMF(数字)入力のみ

11 対話実験支援ツールの開発 目標 実現方法 反復的開発の支援 柔軟なモジュール構成 実験監視者のための機能 Galateaツールキットの拡張
複数モダリティの入出力を容易に追加できる 実験監視者のための機能 ログ取得 外部からの操作/入力代行 実現方法 Galateaツールキットの拡張

12 Galateaツールキット 擬人化音声対話エージェントの構築ツール 主なモジュール IPAの支援で開発 Linux版を使用
音声認識(SRM) 音声合成(SSM) 顔画像生成(FSM) エージェント管理(AM) 対話管理(DM) DM: 対話管理部 (VoiceXML処理系) AM: 各モジュールの制御 AM-MCL: 出力同期 FSM 顔合成 SSM 音声合成 SRM 音声認識

13 Galateaの拡張性 各モジュールのカスタマイズ性評価 未検討項目 共通の仮想マシンモデルに基いて通信
カスタマイズ・単体での実装・テストが容易 [川本ら, 2002] 未検討項目 モジュール追加など構成のカスタマイズ さらに機能を追加して制御できるか? 対話タスク記述における制御の柔軟性 VoiceXMLによる記述で制御できるか?

14 モジュールの追加 追加モジュール DM: 対話管理部 (VoiceXML処理系) AM: 各モジュールの制御 AM-MCL: 出力同期
DM-MCL: 入力制御 FSM 顔合成 SSM 音声合成 SRM 音声認識 SND 音声再生 SIM 意味解釈 GUI ユーザ 画面 MON 監視者 画面

15 出力手段の追加 ユーザ向け出力 実験者向けモニタ出力 テキストや画像の表示 オーディオ出力 状況に応じた顔画像の制御
サブモジュールのログ出力 対話管理部の内部状態出力

16 制御コマンドの例 モジュール SND, GUI, MON の入出力例 音声ファイル出力 テキスト表示・ログ出力 [to SND]
set Play = /path/file.wav [from SND] tell start /path/file.wav tell end /path/file.wav [to GUI] set Text = message [to MON] set LogText = message set AppLogText = message 音声ファイル出力 テキスト表示・ログ出力

17 入力手段の追加 情報統合モジュール(SIM) スケルトンのみ実装 将来の拡張に備える DM: 対話管理部 (VoiceXML処理系)
スケルトンのみ実装 将来の拡張に備える DM: 対話管理部 (VoiceXML処理系) 「はい」が入力された DM-MCL(入力制御) メッセージの流れを 制御する 「はい」 ボタンが 押された SIM 意味解釈 SRM 音声認識 GUI ユーザ 画面 MON 監視者 画面 「はい」と発話

18 想定する利用方法 必要なボタンを事前に監視者画面に作成 音声認識の一時無効化 SIM 意味解釈 音声入力の代行 (WOZ)
あいづち等のジェスチャ操作 「お待ちください」などの発話 SIM 意味解釈 VXML ファイル MON 監視者 画面 SRM 音声認識

19 対話マネージャの拡張 キューによって同期的に出力 VoiceXML2.0準拠の出力項目 新たな出力項目
Audio: 音声ファイル出力 Log: ログ出力 新たな出力項目 Native: プラットフォーム依存の命令 Voice Native Audio Log

20 VoiceXMLによる記述例 顔の向きを変えて「こんにちは」と発話し, 顔の向きを元に戻す <block>
<log>greeting begin</log> set HeadRotAbs.1 = </native> <prompt>こんにちは</prompt> set HeadRotAbs.1 = 0 0 0</native> <log>greeting end</log> </block>

21 動的な指定(変数の利用) 発話内容 ログ文字列 エージェント制御命令
<prompt> <value expr="a"/> 円です</prompt> ログ文字列 <log>状態<value expr="status" />です。</log> エージェント制御命令 <var name="face1" expr=" set Mask = man01' " /> <native expr="face1"/>

22 検討 動作確認:Redhat Linux 8.0 GUIによる音声入力の代行操作 VoiceXML拡張による同期的制御
既存モジュールの改変は不要 GUIによる音声入力の代行操作 GUIモジュールへのボタン追加 各モジュールは独立=機能の改変が容易 VoiceXML拡張による同期的制御 表情(感情),顔の向き,人物の切替

23 まとめ 音声対話の実験環境の構築 今後の課題 擬人化エージェントの制御 VoiceXMLによる対話記述 並列的な出力処理とその記述
表情や画像と音声の出力 発話意味解釈/マルチモーダル化 効果的なエージェント利用方法の検討 ツールの公開


Download ppt "擬人化エージェントGalateaのための VoiceXML処理系"

Similar presentations


Ads by Google