擬人化エージェントGalateaのための VoiceXML処理系

Slides:



Advertisements
Similar presentations
プラグイン作成講座 Control System Studio 3.0 Takashi Nakamoto
Advertisements

Word で XML マニュアルを編集 し、 XML を自動組版する 1. XML の自動組版概要 2. Word での原稿入力 アンテナハウス株式会社 2004/09/03.
1 情報基礎 A 第 9 週 プログラミング入門 VBA の基本文法 1 準備・変数・データの入出力 徳山 豪・全 眞嬉 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野.
データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識 データベース  特定のテーマや目的に毎のデータの集合体 データベースソフトウェア  データベースを作成、管理するソフトウェアの総 称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)
位置情報履歴を利用した サービス提供機構の構築 慶応大学環境情報学部 4 年 徳田研究室 土田泰徳
OWL-Sを用いたWebアプリケーションの検査と生成
Web アプリをユーザー毎に カスタマイズ可能にする AOP フレームワーク
TeX で数式を書くための PowerPoint アドイン Ver (2011/06/26) Ver. 0.1 (2007/5/30)
アドホックCUG I-3. ユビキタスネットワーク制御・管理技術 (Ubilaプロジェクト) ウ.ネットワークサービス制御技術
JPAを利用した RESTful Webサービスの開発
.NET テクノロジー を利用した SAP ソリューションの拡張 (3階層化) (評価環境構築ガイド)
クラウドにおける ネストした仮想化を用いた 安全な帯域外リモート管理
join NASS ~つながりあうネットワーク監視システム~
テキストベースの会議における議論の効率化に関する研究
IaaS 仮想マシン(VM)をネットワーク経由で提供 負荷に応じてVM数や性能を変更できる ハードウェアの導入・管理・維持コストの削減
インターネットにおける オーケストラ演奏同期機構の 設計と実装
担当:西本卓也(東京大学) 2009年8月 実習:音声対話 担当:西本卓也(東京大学) 2009年8月 説明する。動作確認。 演習課題の説明。演習。途中で1回説明をはさむ。
ユースケース図 FM12012 比嘉久登.
「まめだくん Ver.1.0」 特徴と利用方法.
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
Java言語による 「DTM アプリケーション」の開発 ~Java Sound API の利用~
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
ストリーム処理エンジンを用いた 顔映像に対する 補助情報提供システム
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
Webを使ったナレッジマネジメントとビジネス展開*
ユースケース図2-4~ FM11012 中島拓也.
第5回 CPUの役割と仕組み3 割り込み、パイプライン、並列処理
CSP記述によるモデル設計と ツールによる検証
ネストした仮想化を用いた VMの安全な帯域外リモート管理
.NET テクノロジー を利用した SAP ソリューションの拡張 (3階層化) (評価環境構築ガイド)
入出力データ型に透過な Webサービス動的実行システム 松江工業高等専門学校 情報工学科 越田高志 情報処理学会第68回全国大会
望月 祐洋,由良 淳一,楠本 晶彦 {moma, yurayura,
第8章 Web技術とセキュリティ   岡本 好未.
概要 Boxed Economy Simulation Platform(BESP)とその基本構造 BESPの設計・実装におけるポイント!
型付きアセンブリ言語を用いた安全なカーネル拡張
ラズパイ・オーディオの製作 中間報告1 14EC004 飯田 頌平.
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
実行時情報に基づく OSカーネルのコンフィグ最小化
プログラミング基礎a 第10回 Javaによる図形処理入門(2) GUIの使い方
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
情報コミュニケーション入門e 第11回 Part2 Web入門(1)
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
プログラミング基礎a 第10回 Javaによる図形処理入門(2) GUIの使い方
端末およびサービス透過的な 情報閲覧支援システムの構築
ユビコン環境構築のためのソフトウェアプラットフォーム ユビコン環境における化身話利用の可能性
音声認識・翻訳 Android アプリケーション制作
アプリケーション依存の先読みが可能なO/Rマッピングツール
非負値行列因子分解に基づく唇動画像からの音声生成
Firebaseを用いた 位置情報共有システム
ソフトウェア保守のための コードクローン情報検索ツール
北海道情報大学 情報メディア学部 情報メディア学科 新井山ゼミ 金子拓磨
UMLの概要とオブジェクト指向の基本概念
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
手書き文字の自動認識アプリケーション 15K1013 坂本 倖輝
モニターメーカー を活用したマシン室環境監視システムのご紹介
Webアプリケーションと JSPの基本 ソフトウェア特論 第4回.
基礎技術ー3 : Webページの標準規格について
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
プログラムの差分記述を 容易に行うための レイヤー機構付きIDEの提案
プログラム分散化のための アスペクト指向言語
統合開発環境のための プログラミング言語拡張 フレームワーク
強制パススルー機構を用いた VMの安全な帯域外リモート管理
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
コンパイラ 2012年10月11日
プログラミング実習(Java) グラフィクス処理とGUIプログラミング 講師:坂口 利裕(横浜市立大学)
P2P & JXTA Memo For Beginners
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

擬人化エージェントGalateaのための VoiceXML処理系 西本卓也・嵯峨山茂樹(東京大学) 人工知能学会全国大会 オーガナイズドセッション 「VoiceXMLを利用した研究・開発事例」 2003年6月26日

背景 音声対話システムへの期待 擬人化音声対話エージェント VoiceXML利用の意義 GUIを超えるHMI手段としての可能性 対話実験を効率的に行う手段 自由な発話を許容するシステムへの期待 誤認識を想定した確認対話 効率的な対話制御

VoiceXMLの概要 音声対話パターンの記述言語 対話の単位=フォーム/メニュー フォーム=複数のフィールドから構成される 電話回線から音声でウェブを利用する技術 World Wide Web Consortium (W3C) で標準化 現在 Ver.2.0 Candidate Recommendation 対話の単位=フォーム/メニュー フォーム=複数のフィールドから構成される 音声出力 <prompt> 音声入力 <grammar> 入力の後処理 <filled>

本報告の概要 擬人化エージェントの役割 求められるツール カスタマイズ性の高い実験環境 音声対話研究におけるVoiceXML利用 Galatea ツールキット モジュール拡張 対話マネージャ(Galatea DM)の実装

擬人化エージェントへの期待 視覚的な表現の可能性 研究課題 内部状態を直観的に開示(システムの透過性) 同じ時間で多くの情報を提示 視覚的表現の利用指針 どのような方針に基づいて用いるべきか 表現手段やアプリケーションの詳細に依存 試行錯誤が必要 魅力的なアプリケーション/デモ

デモ(小話) おぬしは洒落の名手だそうだな? 庭の前の池にカニがたわむれているが, あれで何か洒落をいってみるがよい 仰せではございますが, そうニワカニは洒落られません。 なんだと? わしの申しつけなのに洒落られないとは!

Galatea VoiceXMLによる記述例

音声対話研究におけるVoiceXML ブートストラップ段階での開発効率化 VoiceXMLファイルの動的生成 タスク記述の可読性が高い 対話の流れのカスタマイズが可能 変数や条件分岐などの併用 VoiceXMLファイルの動的生成 不足する機能を補える VoiceXML 処理系 VXML ファイル Web サーバ (CGI) データベース

VoiceXMLを用いた反復的開発 対話コーパス収集とシステム改良の効率化 [Araki et al, 2003] 被験者とシステムによる音声対話 実験者による監視 ・操作の代行  (文法外の発話などに対処)  ・ログの分析とフィードバック

VoiceXML処理系への要求 外部(実験者)の関与 現状 音声入力の代行 誤認識/文法外発話への対処 対話タスク機能のための要素 評価実験支援のための要素 非音声の入力手段の制約 DTMF(数字)入力のみ

対話実験支援ツールの開発 目標 実現方法 反復的開発の支援 柔軟なモジュール構成 実験監視者のための機能 Galateaツールキットの拡張 複数モダリティの入出力を容易に追加できる 実験監視者のための機能 ログ取得 外部からの操作/入力代行 実現方法 Galateaツールキットの拡張

Galateaツールキット 擬人化音声対話エージェントの構築ツール 主なモジュール IPAの支援で開発 Linux版を使用 音声認識(SRM) 音声合成(SSM) 顔画像生成(FSM) エージェント管理(AM) 対話管理(DM) DM: 対話管理部 (VoiceXML処理系) AM: 各モジュールの制御 AM-MCL: 出力同期 FSM 顔合成 SSM 音声合成 SRM 音声認識

Galateaの拡張性 各モジュールのカスタマイズ性評価 未検討項目 共通の仮想マシンモデルに基いて通信 カスタマイズ・単体での実装・テストが容易 [川本ら, 2002] 未検討項目 モジュール追加など構成のカスタマイズ さらに機能を追加して制御できるか? 対話タスク記述における制御の柔軟性 VoiceXMLによる記述で制御できるか?

モジュールの追加 追加モジュール DM: 対話管理部 (VoiceXML処理系) AM: 各モジュールの制御 AM-MCL: 出力同期 DM-MCL: 入力制御 FSM 顔合成 SSM 音声合成 SRM 音声認識 SND 音声再生 SIM 意味解釈 GUI ユーザ 画面 MON 監視者 画面

出力手段の追加 ユーザ向け出力 実験者向けモニタ出力 テキストや画像の表示 オーディオ出力 状況に応じた顔画像の制御 サブモジュールのログ出力 対話管理部の内部状態出力

制御コマンドの例 モジュール SND, GUI, MON の入出力例 音声ファイル出力 テキスト表示・ログ出力 [to SND] set Play = /path/file.wav [from SND] tell start /path/file.wav tell end /path/file.wav [to GUI] set Text = message [to MON] set LogText = message set AppLogText = message 音声ファイル出力 テキスト表示・ログ出力

入力手段の追加 情報統合モジュール(SIM) スケルトンのみ実装 将来の拡張に備える DM: 対話管理部 (VoiceXML処理系) スケルトンのみ実装 将来の拡張に備える DM: 対話管理部 (VoiceXML処理系) 「はい」が入力された DM-MCL(入力制御) メッセージの流れを 制御する 「はい」 ボタンが 押された SIM 意味解釈 SRM 音声認識 GUI ユーザ 画面 MON 監視者 画面 「はい」と発話

想定する利用方法 必要なボタンを事前に監視者画面に作成 音声認識の一時無効化 SIM 意味解釈 音声入力の代行 (WOZ) あいづち等のジェスチャ操作 「お待ちください」などの発話 SIM 意味解釈 VXML ファイル MON 監視者 画面 SRM 音声認識

対話マネージャの拡張 キューによって同期的に出力 VoiceXML2.0準拠の出力項目 新たな出力項目 Audio: 音声ファイル出力 Log: ログ出力 新たな出力項目 Native: プラットフォーム依存の命令 Voice Native Audio Log

VoiceXMLによる記述例 顔の向きを変えて「こんにちは」と発話し, 顔の向きを元に戻す <block> <log>greeting begin</log> <native>to @FSM set HeadRotAbs.1 = 0 10 0</native> <prompt>こんにちは</prompt> <native>to @FSM set HeadRotAbs.1 = 0 0 0</native> <log>greeting end</log> </block>

動的な指定(変数の利用) 発話内容 ログ文字列 エージェント制御命令 <prompt> <value expr="a"/> 円です</prompt> ログ文字列 <log>状態<value expr="status" />です。</log> エージェント制御命令 <var name="face1" expr=" 'to @FSM set Mask = man01' " /> <native expr="face1"/>

検討 動作確認:Redhat Linux 8.0 GUIによる音声入力の代行操作 VoiceXML拡張による同期的制御 既存モジュールの改変は不要 GUIによる音声入力の代行操作 GUIモジュールへのボタン追加 各モジュールは独立=機能の改変が容易 VoiceXML拡張による同期的制御 表情(感情),顔の向き,人物の切替

まとめ 音声対話の実験環境の構築 今後の課題 擬人化エージェントの制御 VoiceXMLによる対話記述 並列的な出力処理とその記述 表情や画像と音声の出力 発話意味解釈/マルチモーダル化 効果的なエージェント利用方法の検討 ツールの公開