擬人化エージェントGalateaのための VoiceXML処理系

Slides:

Advertisements

Similar presentations

プラグイン作成講座 Control System Studio 3.0 Takashi Nakamoto

Advertisements

Word で XML マニュアルを編集し、 XML を自動組版する 1. XML の自動組版概要 2. Word での原稿入力アンテナハウス株式会社 2004/09/03.

1 情報基礎 A 第 9 週プログラミング入門 VBA の基本文法 1 準備・変数・データの入出力徳山豪・全眞嬉東北大学情報科学研究科システム情報科学専攻情報システム評価学分野.

データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識データベース  特定のテーマや目的に毎のデータの集合体データベースソフトウェア  データベースを作成、管理するソフトウェアの総称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)

位置情報履歴を利用したサービス提供機構の構築慶応大学環境情報学部 4 年徳田研究室土田泰徳

OWL-Sを用いたWebアプリケーションの検査と生成

Web アプリをユーザー毎にカスタマイズ可能にする AOP フレームワーク

TeX で数式を書くための PowerPoint アドイン Ver (2011/06/26) Ver. 0.1　(2007/5/30)

アドホックCUG I-3. ユビキタスネットワーク制御・管理技術 (Ubilaプロジェクト) ウ．ネットワークサービス制御技術

JPAを利用した RESTful Webサービスの開発

.NET テクノロジーを利用した SAP ソリューションの拡張（３階層化）（評価環境構築ガイド）

クラウドにおけるネストした仮想化を用いた安全な帯域外リモート管理

join NASS ~つながりあうネットワーク監視システム~

テキストベースの会議における議論の効率化に関する研究

IaaS 仮想マシン(VM)をネットワーク経由で提供負荷に応じてVM数や性能を変更できるハードウェアの導入・管理・維持コストの削減

インターネットにおけるオーケストラ演奏同期機構の設計と実装

担当：西本卓也（東京大学） 2009年8月実習：音声対話担当：西本卓也（東京大学） 2009年8月説明する。動作確認。演習課題の説明。演習。途中で１回説明をはさむ。

ユースケース図 FM12012　比嘉久登.

「まめだくん Ver.1.0」特徴と利用方法.

Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.

Java言語による「DTM アプリケーション」の開発～Java Sound API の利用～

Webを利用した授業支援システムの開発北海道工業大学　電気電子工学科 H 渋谷　俊彦.

ストリーム処理エンジンを用いた顔映像に対する補助情報提供システム

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

Webを使ったナレッジマネジメントとビジネス展開*

ユースケース図2-4～ FM11012 中島拓也.

第５回 CPUの役割と仕組み３割り込み、パイプライン、並列処理

CSP記述によるモデル設計とツールによる検証

ネストした仮想化を用いた VMの安全な帯域外リモート管理

.NET テクノロジーを利用した SAP ソリューションの拡張（３階層化）（評価環境構築ガイド）

入出力データ型に透過な Webサービス動的実行システム松江工業高等専門学校情報工学科越田高志情報処理学会第６８回全国大会

望月祐洋，由良淳一，楠本晶彦 {moma, yurayura,

第8章 Web技術とセキュリティ　　岡本　好未.

概要 Boxed Economy Simulation Platform（BESP）とその基本構造 BESPの設計・実装におけるポイント！

型付きアセンブリ言語を用いた安全なカーネル拡張

ラズパイ・オーディオの製作中間報告1 14EC004 飯田頌平.

オブジェクト指向プログラムにおけるエイリアス解析手法の提案と実現

実行時情報に基づく OSカーネルのコンフィグ最小化

プログラミング基礎ａ第10回 Javaによる図形処理入門（２） GUIの使い方

只見町インターネット・エコミュージアムの「キーワード」検索の改善

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

情報コミュニケーション入門ｅ第１１回 Part2 Web入門（１）

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

オープンソース開発支援のためのソースコード及びメールの履歴対応表示システム

プログラミング基礎ａ第10回 Javaによる図形処理入門（２） GUIの使い方

端末およびサービス透過的な情報閲覧支援システムの構築

ユビコン環境構築のためのソフトウェアプラットフォームユビコン環境における化身話利用の可能性

音声認識・翻訳 Android アプリケーション制作

アプリケーション依存の先読みが可能なO/Rマッピングツール

非負値行列因子分解に基づく唇動画像からの音声生成

Firebaseを用いた位置情報共有システム

ソフトウェア保守のためのコードクローン情報検索ツール

北海道情報大学情報メディア学部情報メディア学科新井山ゼミ金子拓磨

UMLの概要とオブジェクト指向の基本概念

項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作

手書き文字の自動認識アプリケーション 15K1013 坂本倖輝

モニターメーカーを活用したマシン室環境監視システムのご紹介

Webアプリケーションと JSPの基本ソフトウェア特論第4回.

基礎技術ー３ : Ｗｅｂページの標準規格について

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

プログラムの差分記述を容易に行うためのレイヤー機構付きIDEの提案

プログラム分散化のためのアスペクト指向言語

統合開発環境のためのプログラミング言語拡張フレームワーク

強制パススルー機構を用いた VMの安全な帯域外リモート管理

プログラムの一時停止時に将来の実行情報を提供するデバッガ

異種セグメント端末による分散型仮想LAN構築機構の設計と実装

コンパイラ 2012年10月11日

プログラミング実習(Java) グラフィクス処理とGUIプログラミング講師：坂口利裕（横浜市立大学）

P2P & JXTA Memo For Beginners

１．２言語処理の諸観点（１）言語処理の利用分野

Presentation transcript:

擬人化エージェントGalateaのための VoiceXML処理系西本卓也・嵯峨山茂樹（東京大学）人工知能学会全国大会オーガナイズドセッション「VoiceXMLを利用した研究・開発事例」 2003年6月26日

背景音声対話システムへの期待擬人化音声対話エージェント VoiceXML利用の意義 GUIを超えるHMI手段としての可能性対話実験を効率的に行う手段自由な発話を許容するシステムへの期待誤認識を想定した確認対話効率的な対話制御

VoiceXMLの概要音声対話パターンの記述言語対話の単位＝フォーム／メニューフォーム＝複数のフィールドから構成される電話回線から音声でウェブを利用する技術 World Wide Web Consortium (W3C) で標準化現在 Ver.2.0 Candidate Recommendation 対話の単位＝フォーム／メニューフォーム＝複数のフィールドから構成される音声出力 <prompt> 音声入力 <grammar> 入力の後処理 <filled>

本報告の概要擬人化エージェントの役割求められるツールカスタマイズ性の高い実験環境音声対話研究におけるVoiceXML利用 Galatea ツールキットモジュール拡張対話マネージャ(Galatea DM)の実装

擬人化エージェントへの期待視覚的な表現の可能性研究課題内部状態を直観的に開示（システムの透過性）同じ時間で多くの情報を提示視覚的表現の利用指針どのような方針に基づいて用いるべきか表現手段やアプリケーションの詳細に依存試行錯誤が必要魅力的なアプリケーション／デモ

デモ（小話）おぬしは洒落の名手だそうだな？庭の前の池にカニがたわむれているが，あれで何か洒落をいってみるがよい仰せではございますが，そうニワカニは洒落られません。なんだと？わしの申しつけなのに洒落られないとは！

Galatea VoiceXMLによる記述例

音声対話研究におけるVoiceXML ブートストラップ段階での開発効率化 VoiceXMLファイルの動的生成タスク記述の可読性が高い対話の流れのカスタマイズが可能変数や条件分岐などの併用 VoiceXMLファイルの動的生成不足する機能を補える VoiceXML 処理系 VXML ファイル Web サーバ (CGI) データベース

VoiceXMLを用いた反復的開発対話コーパス収集とシステム改良の効率化 [Araki et al, 2003] 被験者とシステムによる音声対話実験者による監視・操作の代行　（文法外の発話などに対処）　・ログの分析とフィードバック

VoiceXML処理系への要求外部（実験者）の関与現状音声入力の代行誤認識／文法外発話への対処対話タスク機能のための要素評価実験支援のための要素非音声の入力手段の制約 DTMF（数字）入力のみ

対話実験支援ツールの開発目標実現方法反復的開発の支援柔軟なモジュール構成実験監視者のための機能 Galateaツールキットの拡張複数モダリティの入出力を容易に追加できる実験監視者のための機能ログ取得外部からの操作／入力代行実現方法 Galateaツールキットの拡張

Galateaツールキット擬人化音声対話エージェントの構築ツール主なモジュール IPAの支援で開発 Linux版を使用音声認識(SRM) 音声合成(SSM) 顔画像生成(FSM) エージェント管理(AM) 対話管理(DM) DM: 対話管理部　(VoiceXML処理系) AM: 各モジュールの制御 AM-MCL: 出力同期 FSM 顔合成 SSM 音声合成 SRM 音声認識

Galateaの拡張性各モジュールのカスタマイズ性評価未検討項目共通の仮想マシンモデルに基いて通信カスタマイズ・単体での実装・テストが容易 [川本ら, 2002] 未検討項目モジュール追加など構成のカスタマイズさらに機能を追加して制御できるか？対話タスク記述における制御の柔軟性 VoiceXMLによる記述で制御できるか？

モジュールの追加追加モジュール DM: 対話管理部 (VoiceXML処理系) AM: 各モジュールの制御 AM-MCL: 出力同期 DM-MCL: 入力制御 FSM 顔合成 SSM 音声合成 SRM 音声認識 SND 音声再生 SIM 意味解釈 GUI ユーザ画面 MON 監視者画面

出力手段の追加ユーザ向け出力実験者向けモニタ出力テキストや画像の表示オーディオ出力状況に応じた顔画像の制御サブモジュールのログ出力対話管理部の内部状態出力

制御コマンドの例モジュール SND, GUI, MON の入出力例音声ファイル出力テキスト表示・ログ出力 [to SND] set Play = /path/file.wav [from SND] tell start /path/file.wav tell end /path/file.wav [to GUI] set Text = message [to MON] set LogText = message set AppLogText = message 音声ファイル出力テキスト表示・ログ出力

入力手段の追加情報統合モジュール(SIM) スケルトンのみ実装将来の拡張に備える DM: 対話管理部 (VoiceXML処理系) スケルトンのみ実装　将来の拡張に備える DM: 対話管理部　(VoiceXML処理系) 「はい」が入力された DM-MCL（入力制御）メッセージの流れを制御する「はい」ボタンが押された SIM 意味解釈 SRM 音声認識 GUI ユーザ画面 MON 監視者画面「はい」と発話

想定する利用方法必要なボタンを事前に監視者画面に作成音声認識の一時無効化 SIM 意味解釈音声入力の代行 (WOZ) あいづち等のジェスチャ操作「お待ちください」などの発話 SIM 意味解釈 VXML ファイル MON 監視者画面 SRM 音声認識

対話マネージャの拡張キューによって同期的に出力 VoiceXML2.0準拠の出力項目新たな出力項目 Audio: 音声ファイル出力 Log: ログ出力新たな出力項目 Native: プラットフォーム依存の命令 Voice Native Audio Log

VoiceXMLによる記述例顔の向きを変えて「こんにちは」と発話し，顔の向きを元に戻す <block> <log>greeting begin</log> <native>to @FSM set HeadRotAbs.1 = 0 10 0</native> <prompt>こんにちは</prompt> <native>to @FSM set HeadRotAbs.1 = 0 0 0</native> <log>greeting end</log> </block>

動的な指定（変数の利用）発話内容ログ文字列エージェント制御命令 <prompt> <value expr="a"/> 円です</prompt> ログ文字列 <log>状態<value expr="status" />です。</log> エージェント制御命令 <var name="face1" expr=" 'to @FSM set Mask = man01' " /> <native expr="face1"/>

検討動作確認：Redhat Linux 8.0 GUIによる音声入力の代行操作 VoiceXML拡張による同期的制御既存モジュールの改変は不要 GUIによる音声入力の代行操作 GUIモジュールへのボタン追加各モジュールは独立＝機能の改変が容易 VoiceXML拡張による同期的制御表情（感情），顔の向き，人物の切替

まとめ音声対話の実験環境の構築今後の課題擬人化エージェントの制御 VoiceXMLによる対話記述並列的な出力処理とその記述表情や画像と音声の出力発話意味解釈／マルチモーダル化効果的なエージェント利用方法の検討ツールの公開