階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御

Slides:

Advertisements

Similar presentations

CMU2005 海外エンジニアリングワークショップ参加報告書 1 「真の要求を見極めろ！」： teamB 要求定義をどう捉えるか ● 要求定義とは何か？製品には、顧客の望むことを正しく反映させる必要がある。そのために必要なものが要求仕様である。すなわち、要求仕様とは、顧客と製品を結ぶものであり、これを作ることが要求定義である。

Advertisements

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

OWL-Sを用いたWebアプリケーションの検査と生成

顔表情クラスタリングによる映像コンテンツへのタギング

機械学習勉強会～強化学習～ 11/18 江原遥.

強化学習 RT.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

クロストーク成分の相互相関に着目した音場再生システム

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning

雑音重み推定と音声ＧＭＭを用いた雑音除去

エージェントアプローチ人工知能　21章 B4　片渕聡.

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

強化学習 RT.

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

発表日：平成１５年４月２５日担当者：時田陽一担当箇所：第３章誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則

協調機械システム論 ( ，本郷）協調機械システム論東京大学　人工物工学研究センター淺間　一.

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

決定木とランダムフォレスト和田　俊和.

5 テスト技術 5.1 テストとは LISのテスト故障診断 fault diagnosis 故障解析 fault analysis

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

音高による音色変化に着目した音源同定に関する研究

情報理工学系研究科数理情報学専攻数理第四研究室博士三年指導教員：駒木文保准教授鈴木大慈 2008年8月14日

雑音環境下における非負値行列因子分解を用いた声質変換

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

Introduction to Soft Computing （第11回目）

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

強化学習におけるマクロを用いた行動系列の獲得

状況に応じたユビキタスサービス起動のための即興セレクタ

2009年12月4日 ○ 前田康成（北見工業大学）吉田秀樹（北見工業大学）鈴木正清（北見工業大学）松嶋敏泰（早稲田大学）

連続領域におけるファジィ制約充足問題の反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.

階層的境界ボリュームを用いた陰関数曲面の高速なレイトレーシング法

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

電機情報工学専門実験 6. 強化学習シミュレーション

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

Number of random matrices

ウィルスってどの位感染しているのかな？菊池研究室　　小堀智弘.

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

P2P ネットワーク上で実時間ストリーミングを実現するための分散制御プロトコルの提案

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

第3章　線形回帰モデル修士1年山田　孝太郎.

ベイズ最適化 Bayesian Optimization BO

Data Clustering: A Review

クロスバリデーションを用いたベイズ基準によるHMM音声合成

HMM音声合成における変分ベイズ法に基づく線形回帰

人工知能特論II　第8回二宮　崇.

ポッツスピン型隠れ変数による画像領域分割

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

担当兵庫県立大学大学院応用情報科学研究科神戸商科大学商経学部管理化学科教授有馬昌宏

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

制約付き非負行列因子分解を用いた音声特徴抽出の検討

実験計画法 Design of Experiments (DoE)

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

情報数理Ⅱ 第10章　オートマトン平成28年12月21日.

CSP係数の識別に基づく話者の頭部方向の推定

一問一答式クイズAQuAsにおける学習支援の方法

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

Presentation transcript:

階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御神戸大学大学院工学研究科情報知能学専攻 CS17 有木研究室 091T517T　岸本康秀

研究背景・目的カーナビの音声認識システムが普及していないユーザの自由な発話に対しても頑健誤認識からの回復が可能特定のコマンドを話さなければならない ○コンビニ検索　×検索コンビニ誤認識を避けられないユーザの自由な発話に対しても頑健誤認識からの回復が可能自由な発話に対して頑健なのはどこで？？色々な発話を想定している。一般的な音声対話システムにおいても同じ

従来の音声対話システムマルコフ決定過程（MDP）を用いた音声対話システム MDPの利点確率モデルで表現することにより、方策を自動で学習オートマトン的に手作業で設定を行う必要がない明確な基準で評価を行うことが出来る報酬の設定により定量的な評価を行える

MDPの欠点状態を完全観測出来ると仮定している誤認識からの回復が難しい音声対話においては、雑音環境下や発話誤りなどによって観測誤りが起こりやすいユーザの状態を確実に決定するのは難しい誤認識からの回復が難しい s2 a1 s3 s1 FMを聞きたい

部分観測マルコフ決定過程（POMDP） MDPのモデルを拡張し、状態観測に不確実性を付加したモデル状態を確率分布（信念）で推測する。

s s’ a o’ ベイジアンネットワーク ? Bayesian Network old belief new belief action b(s) s b’(s’) s Bayesian Network ? s s’ old belief new belief a action o’ data POMDPの大事な部分を説明するとベイジアンネットワークの概説がほしいユーザの状態を完全観測できないので、ユーザの状態を確率分布として表す。複数の仮説を持つことにより誤認識からの回復が可能となる

ダイナミックベイジアンネットワーク S’ RL RL POMDPの環境をこのように設定する！行動を最適化するのがPOMDP問題報酬の説明！例えば正しいユーザのゴールを求めることが出来れば、大きな正の報酬。間違えれば負の報酬。その他、ターン数がかかればちいさな負の報酬記号説明 Aはシステムの行動を表しており、将来得られる累積報酬を最大にするような方策に従い、行動を選択する。 Oはユーザからの観測値を表しており、この場合は音声認識結果報酬の設定ユーザの観測からユーザの状態を推測（ベイジアンネットワーク）その推測された状態に基づいて最適な行動とるベイジアンネットによって信念を更新する目的関数の累積報酬を最大にするよう行動を選ぶユーザの状態は確率分布によって推測する RL RL

学習ある状態における信念×報酬で期待報酬が計算できる tターン後に得られる利得上式を最大にするような方策を求める方策は、将来獲得出来る報酬を最大にするアクションaを信念分布ｂのみから選択できる未来の報酬を割引く理由は以下による．実環境では，時間の経過とともに環境が変化したり，エージェントが故障等で停止する可能性があるため，時系列上の全ての報酬を同じ重みで考慮するのは妥当ではない．いわばリスクを考慮する必要がある．無限期間時系列の利得を有限の値として扱うため．

Value Iteration 動的計画法全ての状態と行動の遷移を考慮方策評価と方策改善を繰り返す・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

状態 A,B 行動（-1,-1）、 (+5,-10)、 (-10,+5) b value 10 5 -5 -10 -15 s=A 行動　　　（-1,-1）、　　(+5,-10)、　　(-10,+5) value 10 　5 -5 -10 -15 b s=A b=(1,0) s=B b=(0,1)

value 10 　5 -5 -10 -15 -20 -25 s=A b=(1,0) s=B b=(0,1)

問題点大量のベクトルが列挙される計算量が膨大になる状態空間または行動空間が大きい場合には、計算不可能

Point-based Value Iteration 状態空間のいくつかの代表点でのみ最適な方策を探索任意の状態に対して、定数個の方策の中から最も良いものを選ぶ全ての到達しうる状態に対して最適なポリシーを構築する代わりに，状態空間のいくつかの代表点でのみ最適なポリシーを探索し，そのポリシーに応じて状態空間全体を覆うベクトル(® ベクトル) を作成する．これらのベクトルを用いることで，状態空間上における任意の状態に対して近似解となるポリシーを構築している．

10 5 -5 -10 -15 再帰的に計算するときにPBVIの方が計算量が少ない状態数の組み合わせ爆発の回避　5 -5 -10 -15 再帰的に計算するときにPBVIの方が計算量が少ない状態数の組み合わせ爆発の回避 VIでは、毎回全て列挙してからその中から最適価値関数を選ぶ　　下位の階層で組み合わせ爆発が生じる PBVIでは、ある信念における最適価値関数を列挙してから、全体で最適な価値関数を選択する

階層的強化学習状態空間が巨大で複雑な時、大域的な方策を一度に求めるのは困難状態数が多いと信念更新が煩雑になるタスクを階層的に分解し、各部分問題に対して、局所的な方策を学習。それらを統合することによって、大きなタスクの実現が可能。

階層的強化学習サブタスクを選択する層ユーザのゴールを求めるサブタスクを実行する層ルートはサブタスクをゴールに設定し、PBVIで最適化を行うルートオーディオエアコン店舗検索

対話例１従来システム POMDP 初期状態 navi:{ goal:<empty> } navi:{ ホテル学校　銀行　病院　コンビニ navi:{ goal:<empty> } U:銀行に行きたい。　[銀行]~0.4 ホテル学校　銀行　病院　コンビニ信頼度の低い発話を繰り返すことによってユーザのゴールを求めることが出来る。ターン数はかかるが S:すみません、どこですか？ U:銀行です。　[銀行]~0.42 navi:{ goal:<empty> } ホテル学校　銀行　病院　コンビニ

対話例２従来システム POMDP 初期状態 navi:{ goal:<empty> } navi:{ ホテル学校　銀行　病院　コンビニ navi:{ goal:<empty> } U:病院に行きたい。　[銀行]~0.4 ホテル学校　銀行　病院　コンビニ S:すみません、どこですか？ U:病院です。　[病院]~0.9 navi:{ goal:<病院> } ホテル学校　銀行　病院　コンビニ

実験 POMDPの方策とユーザシミュレーションの対話を1000回繰り返して平均利得、平均ターン数、正答率を計算する。手動で作ったHC１、HC2と比較 HC1：従来のカーナビを想定 HC2：ユーザの発話に毎回確認をとるコンセプト誤り率を変えて実験コンセプト、意図理解を行った結果 HCを作って、同じようにユーザシミュレーションとの対話を行う HCはオートマトン的に手動で設定を行った方策である

報酬の設定 Corret answer Uncorrect answer ask -2 confirm -0.5 -3 submit +7 -10

実験結果

実験結果２

実験結果３

まとめカーナビにPOMDPを適用階層的強化学習を適用シミュレーション実験により頑健性を確認不確実性に対処従来よりも大きなタスクの実現が可能シミュレーション実験により頑健性を確認

Future Work 構音障害者のための環境制御装置シーンごとにタスクを階層化して最適化を行う発話が曖昧信頼度が低いルートオーディオ操作照明操作テレビ操作現在単語認識で行っているチャンネル操作メニュー操作番組表操作

ご清聴ありがとうございました

強化学習、利点目標までの行動を人間が知らなくて良い。タスク遂行のためのプログラミング強化学習で自動化することにより、設計者の負担の軽減が期待できる。人間以上の行動を見つけ出す可能性がある。 Agent Environment (POMDP) アクションa 報酬r 観測値o

強化学習 Bellman方程式強化学習 Reward= + … Policy s1 s2 sT-1 sT a1 a2 aT-1 aT o1 oT-1 oT b1 b2 bT-1 bT システムの方策を最適化状態行動対の報酬を設定方策を自動で作成することが出来る方策改善と方策評価を繰り返すことにより最適な価値関数を求めることが出来る。ある状態における行動すべてに対して報酬を設定長期的な報酬を最大にするよう方策を作る Value-iterationを用いて方策改善と方策評価を繰り返す Policy 強化学習

対話システムの構造 user Control module Input module Dialog model Dialog manager Speech recognition & Language understanding Dialog model user Dialog manager Language generation Output module

問題点？？なぜタスク変更するか PBVIの収束条件ユーザシミュレーション平均利得が収束していく確認したい１０００回の対話平均利得が収束していく　確認したいユーザシミュレーション１０００回の対話信頼度の付与　コンセプト誤りが生じた時は、０．６以下のランダムの信頼度を付与