階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御

Slides:



Advertisements
Similar presentations
CMU2005 海外エンジニアリングワークショップ参加報告書 1 「真の要求を見極めろ!」: teamB 要求定義をどう捉えるか ● 要求定義とは何か? 製品には、顧客の望むことを正しく反映させる必要がある。 そのために必要なものが要求仕様である。 すなわち、要求仕様とは、顧客と製品を結ぶものであり、これを作ることが要求定義である。
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
OWL-Sを用いたWebアプリケーションの検査と生成
顔表情クラスタリングによる 映像コンテンツへのタギング
機械学習勉強会~強化学習~ 11/18 江原遥.
強化学習 RT.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
クロストーク成分の相互相関に 着目した音場再生システム
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
雑音重み推定と音声 GMMを用いた雑音除去
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
強化学習 RT.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
5 テスト技術 5.1 テストとは LISのテスト 故障診断 fault diagnosis 故障解析 fault analysis
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音高による音色変化に着目した音源同定に関する研究
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
Introduction to Soft Computing (第11回目)
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
強化学習におけるマクロを用いた 行動系列の獲得
状況に応じたユビキタスサービス起動 のための即興セレクタ
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
電機情報工学専門実験 6. 強化学習シミュレーション
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Data Clustering: A Review
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
HMM音声合成における 変分ベイズ法に基づく線形回帰
人工知能特論II 第8回 二宮 崇.
ポッツスピン型隠れ変数による画像領域分割
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
担当 兵庫県立大学大学院 応用情報科学研究科 神戸商科大学 商経学部管理化学科 教授 有馬 昌宏
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
実験計画法 Design of Experiments (DoE)
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
情報数理Ⅱ 第10章 オートマトン 平成28年12月21日.
CSP係数の識別に基づく話者の 頭部方向の推定
一問一答式クイズAQuAsにおける学習支援の方法
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御 神戸大学大学院 工学研究科 情報知能学専攻 CS17 有木研究室 091T517T 岸本康秀

研究背景・目的 カーナビの音声認識システムが普及していない ユーザの自由な発話に対しても頑健 誤認識からの回復が可能 特定のコマンドを話さなければならない ○コンビニ検索 ×検索コンビニ 誤認識を避けられない ユーザの自由な発話に対しても頑健 誤認識からの回復が可能 自由な発話に対して頑健なのはどこで?? 色々な発話を想定している。 一般的な音声対話システムにおいても同じ

従来の音声対話システム マルコフ決定過程(MDP)を用いた音声対話システム MDPの利点 確率モデルで表現することにより、方策を自動で学習 オートマトン的に手作業で設定を行う必要がない 明確な基準で評価を行うことが出来る 報酬の設定により定量的な評価を行える

MDPの欠点 状態を完全観測出来ると仮定している 誤認識からの回復が難しい 音声対話においては、雑音環境下や発話誤りなどによって観測誤りが起こりやすい ユーザの状態を確実に決定するのは難しい 誤認識からの回復が難しい s2 a1 s3 s1 FMを聞きたい

部分観測マルコフ決定過程(POMDP) MDPのモデルを拡張し、状態観測に不確実性を付加したモデル 状態を確率分布(信念)で推測する。

s s’ a o’ ベイジアンネットワーク ? Bayesian Network old belief new belief action b(s) s b’(s’) s Bayesian Network ? s s’ old belief new belief   a action o’ data POMDPの大事な部分を説明すると ベイジアンネットワークの概説がほしい ユーザの状態を完全観測できないので、ユーザの状態を確率分布として表す。 複数の仮説を持つことにより誤認識からの回復が可能となる

ダイナミックベイジアンネットワーク S’ RL RL POMDPの環境をこのように設定する! 行動を最適化するのがPOMDP問題 報酬の説明! 例えば正しいユーザのゴールを求めることが出来れば、大きな正の報酬。間違えれば負の報酬。 その他、ターン数がかかればちいさな負の報酬 記号説明 Aはシステムの行動を表しており、将来得られる累積報酬を最大にするような方策に従い、行動を選択する。 Oはユーザからの観測値を表しており、この場合は音声認識結果 報酬の設定 ユーザの観測からユーザの状態を推測(ベイジアンネットワーク) その推測された状態に基づいて最適な行動とる ベイジアンネットによって信念を更新する 目的関数の累積報酬を最大にするよう行動を選ぶ ユーザの状態は確率分布によって推測する RL RL

学習 ある状態における信念×報酬で期待報酬が計算できる tターン後に得られる利得 上式を最大にするような方策を求める 方策は、将来獲得出来る報酬を最大にするアクションaを信念分布bのみから選択できる 未来の報酬を割引く理由は以下による. 実環境では,時間の経過とともに環境が変化したり, エージェントが故障等で停止する可能性があるため, 時系列上の全ての報酬を同じ重みで考慮するのは妥当ではない. いわばリスクを考慮する必要がある. 無限期間時系列の利得を有限の値として扱うため.

Value Iteration 動的計画法 全ての状態と行動の遷移を考慮 方策評価と方策改善を繰り返す ・・・ ・・・ ・・・ ・・・・ ・・・・・・・ ・・・・ ・・・ ・・・ ・・・

状態 A,B 行動 (-1,-1)、 (+5,-10)、 (-10,+5) b value 10 5 -5 -10 -15 s=A 行動   (-1,-1)、  (+5,-10)、  (-10,+5) value 10  5 -5 -10 -15 b s=A b=(1,0) s=B b=(0,1)

value 10  5 -5 -10 -15 -20 -25 s=A b=(1,0) s=B b=(0,1)

問題点 大量のベクトルが列挙される 計算量が膨大になる 状態空間または行動空間が大きい場合には、計算不可能

Point-based Value Iteration 状態空間のいくつかの代表点でのみ最適な方策を探索 任意の状態に対して、定数個の方策の中から最も良いものを選ぶ 全ての到達しうる状態に対して最適なポリシーを構築する代わりに,状態空間のいくつかの代表点でのみ最適なポリシーを探索し,そのポリシー に応じて状態空間全体を覆うベクトル(® ベクトル) を作成する. これらのベクトルを用いることで,状態空間上における任意の状態に対して近似解となるポリシーを構築している.

10 5 -5 -10 -15 再帰的に計算するときにPBVIの方が計算量が少ない 状態数の組み合わせ爆発の回避  5 -5 -10 -15 再帰的に計算するときにPBVIの方が計算量が少ない 状態数の組み合わせ爆発の回避 VIでは、毎回全て列挙してからその中から最適価値関数を選ぶ   下位の階層で組み合わせ爆発が生じる PBVIでは、ある信念における最適価値関数を列挙してから、全体で最適な価値関数を選択する

階層的強化学習 状態空間が巨大で複雑な時、大域的な方策を一度に求めるのは困難 状態数が多いと信念更新が煩雑になる タスクを階層的に分解し、各部分問題に対して、局所的な方策を学習。 それらを統合することによって、大きなタスクの実現が可能。

階層的強化学習 サブタスクを選択する層 ユーザのゴールを求めるサブタスクを実行する層 ルートはサブタスクをゴールに設定し、PBVIで最適化を行う ルート オーディオ エアコン 店舗検索

対話例1 従来システム POMDP 初期状態 navi:{ goal:<empty> } navi:{ ホテル 学校 銀行 病院 コンビニ navi:{ goal:<empty> } U:銀行に行きたい。  [銀行]~0.4 ホテル 学校 銀行 病院 コンビニ 信頼度の低い発話を繰り返すことによってユーザのゴールを求めることが出来る。 ターン数はかかるが S:すみません、 どこですか? U:銀行です。  [銀行]~0.42 navi:{ goal:<empty> } ホテル 学校 銀行 病院 コンビニ

対話例2 従来システム POMDP 初期状態 navi:{ goal:<empty> } navi:{ ホテル 学校 銀行 病院 コンビニ navi:{ goal:<empty> } U:病院に行きたい。  [銀行]~0.4 ホテル 学校 銀行 病院 コンビニ S:すみません、 どこですか? U:病院です。  [病院]~0.9 navi:{ goal:<病院> } ホテル 学校 銀行 病院 コンビニ

実験 POMDPの方策とユーザシミュレーションの対話を1000回繰り返して平均利得、平均ターン数、正答率を計算する。 手動で作ったHC1、HC2と比較 HC1:従来のカーナビを想定 HC2:ユーザの発話に毎回確認をとる コンセプト誤り率を変えて実験 コンセプト、意図理解を行った結果 HCを作って、同じようにユーザシミュレーションとの対話を行う HCはオートマトン的に手動で設定を行った方策である

報酬の設定 Corret answer Uncorrect answer ask -2 confirm -0.5 -3 submit +7 -10

実験結果

実験結果2

実験結果3

まとめ カーナビにPOMDPを適用 階層的強化学習を適用 シミュレーション実験により頑健性を確認 不確実性に対処 従来よりも大きなタスクの実現が可能 シミュレーション実験により頑健性を確認

Future Work 構音障害者のための環境制御装置 シーンごとにタスクを階層化して最適化を行う 発話が曖昧 信頼度が低い ルート オーディオ操作 照明操作 テレビ操作 現在単語認識で行っている チャンネル操作 メニュー操作 番組表操作

ご清聴ありがとうございました

強化学習、利点 目標までの行動を人間が知らなくて良い。 タスク遂行のためのプログラミング強化学習で自動化することにより、設計者の負担の軽減が期待できる。 人間以上の行動を見つけ出す可能性がある。 Agent Environment (POMDP) アクションa 報酬r 観測値o

強化学習 Bellman方程式 強化学習 Reward= + … Policy s1 s2 sT-1 sT a1 a2 aT-1 aT o1 oT-1 oT b1 b2 bT-1 bT システムの方策を最適化 状態行動対の報酬を設定 方策を自動で作成することが出来る 方策改善と方策評価を繰り返すことにより最適な価値関数を求めることが出来る。 ある状態における行動すべてに対して報酬を設定 長期的な報酬を最大にするよう方策を作る Value-iterationを用いて方策改善と方策評価を繰り返す Policy 強化学習

対話システムの構造 user Control module Input module Dialog model Dialog manager Speech recognition & Language understanding Dialog model user Dialog manager Language generation Output module

問題点?? なぜタスク変更するか PBVIの収束条件 ユーザシミュレーション 平均利得が収束していく 確認したい 1000回の対話 平均利得が収束していく 確認したい ユーザシミュレーション 1000回の対話 信頼度の付与 コンセプト誤りが生じた時は、0.6以下のランダムの信頼度を付与