エージェントアプローチ 人工知能 B4 片渕 聡.

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

PRML読書会第11回 8.4 グラフィカルモデルによる推論 SUHARA YOSHIHIKO (id:sleepy_yoshi)
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
家計の保険需要分析 京都大学大学院 小林研究室 関川 裕己. 研究の背景 家計の地震保険加入率 (2005 年度末 ) 火災保険への付帯率(%) 出典 : 損害保険料率算出機構.
関西学院大学オープンセミナー 2010年6月12日.  決定論的現象 天体の運動のように未来が現在により決 まっている現象  偶然的現象 偶然的な要素が加わり、未来の予測が不可 能な現象 気象、地震、災害、事故、宝くじ 株価、寿命、 … … … … … … … ….
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
エージェントアプローチ 人工知能 1章・2章  M0 片渕 聡 08/07/02.
個人および企業による リスク回避とリスクマネジメント
言語体系とコンピュータ 第5回.
第9章 ファイナンスの基本的な分析手法 ファイナンスの分析手法は、人々が金融市場に参加する際の意思決定に役立つ 扱うトピックは
Pattern Recognition and Machine Learning 1.5 決定理論
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
ソシオン理論における 三者関係のシミュレーション
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
論理式の表現を数学的に取り扱いやすくするために代数学の助けを借りる.
人工知能特論2011 資料No.6 東京工科大学大学院 担当教員 亀田弘之.
ランダムウォークに関するいくつかの話題 ・ランダムウォークの破産問題 ・ランダムウォークの鏡像原理 1 小暮研究会Ⅰ 11月12日
人工知能概論 第6章 確率とベイズ理論の基礎.
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
プロジェクトの選択基準 と CBAの役割と限界
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
エージェントアプローチ 人工知能 7章・8章 B4 片渕 08/07/18.
当選確率が50%と5%の宝くじ どっちを買うべき?
集団的意思決定支援法の実験環境に関する研究
新ゲーム理論 第Ⅰ部 非協力ゲームの理論 第1章 非協力ゲームの戦略形
第13章 系列データ 修士 1年 村下 昇平.
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
形式言語の理論 5. 文脈依存言語.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
7.4 Two General Settings D3 杉原堅也.
第14章 モデルの結合 修士2年 山川佳洋.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
予測に用いる数学 2004/05/07 ide.
生  物  数  学 斉木 里恵.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
電機情報工学専門実験 6. 強化学習シミュレーション
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
矛盾した知識 デフォルト推論 仮説を用いた推論 準無矛盾推論 デフォルト規則 デフォルト理論の拡張 → デフォルト証明 シナリオ
4.プッシュダウンオートマトンと 文脈自由文法の等価性
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
確率と統計 確率編- 平成20年10月29日(木).
確率と統計 確率編- 平成19年10月25日(木) 確率と統計2007.
第Ⅰ部 非協力ゲームの理論 第6章 情報の価値 2008/07/01(火) ゲーム理論合宿 M2 渡辺美穂.
数理論理学 最終回 茨城大学工学部情報工学科 佐々木 稔.
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
Presentation transcript:

エージェントアプローチ 人工知能 B4 片渕 聡

目次 15章 時間の伴う確率的推論 16章 単純な意思決定

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

時間の伴う確率推論 14章ではP(X|E)を導く推論を行った X:質問変数(観測不可能) E:証拠変数(観測可能)   -観測結果から観測できない事項の確率分布を導出 実際は時間tに伴い変化する場合が多い   -時制論理   15章ではP(Xt|Et)を導く推論を行う

時間推移の伴うベイジアンネット (動的ベイジアンネット) 全てのtに対してP(Rt|Rt-1),P(Ut|Rt)は一定 P(R0) P(R1|R0) P(R2|R1) Rain0 Rain1 Rain2 Umbrella0 Umbrella1 Umbrella2 P(U0|R0) P(U1|R1) P(U2|R2)

遷移モデルとセンサモデル 遷移モデル センサモデル Rt-1 P(rt) t f 0.7 0.3 Rt P(ut) t f 0.9 0.2   -状態が時間経過とともにどう変化するかを表現 センサモデル   -時間tにおける条件付き独立性を表現 Rt-1 P(rt) t f 0.7 0.3 例: Raint-1 Raint 一重マルコフ過程 Rt P(ut) t f 0.9 0.2 例: Raint Umbrellat

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

予測、平滑化、最尤の説明 予測:現在(時間t)までの事実から未来の状態を推定 あるk>0に対するP(Xt+k|e1:t) 平滑化:現在までの事実から過去の状態を推定      ある0≦k<tに対するP(Xk|e1:t) 最尤の説明:現在までの観測結果(観測列)を生成する           確率の最も高い状態列を求める        Maxx P(x1:t|e1:t) 時制論理において推定できること

時制論理の例題 日にちtにおいて雨が降っているかを知りたい -P(Rt|Ut)を知りたい 外の様子が見えないが傘を観測可能 P(Rt|Rt-1)=<0.7,0.3> P(Ut|Rt)=<0.9,0.2>   とする

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

時間tからt+1の予測(1/2) フィルタリング ※マルコフ性 -未来の状態は過去の状態に依存せず 現在の状態のみに依存 P(Xt+1|e1:t+1)=P(Xt+1|e1:t,et+1) (証拠の分割)           =αP(et+1|Xt+1,et)P(Xt+1|e1:t) (ベイズ規則)          =αP(et+1|Xt+1)P(Xt+1|e1:t) (eのマルコフ性) ※マルコフ性   -未来の状態は過去の状態に依存せず     現在の状態のみに依存 フィルタリング

時間tからt+1の予測(2/2) P(Xt+1|e1:t+1)=αP(et+1|Xt+1)ΣP(Xt+1|xt)P(xt|e1:t)     -Xt+1をe1:tに条件付けられたxtから求める    P(Xt+1|e1:t)=ΣP(Xt+1|xt)P(xt|e1:t) P(Xt+1|e1:t+1)=αP(et+1|Xt+1)ΣP(Xt+1|xt)P(xt|e1:t) xt 前向きメッセージ xt

予測(例題:傘問題)(1/2) t=0からt=1の予測は より、t=1で傘を目撃した(u1)場合    P(R1)=ΣP(R1∧r0)=ΣP(R1|r0)P(r0)       =P(R1|r0)P(r0)+P(R1|¬r0)P(¬r0)       =<0.5,0.5>  より、t=1で傘を目撃した(u1)場合   P(R1|u1)=αP(u1|R1)P(R1) (ベイズ規則)         =α<0.9,0.2><0.5,0.5>≒<0.818,0.182> r0 r0

予測(例題:傘問題)(2/2) また,t=1からt=2の予測は であり、t=2で傘を目撃した(u1)場合    P(R2|u1)=P(R2|r1)P(r1|u1)+P(R2|¬r1)P(¬r1|u1)       =<0.7,0.3>×0.818+<0.3,0.7>×0.182       ≒<0.627,0.373>  であり、t=2で傘を目撃した(u1)場合   P(R2|u1,u2)=αP(u2|R2)P(R2|u1) (予測の公式)       =α<0.9,0.2><0.627,0.373>≒<0.883,0.117>

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

平滑化 P(Xk|e1:t)=P(Xk|e1:k,ek+1:t) (証拠の分割)         =αP(ek+1:t|Xk,e1:k)P(Xk|e1:k) (ベイズ規則)         =αP(ek+1:t|Xk)P(Xk|e1:k) (条件付き独立性) P(ek+1:t|Xk)=ΣP(ek+1|xk+1)P(ek+2:t|xk+1)P(xk+1|Xk) ※P(ek+1:t|Xk,e1:k)=P(ek+1:t|Xk)P(ek+1:t|e1:k)            =P(ek+1:t|Xk) (時間tまでの証拠は既知) Xk+1 後ろ向きメッセージ

平滑化(補足) P(ek+1:t|Xk)=ΣP(ek+1:t|xk+1,Xk)P(xk+1|Xk)        =ΣP(ek+1:t|xk+1)P(xk+1|Xk)                (条件付き独立性+マルコフ性)        =ΣP(ek+1:t|xk+1)P(xk+1|Xk) (eの分割)        =ΣP(ek+1|xk+1)P(ek+2:t|xk+1)P(xk+1|Xk) 再帰呼び出し

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

最尤の説明 max P(x1,・・・,xt,Xt+1|e1:t+1) =αP(et+1|Xt+1)    max{( P(Xt+1|Xt) max P(x1,・・・,xt-1|e1:t))} x1,・・・,xt 再帰呼び出し xt x1,・・・,xt-1 フィルタリングの式から「Σをmaxに変えた」+「右端の部分を変えた」もの

この時,最尤列は[true,true,false,true,true]となる 最尤の説明(例題) 例:傘の問題で観測列が[T,T,F,T,T]の時   P(x1,・・・,xt-1,Xt|e1:t)は以下の通りになる。 T 0.818 0.515 0.036 0.033 0.021 F 0.181 0.049 0.123 0.017 0.002 m1:1 m1:2 m1:3 m1:4 m1:5 この時,最尤列は[true,true,false,true,true]となる

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

代表的な時制モデル (研究対象) 隠れマルコフモデル(Hidden Marcov Model:HMM) -音声認識や自然言語処理に使用   -音声認識や自然言語処理に使用 カルマンフィルタ   -物体の位置などを動的に推定(トラッキング)     X(t+⊿)=X(t)+X⊿ (位置の更新) 動的ベイジアンネット ・

隠れマルコフモデルを用いた 音声認識 英単語「tomato」に対する隠れマルコフモデル t = 1 2 3 4 5 6 1.0 [ey] 0.5 1.0 1.0 1.0 [t] [ow] [t] [ow] [m] 0.5 [aa] 1.0 t = 1 2 3 4 5 6 発言者の発音の好みによって分岐

15章 時間の伴う確率的推論 目次 時間の伴う確率推論 時制論理   -予測   -平滑化   -最尤の説明 代表的な時制モデル まとめ

まとめ 時間の伴う確率推論では遷移モデルが加わる 予測(未来)・平滑化(過去)・最尤の説明(原因) 現在では隠れマルコフモデルやカルマンフィルタなどの研究が進められている

ここまで15章

16章 単純な意思決定 目次 効用理論 効用理論の例題 多属性効用関数 情報の価値 まとめ

16章 単純な意思決定 目次 効用理論 効用理論の例題 多属性効用関数 情報の価値 まとめ

効用理論 効用とは -例えば「少ない時間で目的地に着きたい」エージェントは 効用関数:効用の度合いを関数で表現したもの -U(A)で表現   エージェントが望む基準を満たす能力の度合い   -例えば「少ない時間で目的地に着きたい」エージェントは      「20分で着くルート」より「10分で着くルート」を好む 効用関数:効用の度合いを関数で表現したもの   -U(A)で表現

期待効用 期待効用:効用関数の期待値を表現 -EU(A|E)=ΣP(Ri(A)|Do(A),E)U(Ri(A)) A:行為 E:証拠    P(Ri(A)|Do(A),E):Aを実行した時,結果iになる確率 最大期待効用の原理   -期待効用が最大になる動作を選ぶ i

効用理論の基礎 合理的なエージェントが持つ選好に対する制約 A } B:エージェントはAをBより好む -U(A)>U(B) } ~ ※本当は「}」ではなくて左の記号です

効用理論の公理(1/3) 順序性:どちらの方が望ましいか決める必要がある (A } B)∨(A { B)∨(A~B) 推移律:AがBより好ましく、BがCより好ましい       とき、AはCより好ましくないといけない    (A } B)∧(B } C)⇒(A } C)

効用理論の公理(2/3) 連続性:Bの好ましさがAとCの間にある時 「確実にBになること」と       「確率pでA,確率1-pでCになるくじを引くこと」を       同様に好むようなpが存在する     A } B } C ⇒ ∃p[p,A; 1-p,C] ~ B 置換可能性:AとBを同様に好むなら、あるAとCのくじに           おいて、AにBを代入しただけであれば           両者を同様に好む     A ~ B ⇒ [p,A; 1-p,C] ~ [p,B; 1-p,C]

効用理論の公理(3/3) 単調性:同じ2つの結果AとBを持つ確率の違う2つの くじを考えたとき、        くじを考えたとき、        AをBより好む時Aになる確率の多いくじを好ま        なくてはならない    A } B ⇒ (p≧q ⇔ [p,A; 1-p,B] } [q,A; 1-q,B]) 分解可能性:複合(二重)くじは確率の法則でより簡単な           くじに分解可能    [p,A; 1-p,[q,B;1-q,C] ] ~ [p,A; (1-p)q,B; (1-p)(1-q),C]

16章 単純な意思決定 目次 効用理論 効用理論の例題 多属性効用関数 情報の価値 まとめ

効用理論の例題(例:金銭の効用) 例:あるゲームに優勝して賞金を貰うとする あなたは100万円をそのまま受け取るか    あなたは100万円をそのまま受け取るか    ギャンブルにチャレンジすることができる    コインを投げて表なら賞金が300万円になり    裏なら賞金が0円になる  この時、ギャンブルをすべきかどうかを考える

期待金銭価値 (Expected Monetary Value:EMV) 金銭に関する期待値   -EMV(Accept)=½×0+½×3000000=1500000   -EMV(Decline)=1000000     EMV(Accept)>EMV(Decline) よってギャンブルを受けたほうがいい?   -所有財産にも依存する可能性がある     所有財産nの状態をSnとする

期待効用の計算 所有財産がkの時の期待効用は -EU(Accept)=½U(Sk)+½U(Sk+3000000)   -EU(Decline)= U(Sk+1000000) ある人(所有財産k)にとっての効用関数(賞金の価値)が   U(Sk+n)=log(n)だと仮定する(人によって異なる)と    -EU(Accept)≒0.5+3.24=3.74    -EU(Decline)=6   とギャンブルを受けない方がいい場合もある

リスク U(Sk+n)は人によって異なる -借金が無い及び少ない人(-1000000≦k)は リスクを負いたくない リスク忌避的     リスクを負いたくない     リスク忌避的   -借金まみれで絶望的な人(k<-1000000)は     リスクを負ってでも大金を得たい     リスク指向

確実等価・保険料 確実等価:くじを引く代わりに得られる価値 -ほとんどの人は0円か100万円の半々の賭けより 確実に取れる40万円を選ぶ   -ほとんどの人は0円か100万円の半々の賭けより     確実に取れる40万円を選ぶ     ・この場合の確実等価な額は40万円である 保険料:期待金銭価値と確実等価の差   -保険業はリスク回避という考え方で成立     保険料-期待損害額=保険業の利益

16章 単純な意思決定 目次 効用理論 効用理論の例題 多属性効用関数 情報の価値 まとめ

多属性効用関数 U(Noise,Cost,Death) 候補地S1,S2から効用の多い方を選好 決定するための要素(属性)が複数ある効用関数   -例:新たな空港建設地の決定        ・騒音(Noise)        ・費用(Cost)        ・安全性(Death) etc         U(Noise,Cost,Death) 候補地S1,S2から効用の多い方を選好

確率的な優位性 確率分布を用いることで選択肢を絞り込む S1はS2に 確率的に優位 S2を棄却 -例:候補地の費用(Cost)について

意思決定ネットワーク(影響図) 多属性効用における関係を表現 意思決定ノード 立地の選択 交通状況 Death 効用ノード U 訴訟 Noise 空港の建設 Cost 確率ノード (現在の状態) 確率ノード (将来の状態)

意思決定ネットワークでの評価 現在の状態に対する証拠変数の設定 意思決定ノードの可能な値それぞれに対して 最大効用をもつ行為を返す   -交通状況・訴訟・空港の建設に対する証拠 意思決定ノードの可能な値それぞれに対して   (a)その値を意思決定ノードに設定(noise=80 etc)   (b)P(x|e)を求める(確率推論アルゴリズム)   (c)その結果を用いて効用を計算(EU(noise)) 最大効用をもつ行為を返す

16章 単純な意思決定 目次 効用理論 効用理論の例題 多属性効用関数 情報の価値 まとめ

情報の価値 可能な限りの情報を得ることが不可能なことがある -例:時間に猶予の無い患者etc エージェントが獲得すべき情報を選択   エージェントが獲得すべき情報を選択      ・情報の価値付け(情報への対価)

情報の価値(例題)(1/2) あなたはn個のくじから1つだけ引く(参加費C/n円) 当たりは1つでそれを引くと賞金C円貰える あなたは主催者に   「くじ3は当たりなのか」を聞くとする あなたはその情報にいくら支払うべきかを考える

情報の価値(例題)(2/2) 1/n(※1)の確率で「くじ3は当たり」だとわかる -あなたの利益はC-C/n (※2)円となる (n-1)/n (※3)の確率で「くじ3は外れ」だとわかる   -選択肢がn-1個に減ったので    あなたの期待利益はC/(n-1)-C/n (※4)円となる よって、この質問結果が与えられた時の期待効用は    (※1)×(※2)+(※3)×(※4)=C/n 情報の価値

16章 単純な意思決定 目次 効用理論 効用理論の例題 多属性効用関数 情報の価値 まとめ

まとめ エージェントは効用が最も高い選択を取る 意思決定には期待値だけでなくリスクも影響する 選択基準(属性)が複数の場合でも推定可能   -確率的な優位(+厳密な優位性)   -意思決定ネットワーク 意思決定能力に「情報の価値」を付加することで柔軟性の高い(エキスパート)システムを実現