人工知能概論第6回多段決定(2) 強化学習.

Slides:

Advertisements

Similar presentations

ゲームプログラミング講習第2章関数の使い方

Advertisements

サービス管理責任者等研修テキスト分野別講義　　　「アセスメントと　　　　　　　支援提供の基本姿勢」＜児童発達支援管理責任者＞平成２７年１０月１日.

ヒトの思考プロセスの解明を目的とするワーキングメモリの研究

第２７講オームの法則電気抵抗の役割について知るオームの法則を使えるようにする抵抗の温度変化を理解する教科書Ｐ．223～226

コラッツ予想の変形について東邦大学　理学部　情報科白柳研究室山中　陽子.

コンパイラ第3回字句解析 ― 決定性有限オートマトンの導出 ―

第5章家計に関する統計ｰ経済統計ｰ.

公共財公共経済論 II no.3 麻生良文.

VTX alignment D2 浅野秀光２０１１年１２月１５日　放射線研ミーティング.

冷却フランシウム原子を用いた電子の永久電気双極子能率探索のためのルビジウム磁力計の研究

生命情報学（８）スケールフリーネットワーク

前半戦「史上最強」風札上げクイズ.

認知症を理解し環境の重要性について考える

フッ化ナトリウムによる洗口２０１０・９・１３宮崎市郡東諸県郡薬剤師会学校薬剤師　　日高　華代子.

食品の安全性に関わる社会システム：総括健康弱者ハイリスク集団 HACCP （食肉処理場・食品工場）農場でのQAP 一般的衛生管理

規制改革とは？ ○規制改革の目的は、経済の活性化と雇用の創出によって、　活力ある経済社会の実現を図ることにあります。

地域保健対策検討会に関する私見（保健所のあり方）

公共政策大学院鈴木一人第8回　専門化する政治公共政策大学院鈴木一人

医薬品ネット販売規制について 2012年５月31日ケンコーコム株式会社.

平成２６年８月２７日（水）大阪府健康医療部薬務課医療機器グループ

平成26年度呼吸器学会からの提案結果（オレンジ色の部分が承認された提案）新規提案既収載の変更免疫組織化学染色、免疫細胞化学染色

エナジードリンクの危険性 2015年6月23日経営学部市場戦略学科MR３１９５稲沢珠依.

自動吸引は在宅を変えるか大分協和病院　院長　　　　　　　　山本　真.

毎月レポートビジネスの情報（2016年7月号）.

医療の歴史と将来医療と医薬品産業個人的経験 3. 「これからの医療を考える」（1）医薬品の研究開発－タクロリムスの歴史－

社会福祉調査論第4講２.社会調査の概要 11月２日.

2015年12月28日－2016年3月28日掲載分.

2010度民事訴訟法講義補論関西大学法学部教授栗田　隆.

腫瘍学概論埼玉医科大学国際医療センター包括的がんセンター緩和医療科/緩和ケアチーム奈良林至

“企業リスクへの考え方に変化を求められています。トータルなリスクマネジメント・サービスをプロデュースします。“

情報漏えい経済情報学科 E 　西村　諭 E 　釣　洋平.

金融班（ミクロ）.

第11回 2009年12月16日今日の資料＝A4・4枚＋解答用紙期末試験：2月3日（水）N2教室

【ＡＢＬ用語集】（あいうえお順） No 用語解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17

基礎理論(3) 情報の非対称性と逆選択公共政策論II No.3 麻生良文.

浜中健児昭和４２年３月２７日生まれ東京都在住株式会社ピー･アール･エフ代表取締役（学歴) 高校：千葉県立東葛飾高校卒業

COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED

Blosxom による CMS 構築と SEO テクニック

記入例 JAWS DAYS 2015 – JOB BOARD 会社名採用職種営業職／技術職／その他（）仕事内容待遇募集数

ネットビジネスの企業と特性 MR1127　まさ.

Future Technology活用による業務改革

ネットビジネス論（杉浦）第８回　ネットビジネスと情報技術.

g７４１００１長谷川嵩 g７４０７９６迫村光秋 g７４１０００西田健太郎 g７４１１４７小井出真聡

自然独占公共経済論 II no.5 麻生良文.

Autonomic Resource Provisioning for Cloud-Based Software

Webショップにおける webデザイン 12/6　08A1022 甲斐　広大.

物理的な位置情報を活用した仮想クラウドの構築

ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み

寺尾敦青山学院大学社会情報学部第12回　情報デザイン（４）情報の構造化と表現寺尾　敦青山学院大学社会情報学部

【１−１．開発計画 – 設計・開発計画】システム開発計画にはシステム開発を効率的、効果的に実行する根拠（人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等）を記述すること。システム開発の開始から終了までの全体スケジュールを記載すること。アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。

6　日本のコーポレート・ガバナンス 2008年度「企業論」川端　望.

急成長する中国ソフトウェア産業中国ソフトウェアと情報サービス産業の規模総売上高は5年間で約5.3倍の成長

米国ユタ州ＬＤＳ病院胸部心臓外科フェローの経験

公益社団法人日本青年会議所関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会

次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会明治大学駿河台校舎リバティタワー9階1096教室

子どもの本の情報大阪府内の協力書店の情報こちらをクリック大阪府内の公立図書館・図書室の情報

第2回産業調査小島浩道.

〈起点〉を示す格助詞「を」と「から」の選択について

広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について　　－日本語教育と中日カルチャーショックの観点から－名古屋大学杉村　泰.

■5Ahバッテリー使用報告事例紹介/東【その1】 ■iphon4S（晴れの昼間/AM8-PM3） ◆約1時間で68%⇒100％

『ワタシが!!』『地域の仲間で!!』市民が始める自然エネルギー!!

ポイントカードの未来形を形にした「MUJI Passport」

SAP NetWeaver を支える Microsoft テクノロジーの全貌（Appendix）

ガイダンス（内業）測量学実習　第1回.

Python超入門久保幹雄東京海洋大学.

熱力学の基礎丸山茂夫東京大学大学院工学系研究科機械工学専攻

京都民医連中央病院 CHDF学習推進委員会

資料２－④ ④下水道.

ＡｃｃｅｓｓによるＳＱＬの操作～実際にテーブルを操作してみよう！～.

Presentation transcript:

人工知能概論第6回多段決定(2) 強化学習

Information このスライドは「イラストで学ぶ人工知能概論」を講義で活用したり，勉強会で利用したりするために提供されているスライドです．

STORY 多段決定（2）迷路に入る前に迷路の地図が完全にわかっているなどといった仮定はそもそもおかしいのではないだろうか．また，どの状態からどの状態の遷移でどれだけの利得が得られるという知識を事前に知っているという仮定も怪しいように思う．また，ある状態からある状態へ移動しようとするときに，その行動が必ず達成されるという仮定も疑わしい．場合によっては滑ることもあるだろう．では，何も利得や地図の知識を持たないままにホイールダック２号は経験のみに基づいて適切な経路を学習することはできるだろうか．

仮定多段決定（2）ホイールダック２号は迷路の完全な地図を持っていないものとする．仮定多段決定（2）ホイールダック２号は迷路の完全な地図を持っていないものとする．ホイールダック２号は連続的な迷路の空間から適切な離散状態空間を構成できるものとする．ホイールダック２号は自分が状態空間のどの状態にいるかを認識できるものとする．ホイールダック２号は物理的につながっている場所・状態へは行動に応じて確率的に遷移するとする．

Contents 7.1 強化学習とは何か？ 7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例：Q学習

7.1.1 試行錯誤の中での学習試行錯誤で学ぶ人間人間の様々な学習の進め方の中で，試行錯誤を通した学習がある．やってみては，その結果・評価を観察し，徐々に「やり方」を改善していく．例）サッカーのフリーキック，ボーリング etc.etc. フィードバック倒れた本数スタート位置，足の動かし方手の振り上げ方方向 etc.etc….

7.1.1 オペラント条件づけハトはスイッチを押して餌を食べることを学習していく自発的な試行錯誤の結果として得られる報酬によって行動形成がなされることを心理学でオペラント条件づけと呼ぶ．スキナー箱(Skinner 1938) 強化強化：その行動をとりやすくなること．報酬ハトはスイッチを押して餌を食べることを学習していく

7.1.2 強化学習理論試行錯誤による学習をロボットにさせるための機械学習法強化学習は学習という語が含まれているが，動的計画法や制御理論における最適制御論などと近接した概念．前回の動的計画法との相違点はじめから状態空間や遷移則を与えないために，知識や環境の不確実性を扱わねばならず，そのために確定システムではなく確率システムとしてシステムをモデル化している．情報を得ながらの学習，つまり，オンラインでの学習を仮定している．

7.1.3 方策と価値方策(policy) 価値関数(value function) ある状態にいたときに，どういう行動をどれほどの確率で選択するか．価値関数(value function) 状態や行動の価値 A*アルゴリズムや動的計画法と異なり，「経路」を求めることが問題ではなく，方策/価値関数を求めることが目的となる．

Contents 7.1 強化学習とは何か？ 7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例：Q学習

7.2.1 状態遷移確率と報酬関数強化学習はマルコフ決定過程(MDP，Markov Decision Process) に基づいて定式化される．方策(policy) 将来にわたって得られる報酬の期待値を最大化する方策を見つけることが強化学習の問題

Contents 7.1 強化学習とは何か？ 7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例：Q学習

7.3.1 割引累積報酬の意味割引累積報酬(discounted return) Rt γ (0 ≤ γ < 1) は割引率(discount rate) と呼ばれる定数である．割引累積報酬は基本的には将来にわたって得られる報酬の和になっているが，遠い未来であればあるほど，割り引いて換算される． γ=1 では T→∞で発散する．

7.3.2 割引率と未来の報酬価値

7.3.2 割引率と未来の報酬価値 (-50+10*gamma + 10*gamma^2+80*gamma^3)

演習7-1割引累積報酬の計算 3 D E 1 2 A B C 方策１は「右へ行けたら右，だめなら上」，方策２は「上へ行けたら上，だめなら右」という方策だとする．両方行けない場合はその場にとどまる．割引率γ= 0.5 の時のA,B,C,D,Eの状態における方策１に従う場合，方策２に従う場合，それぞれで割引累積報酬の計算式を書き、値を求めよ． A B C D E 方策１方策２

演習7-2 割引累積報酬の計算 3 D E 1 2 A B C 方策１は「右へ行けたら右，だめなら上」，方策２は「上へ行けたら上，だめなら右」という方策だとする．両方行けない場合はその場にとどまる．割引率γ= 1 の時のA,B,C,D,Eの状態における方策１に従う場合，方策２に従う場合，それぞれで割引累積報酬の計算式を書き、値を求めよ． A B C D E 方策１方策２

7.3.5 まとめ：割引率と報酬と評価値割引率γ が異なれば，よりよい方策は異なる．各状態における割引累積報酬は方策によって異なる．割引累積報酬を方策の評価値と考えた場合には，その評価値は状態によって異なる．

Contents 7.1 強化学習とは何か？ 7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例：Q学習

強化学習でロボットが学習することどのような状態(sで表される）と、どのような行為(aで表される）が分かっているとして… (注: どのような状態があるかは、探索することで判明する） (1) 状態それぞれから得られる利得（推定する） (2) 行動によって得られる利得（推定する）状態価値関数・行動価値関数と呼ばれるものに相当 (3) どのような行動をどのような確率により選択するか方策と呼ばれる状態・行動価値関数は方策によって左右される方策は状態・行動価値関数によって決まる ⇒ まずは状態・行動価値関数を探索的に求め、次に方策を決定

7.4.1 状態価値関数よりよい方策を学習するためには，正しく状態と行動の価値を見積もる必要がある．このために価値関数が定義される．「方策π に従うとき，状態s からスタートしたとすると、将来どれだけの割引累積報酬を得られるか」

7.4.2 ホイールダック2 号と分かれ道（確率編）方策πは価値関数の値を高めるほどよい方策といえる 0.8 0.1 0.1 γ= 0.9とする方策πは価値関数の値を高めるほどよい方策といえる

7.4.3 行動価値関数行動価値関数(action-value function) 最適行動価値関数　状態価値関数Vπとの関係(π(s,a)は(7.3)式)：最適行動価値関数

未来はドンドン分岐する視点問題を簡単にする上で状態価値の間に良い性質は無いか？オンライン学習に変更するためのよい近似方法は無いか？ p.99

ベルマン方程式気にしない！ 3 E Vπ(C) C ? Vπ(S) F Vπ(B) 1 S B 2 Vπ(A) ? A rt+1 マルコフ決定過程において現状態の状態価値は次の報酬と次状態の価値だけで定義出来る．下の式をベルマン方程式と呼ぶ． [ 𝑟 𝑡+1 + 𝛾 𝑉 𝜋 ( 𝑠 ′ )] 14:00

行動価値関数のベルマン方程式ベルマン方程式に基づいて強化学習の問題を解く様々な手法が提案されている．例）　SARSA，アクタークリティック法，Q学習など

演習7-3 ベルマン方程式[証明] 価値関数の定義式を用いて，下記のベルマン方程式が成立することを示せ．価値関数の定義式

Contents 7.1 強化学習とは何か？ 7.2 マルコフ決定過程 7.3 割引累積報酬 7.4 価値関数 7.5 学習方法の例：Q学習

7.5.1 Q 学習 Q-learning 最適行動価値関数の確定遷移に対して学習アルゴリズム TD誤差(Temporal difference error) Q-learning

方策による行動選択報酬と状態の観測 Q値の更新 Algorithm

探索のために「最善でない手」も取らねばならない． 7.5.2 行動選択の方策ランダム法全ての行動を等確率で選択する．グリーディ法各状態においてその時に最適と思われる行動を選択する． ε-グリーディ法確率εでランダムに行動を選択肢，確率(1-ε)でグリーディ法を行う．ボルツマン選択パラメータTにより exp(Q(s,a)/T)に比例した確率で行動選択を行う．Tが大きくなればランダム法へ，Tが小さくなればグリーディ法に近づく．探索のために「最善でない手」も取らねばならない． exploration or exploitation trade-off 「知識探索」か「知識活用」か？人生そのものだね． 14:20

演習7-4 Q学習の1-stepを追って見る． rt+1=4 ホイールダック２号は状態Stで行動「右」をとった結果St+1に遷移した．行動at Q値右 10 左 8 停止 5 行動at Q値右 8 左 10 停止 5 select St St+1 rt+1=4 ホイールダック２号は状態Stで行動「右」をとった結果St+1に遷移した．それぞれの状態での現在の学習中の行動価値の値は表のとおりである．割引率は0.9とする． TD誤差δtはいくらか？この1stepで表の内，どのQ値がどれだけ変わるか？学習率αを0.5として示せ．

第7回多段階決定(2) 割引累積報酬と，その割引率の変化による影響について具体的な比較を通して学んだ．割引累積報酬の期待値を表現する関数として状態価値関数と行動価値関数について学んだ．ベルマン方程式として適切な価値関数が満たすべき漸化式を得た． Q 学習のアルゴリズムとQ 学習における方策の決定方法について学んだ．

予習問題次回はベイズフィルタを扱う確率（ベイズ理論）がわかっていないとかなりの難関図8.6と図8.7の値を自分で計算し確認しよう章末問題３にチャレンジしよう－－次回の資料に解説があるので見てみよう