強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon

Slides:



Advertisements
Similar presentations
 C 川船 美帆.  強い人工知能の作成 o 「遺伝的アルゴリズム」  「どうぶつしょうぎ」のアプリケーショ ン作成 o スマートフォン向けアプリケーション.
Advertisements

第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
オンライン学習 Prediction Learning and Games Ch2
CGアニメーションの原理 基本技術 対象物体の動きや変形の設定方法 レンダリング技術
補章 時系列モデル入門 ー 計量経済学 ー.
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
遺伝的アルゴリズム  新川 大貴.
計算の理論 I 決定性有限オートマトン(DFA) と 非決定性有限オートマトン(NFA)
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
東京工業大学 機械制御システム専攻 山北 昌毅
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
モンテカルロ法と囲碁・将棋ソフトの人知超え
問題 1 キーボードから入力した数の合計を計算するプログラムを 作成せよ。最初に、何個の数を入力するかその数を入力 するようにする。
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
JAVAでつくるオセロ 伊東飛鳥、宮島雄一 長畑弘樹、ソギ原直人.
補章 時系列モデル入門 ー 計量経済学 ー.
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
シャノンのスイッチングゲームにおけるペアリング戦略について
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
第9章 混合モデルとEM 修士2年 北川直樹.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音高による音色変化に着目した音源同定に関する研究
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
教師がコミティマシンの場合の アンサンブル学習
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
顧客維持に関するモデル.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
Introduction to Soft Computing (第11回目)
Data Clustering: A Review
ボルツマンマシンの定義 ボルツマンマシン(Boltzmann machine)は、スピン・システムをヒントに作られたモデルである。
電気回路学Ⅱ コミュニケーションネットワークコース 5セメ 山田 博仁.
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
電機情報工学専門実験 6. 強化学習シミュレーション
麻雀ゲームにおけるAIの開発    日高大地   近畿大学理工学部情報学科  
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
★C++/オブジェクト指向実践企画★ Othelloゲーム作成
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
教師がコミティマシンの場合の アンサンブル学習
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
『shockwave.com リバーシ』コンテンツスポンサーシップの仕組み
人工知能特論II 第8回 二宮 崇.
F班 メンバー 班長 雨堤 智宏 アルゴリズム解析 角田 泰彬 竹林 秀高 ppt作成 清水 貴史
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
ニューラルネットワークの仕組み (Raspberry PI 演習で学ぶ) AI DATA VASSEL 資料
Inline 展開のアルゴリズム 長谷川啓
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
C.岩崎雅哉 大須賀佑介 杉原雄太 中野武重 日名啓吾
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon 強化学習と関数近似 強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon

状態価値関数と行動価値関数 前回までは もうひとつの考え方として 本論文では状態価値関数Vを使う 行動価値関数Qを推定 Q(st,at) 時刻tで状態stにいるとき行動atをとる価値 状態 st 行動 at もうひとつの考え方として 状態価値関数Vを推定 時刻tで状態stにいる好ましさ(価値) V(st,at) 本論文では状態価値関数Vを使う

離散型状態価値関数 状態価値V 状態価値V 状態s 0.1 0.5 1.0 1.5 0.0 0.3 … 0.2 状態s

関数近似による価値関数 状態価値V 状態s

バックギャモン 白の駒の動き方 赤の駒の動き方 バックギャモンの一般的な初期状態

ニューラルネットワークによる 勝利確率推定 中間層(40-80) 入力層 出力層 TD誤差 盤面の情報 勝利確率の予測値 198 入力 ….. ….. …..

入力情報 バックギャモンの各ポイントについて白黒それぞれ4ユニット(入力層ノード)を使う 4(ユニット)×2(白黒)×24(バックギャモンのポイント)=192(ユニット) 例) ある1ポイントに対する白の数について 白なし : 4入力すべて0 1個 : 最初の1ユニットが1 2個 : 最初から2個のユニットが1 3個 : 最初から3個のユニットが1 4個以上 : (n-3)/2 (n: 駒の数) バー上にある白と黒の駒数をコード化(2入力ユニット) n/2 (n: バー上の駒の数) 盤面から除かれた白と黒の駒数(2入力ユニット) n/15 (n: 取り除かれた駒の数) 白黒いずれの番か(2入力ユニット)

重みの更新 誤差逆伝播法(BP法)を用いる 1: 勝ち Z :ゲームの結果 0: 負け とすれば となり ここで (1) 重みの更新もそれにしたがい、 (3) ただし m+1 : 終了時刻 と考えることができるので (2) (1)(2)(3)より、

重みの更新 ここで適格度トレースを定義する 以上から この式にトレース減衰パラメータλを考慮すれば

対戦結果 プログラム 中間層 訓練ゲーム数 対戦相手 結果(点/ゲーム) TD-0.0 TD-1.0 TD-2.0 TD-2.1 40 80 300,000 800,000 1,500,000 他のプログラム Robertie 等 グランドマスター Robertie Kazaros Draw -13/5 -7/38 -1/40 +6/20

定石の変化(第1手) 30年以上使われた定石 : 13→9, 6→5 TD-Gammonによって生み出された新しい定石 : 13→9, 24→23