Presentation is loading. Please wait.

Presentation is loading. Please wait.

強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon

Similar presentations


Presentation on theme: "強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon"— Presentation transcript:

1 強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
強化学習と関数近似 強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon

2 状態価値関数と行動価値関数 前回までは もうひとつの考え方として 本論文では状態価値関数Vを使う 行動価値関数Qを推定
Q(st,at) 時刻tで状態stにいるとき行動atをとる価値 状態 st 行動 at もうひとつの考え方として 状態価値関数Vを推定 時刻tで状態stにいる好ましさ(価値) V(st,at) 本論文では状態価値関数Vを使う

3 離散型状態価値関数 状態価値V 状態価値V 状態s 0.1 0.5 1.0 1.5 0.0 0.3 0.2 状態s

4 関数近似による価値関数 状態価値V 状態s

5 バックギャモン 白の駒の動き方 赤の駒の動き方 バックギャモンの一般的な初期状態

6 ニューラルネットワークによる 勝利確率推定
中間層(40-80) 入力層 出力層 TD誤差 盤面の情報 勝利確率の予測値 198 入力 ….. ….. …..

7 入力情報 バックギャモンの各ポイントについて白黒それぞれ4ユニット(入力層ノード)を使う
4(ユニット)×2(白黒)×24(バックギャモンのポイント)=192(ユニット) 例) ある1ポイントに対する白の数について 白なし : 4入力すべて0 1個 : 最初の1ユニットが1 2個 : 最初から2個のユニットが1 3個 : 最初から3個のユニットが1 4個以上 : (n-3)/2 (n: 駒の数) バー上にある白と黒の駒数をコード化(2入力ユニット) n/2 (n: バー上の駒の数) 盤面から除かれた白と黒の駒数(2入力ユニット) n/15 (n: 取り除かれた駒の数) 白黒いずれの番か(2入力ユニット)

8 重みの更新 誤差逆伝播法(BP法)を用いる 1: 勝ち Z :ゲームの結果 0: 負け とすれば となり ここで (1)
重みの更新もそれにしたがい、 (3) ただし m+1 : 終了時刻 と考えることができるので (2) (1)(2)(3)より、

9 重みの更新 ここで適格度トレースを定義する 以上から この式にトレース減衰パラメータλを考慮すれば

10 対戦結果 プログラム 中間層 訓練ゲーム数 対戦相手 結果(点/ゲーム) TD-0.0 TD-1.0 TD-2.0 TD-2.1
40 80 300,000 800,000 1,500,000 他のプログラム Robertie 等 グランドマスター Robertie Kazaros Draw -13/5 -7/38 -1/40 +6/20

11 定石の変化(第1手) 30年以上使われた定石 : 13→9, 6→5
TD-Gammonによって生み出された新しい定石 : 13→9, 24→23


Download ppt "強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon"

Similar presentations


Ads by Google