最大エントロピー法を利用した棋譜集からの指し手学習

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
 C 川船 美帆.  強い人工知能の作成 o 「遺伝的アルゴリズム」  「どうぶつしょうぎ」のアプリケーショ ン作成 o スマートフォン向けアプリケーション.
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
最大エントロピーモデルに基づく形態素解析と辞書による影響
一般化線形モデル(GLM) generalized linear Models
「わかりやすいパターン認識」 第1章:パターン認識とは
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
将棋名人のレーティングと棋譜分析 山下 宏 2014年11月7日 GPW 箱根.
コンピュータ囲碁の仕組み ~ 将棋との違い ~
将棋プログラム「激指」  鶴岡 慶雅.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
ゲームプレイング (Game Playing)
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
ゲームプレイング (Game Playing)
コンピュータ将棋におけるカーネル法を用いた静的評価関数の学習
ゲームプレイング (Game Playing)
特徴語との自動対応による ゲーム局面の検索
モンテカルロ法と囲碁・将棋ソフトの人知超え
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
JAVAでつくるオセロ 伊東飛鳥、宮島雄一 長畑弘樹、ソギ原直人.
計算機実験の計画 References 研究目的 囲碁・将棋での強化学習 高信頼性人工知能システムへの展望 大規模な強化学習技術の実証と応用
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
情報論理工学 研究室 第5回: 局面・駒石・手の表現.
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
決定木とランダムフォレスト 和田 俊和.
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
教師がコミティマシンの場合の アンサンブル学習
第14章 モデルの結合 修士2年 山川佳洋.
顧客維持に関するモデル.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
G班メンバー リーダー 橋本望 SE 北本理紗と服部友哉 PPT作成 橋本望と山田侑加
交番における手話から日本語への 変換システムの検討
近畿大学理工学部情報学科 情報論理工学研究室 赤井 隆純
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
モンテカルロ法を用いた 立体四目並べの対戦プログラム
情報論理工学 研究室 第7回: 強い手の選択.
不完全な定点観測から 真の不正ホストの分布が分かるか?
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
教師がコミティマシンの場合の アンサンブル学習
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
近畿大学 理工学部 情報学科 情報論理工学部研究室 潘小月
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
F班 メンバー 班長 雨堤 智宏 アルゴリズム解析 角田 泰彬 竹林 秀高 ppt作成 清水 貴史
囲碁プログラム 彩の仕組み 山下 宏 2008年9月4日 FIT2008.
数値解析Ⅱ ~五目並べのプログラミング~ C班.
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
戦術的観点からの  変形碁盤間の   類似度評価 佐藤 真史(早稲田大学).
Webページタイプによるクラスタ リングを用いた検索支援システム
分割制限ニム 山崎浩一*、五十嵐善英*、塚村善弘 *群馬大学理工学部.
情報論理工学 研究室 第8回: ミニマックス法.
C問題 高所恐怖症 原案・ライタ : 伊藤 テスタ : 青木・西出.
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Improving Strategic Play in Shogi by Using Move Sequence Trees
Presentation transcript:

最大エントロピー法を利用した棋譜集からの指し手学習 鶴岡慶雅

大山名人はこの局面でどう指す? 後手番 正解 2五歩 激指の予測 2五歩(9.2%) 8四歩(7.3%) 4五歩(5.9%) 正解 2五歩 激指の予測  2五歩(9.2%)  8四歩(7.3%)  4五歩(5.9%)  5三銀(5.4%)   :

指し手を確率的に予測 用途 方法 棋士の棋風を再現 実現確率打ち切り探索の遷移確率 探索の枝狩り/延長 :   : 方法 大量の棋譜から確率モデルを利用して機械学習

最大エントロピー法による 機械学習 Log-linear model 2値分類: 「指される」 or 「指されない」 訓練データの尤度を最大化するようにパラメータ(素性の重み)を決定 素性関数 素性の重み

学習に利用する素性(特徴量) 指し手そのもの(移動元と移動先の座標、駒の種類) 駒の種類 駒の移動元の局所的な盤面情報(3x3) 駒の移動先に敵のききがあるかどうか 駒得をする手かどうか 直前に動いた駒を取り返す手かどうか 相手の飛車の位置と局所的な盤面情報の組み合わせ    :

学習 大山十五世名人の棋譜650局を分割 中盤までの全ての局面(進行度40以内)において、可能な指し手を全て生成し、学習データとする 訓練データ: 512局 テストデータ:100局 中盤までの全ての局面(進行度40以内)において、可能な指し手を全て生成し、学習データとする

指し手予測の正解率 ※局面ごとに上位n個の指し手を出力し、その中に正解手が含まれているかどうかのパーセンテージ ※訓練データ:512局 順位 訓練データに 存在する局面 存在しない局面 計 1 77.7 35.3 46.9 2 91.0 49.4 60.8 3 95.5 58.0 68.2 4 98.5 63.8 73.2 5 99.1 69.1 77.3 6 99.4 73.3 80.4 7 99.8 76.8 83.1 8 79.4 84.9 9 99.9 82.2 87.0 10 84.6 88.8 ※局面ごとに上位n個の指し手を出力し、その中に正解手が含まれているかどうかのパーセンテージ ※訓練データ:512局 訓練データに存在しない局面でも3割以上の確率で正解手を当てている。

正解率と訓練データ量の関係 訓練データは多ければ多いほどよい 500局でもまだ不足

指し手予測の例 先手番 正解 1六歩 激指の予測  6六歩(25%)  6八銀(11%)  4七銀(10%)  3七銀(9%)   :

指し手予測の例 先手番 正解 4五歩 激指の予測  4五歩(70.1%)  5五歩(23.2%)  4五桂(6.4%)  2五歩(3.8%)   :

課題 予測精度 探索への利用 棋風の再現 学習に利用する特徴量をさらに工夫する 訓練データを増やす 実現確率打ち切りに適用 探索による結果とどう折り合いをつけるか