モンテカルロ法と囲碁・将棋ソフトの人知超え

Slides:



Advertisements
Similar presentations
コンピュータ囲碁における Root 並列化について 発表者 副島 佑介. 目次 研究背景 – 囲碁の難しさ – モンテカルロ木探索について – 並列化手法の先行研究 提案手法 – Root 並列化における合議制 実験結果 まとめ.
Advertisements

N クイーン問題 N×N のチェス盤の上に、将棋の飛車と角 行の動きを同時にできる駒(クイーン) をお互いに動きを妨げないように N 個置 け。
強豪囲碁ソフト「彩」について 山下 宏 2009 年 9 月 11 日 機械振興会館 ※彩(あや)と読みま す.
Othello Let us cling together. メンバー 班長 杉本友宏 プログラマー 京谷貴平 アルゴリズム 佐野祐之 パワーポイント 菊澤遼平 発表 川本敏和.
 C 川船 美帆.  強い人工知能の作成 o 「遺伝的アルゴリズム」  「どうぶつしょうぎ」のアプリケーショ ン作成 o スマートフォン向けアプリケーション.
リーダー 辻元健照 プログラム 北川泰士 アルゴリズム 水野雄太 ユーザー 松田邦久 プレゼン 戸所風士
特別課題 あまりにも優秀すぎて, 時間をもてあましている人へ.
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
人工知能概論 第4回 探索(3) ゲームの理論.
囲碁プログラミングの探索における小目標間の依存関係解決に向けて
将棋名人のレーティングと棋譜分析 山下 宏 2014年11月7日 GPW 箱根.
ML 演習 第 8 回 2007/07/17 飯塚 大輔, 後藤 哲志, 前田 俊行
統計学 10/25(木) 鈴木智也.
コンピュータ囲碁の仕組み ~ 将棋との違い ~
四路の碁アプリ開発 情報論理工学研究所 高倉秀斗.
将棋プログラム「激指」  鶴岡 慶雅.
リバーシの並列化 並列化するときに起こる問題を定義しろ おぷてぃまいざー SSAIとMSAIは比較しろ  前田昂寛.
飛び越しゲーム 計算数理2演習 課題1 2011年度(阿原).
2004年度JAVAゼミコンテスト作品 「Othello」
第2回電王戦 プロ棋士とコンピュータによる対局 2013年3月23日〜4月20日 5週 持ち時間4時間 ニコニコ生放送で生中継
人 工 知 能 第3回 探索法 (教科書21ページ~30ページ)
インタラクティブ・ゲーム制作 <プログラミングコース>
シミュレーション論Ⅰ 第4回 基礎的なシミュレーション手法.
モンテカルロ法によるミニ囲碁 増井拓視 情報理論工学研究所.
コンピュータ将棋におけるカーネル法を用いた静的評価関数の学習
単位 おねだり ☆オセロ おねだり隊☆D班.
碁石ゲームに関する考察 4目並べ講座 パターン生成ゲームの楽しみ 徳山 豪 (東北大学) .
近畿大学理工学部情報学科 情報論理研究室 井藤 雄太
モンテカルロ碁 電気通信大学 村松研究室 下川和也.
UCB+ 法を用いた Big Two AI の研究
JAVAでつくるオセロ 伊東飛鳥、宮島雄一 長畑弘樹、ソギ原直人.
情報論理工学 研究室 第6回: リバーシの合法手生成.
~オセロゲーム~ アルゴリズムとそのプログラム
思考力・表現力を高める 学習の流れ 本時のねらい 「数学的活動を通して思考力・表現力を高める」 ↓
情報論理工学 研究室 第10回 完全解析されたゲーム.
Copyright (C) 2011 Hideki Kato
二人零和不完全情報ゲームであるジャンケンにおけるゲームの洗練法
前回の練習問題.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
4人版リバーシYoninの解析 情報論理研究室 藤本 侑花
BLACK JACKの作成 ブラックジャックのルール 概要 勝敗の判定 開発中の問題点 Aの扱いについて 配り直し(DEAL) 工夫した点
G班メンバー リーダー 橋本望 SE 北本理紗と服部友哉 PPT作成 橋本望と山田侑加
京都大学大学院情報学研究科 宮川博光 伊藤大雄
近畿大学理工学部情報学科 情報論理研究室 松浦 美里
近畿大学理工学部情報学科 情報論理工学研究室 赤井 隆純
モンテカルロ法を用いた 立体四目並べの対戦プログラム
情報論理工学 研究室 第7回: 強い手の選択.
疑似乱数, モンテカルロ法によるシミュレーション
研究背景と目的 局面対による学習の高速化 学習器の説明 今後 大規模な強化学習技術の実証と応用 一方で、 強化学習手法の台頭
麻雀ゲームにおけるAIの開発    日高大地   近畿大学理工学部情報学科  
21  ~ぜったい負けたくない君へ~ 8班.
★C++/オブジェクト指向実践企画★ Othelloゲーム作成
近畿大学 理工学部 情報学科 情報論理工学部研究室 潘小月
アルゴリズムとデータ構造 2012年7月2日
数値解析ⅡーI ~オセロゲームのプログラム~
Othelloのプログラム 班長:佐々木 悠二 班員:石黒 護     井上 雄滋     齊藤 良裕     清水 裕亮.
アルゴリズムとデータ構造 2011年6月28日
F班 メンバー 班長 雨堤 智宏 アルゴリズム解析 角田 泰彬 竹林 秀高 ppt作成 清水 貴史
アルゴリズムとデータ構造 2013年7月2日
囲碁プログラム 彩の仕組み 山下 宏 2008年9月4日 FIT2008.
数値解析Ⅱ ~五目並べのプログラミング~ C班.
近畿大学理工学部情報学科 情報論理工学研究室 段野健太
戦術的観点からの  変形碁盤間の   類似度評価 佐藤 真史(早稲田大学).
分割制限ニム 山崎浩一*、五十嵐善英*、塚村善弘 *群馬大学理工学部.
Othello G班         山崎 木下 山本 上手      .
cp-15. 疑似乱数とシミュレーション (C プログラミング演習,Visual Studio 2019 対応)
人工知能概論 第4回 探索(3) ゲームの理論.
数値解析Ⅱ ーCheckers Game プログラムー
京都大学 情報学研究科 通信情報システム専攻 高田智史 joint work with 伊藤大雄 中村義作
情報とコンピュータ 静岡大学工学部 安藤和敏
Presentation transcript:

モンテカルロ法と囲碁・将棋ソフトの人知超え ~ 最強プログラムはサイコロを振るだけなのか ~ 山下 宏 2009年10月7日 経団連会館 JISAコンベンション2009

スライド紹介 私について 現在のソフトの実力 将棋ソフト「Bonanza」の衝撃 コンピュータ囲碁 将棋や囲碁ソフトの開発 囲碁のルール モンテカルロ法

将棋や囲碁ソフトを開発 AI将棋 囲碁世界Ⅴ(開発版は「彩」) 1993年発売 現在Version 16まで コンピュータ将棋選手権で優勝3回 囲碁世界Ⅴ(開発版は「彩」) 2009年発売 モンテカルロ法を採用

現在のゲームソフトの強さ 人間のチャンピオン 必勝法解明! ルールどおり打てる アマチュア有段者 オセロ チェス 囲碁 将棋 チェッカー

将棋 相手の王様を取った方が勝ち

将棋ソフト「Bonanza」の衝撃 局面の数値化は人間が手作業で行ってきた Bonanzaが2006年に登場 人間の感覚を数値に変換するあいまいな作業 Bonanzaが2006年に登場 プロの棋譜1万局から学習させる プロの真似が上手に 局面の数値化が正確になった!

渡辺竜王と対戦するBonanza 2007年3月に対戦 Bonanzaは負けたが好勝負だった 渡辺竜王の感想 1手につき10億局面を探索 「プロの足元まで来ている」

将棋ソフトの強さの推移 人間の名人は3100点ぐらい?2012年ごろに到達か? 名人? アマ六段 アマ初段

囲碁 陣取りゲーム 陣地の多い方が勝ち 黒地96目白地80目 コミ5目半 黒10目半勝ち

囲碁のルール 盤面に黒白交互に石を置いていく 19×19の盤が一般的 四方を囲めば相手の石を取れる 13×13(13路盤)、9×9(9路盤)もある 四方を囲めば相手の石を取れる 黒が▲に打てば、囲まれた白の石を取れる

囲碁のルール 2 四方を囲まれた場所に石は置けない ただし、そこに置くことによって相手の石を取れるなら構わない Aには白石は置けないがBには置ける

囲碁のルール 3 石が置けない場所が2つ以上あれば、この石は取られることがないので「生き」ている この黒石を取ることはできないので「生き」

囲碁のルール 4 先手の黒が有利なので、ハンデを負わせる これを「コミ」と呼ぶ 6.5目あるいは7.5目が一般的

コンピュータ囲碁の歴史 1969年 最初のプログラムが登場 1995年 8級になる 2001年 3級になる 2007年 3級のまま停滞 2008年 2段に(モンテカルロ囲碁の登場) 2009年 3段に

従来の囲碁ソフト 人間の思考を真似したプログラミング 局面の数値化が難しく囲碁は停滞していた 陣地の認識 石の連絡の認識 生きている石の認識 将棋やチェスは駒の損得が重要 囲碁にはそれがなく、すべてがあいまい モンテカルロ法の登場で囲碁ソフトは大きく変わった!

モンテカルロ法とは? 乱数を使って数値計算を(適当に)行う手法 由来はギャンブルで有名なモナコの地名から 円周率(π)の計算など

モンテカルロ法の衝撃 1996年 囲碁プログラム「彩」を作りはじめる 2007年 GnuGoが6級、彩は8級 2007年 10月にモンテカルロ法に移行 2008年 2月、モンテカルロ法の彩が3級に 12年かけてGnuGoにすら届かなかったのが4ヶ月でGnuGoを遥かに追い越した! 従来の人間の思考の真似をしていたプログラマには大ショック

モンテカルロ法を使った囲碁の仕組み 1.乱数で黒石、白石を交互に置く 2.打つ場所がなくなったら終了 3.点数を計算する 4.1. - 3. を何度も繰り返す (実際のサンプルを表示)

シミュレーションの精度を上げる 囲碁知識を利用 3x3の範囲のパターンを学習 アタリを逃げる、石を取る。 人間の棋譜から統計を取る 着手確率を求める アタリ 高確率 低確率

黒石の着手確率 数値が大きいほど着手確率が高い

精度を上げたサンプル サンプルを再生

単純乱数(上)と囲碁っぽい乱数 囲碁っぽい乱数を使ったほうが格段に強い 単純乱数(上)は途中図がひどい。最後はどちらも同じ感じ

将棋よりも囲碁も方が先に?! モンテカルロ法が本格的になって1年で9路でプロに近いレベルに 2年でプロに19路で8子で勝利 8コアで。コア数が4倍になれば1子減る? 将棋は2012年に名人に勝つ?予想 このペースで進むなら将棋よりも先に囲碁の方が名人に勝ってしまうかも

ご静聴ありがとうございました

モンテカルロ法の囲碁の特徴 ぎりぎり半目で勝とうとする 常に大局的に局面を見ている 勝っているときは安全に 負けているときは勝負手を放つ 部分の損得にこだわらないグローバルな視点 人間は小さな得に目を奪われがち