高性能な詰碁ソルバーの探索技術について岸本章宏公立はこだて未来大学システム情報科学部情報アーキテクチャ学科共同研究者： Martin Mueller Department of Computing Science, University of Alberta,

高性能な詰碁ソルバーの探索技術について岸本章宏公立はこだて未来大学システム情報科学部情報アーキテクチャ学科 kishi@fun.ac.jp 共同研究者： Martin Mueller Department of Computing Science, University of Alberta, Canada mmueller@cs.ualberta.ca

発表概要研究背景関連研究詰碁ソルバー： TsumeGo Explorer 実験結果 – GoTools との性能比較まとめと今後の課題

ゲームと人工知能研究なぜゲームなのか ? – 探索アルゴリズムにとって理想的な題材簡単なルールと結果膨大な探索空間リアルタイムに応答する必要性 – 多くのアプリケーションが存在シークエンスアラインメント問題定理証明など – 研究者への明確な動機付け世界チャンピオンに勝てるようなプログラムの作成

コンピュータ囲碁研究の意義チェスでの Deep Blue の Kasparov への勝利 – 探索ベースのアプローチより難しいゲームへ次のターゲットは囲碁 – 大きな探索空間チェス 10 40 囲碁 10 170 – 局面の評価の難しさチェス駒の損得囲碁？？？

囲碁のルール白黒が交互にプレイ空点に石を打つ手かパスが合法石を取ることが可能自殺手は禁止地の大きな方が勝ち例

コンピュータ囲碁の現状強さ – 中級者が最強のプログラムに簡単に勝てるレベル足りないものは ? – よい評価関数 – 効率のよい探索アルゴリズム囲碁は難しいので「賢い」探索アルゴリズムが必要

コンピュータ囲碁における詰碁（死活）問題囲碁はやはり探索するのが困難囲碁の部分問題に着目 – 詰碁は探索アルゴリズムにとって理想的な部分問題強い囲碁プログラムの重要な要素の一つである現状では常に正しい結果を保証するには探索しかない

詰碁問題とは？攻め方は△のついた石をすべて取る受け方は活きようとする – 例：二眼、セキ着手は領域内に制限例

AND/OR 木と詰碁の関係 AND/OR 木探索アルゴリズムを用いて詰碁を解くことが可能 – 先手は勝ちに至る少なくとも一つの着手を見つければよい（ OR 節点） – 後手は全ての着手が負けに至ることを示せばよい（ AND 節点）

AND/OR 木の定義 (1 / 2) OR 節点と AND 節点 – OR(AND) 節点の子節点は AND(OR) 節点各節点は３つの値の可能性 – 勝ち : OR の勝ち – 負け : AND の勝ち – 不明 : 今のところ分からない終端節点：子節点のない節点 – 勝ちか負けの値先端節点：未展開の節点内部節点：子節点を持つ節点ルート節点：開始節点 (OR 節点 ) A B C D EF ルート節点不明先端節点終端節点勝ち負け内部節点 OR 節点 AND 節点

AND/OR 木の定義 (2 / 2) OR(AND) 節点の値の決定 – １つ以上の子節点が勝ち（負け）ならば勝ち ( 負け ) – 全ての子節点が負け ( 勝ち ) ならば負け（勝ち） – それ以外は不明ルート節点が勝ちか負けになるまで木を展開例 A BC DEFG HIJKLM 不明勝ち負け不明負勝勝負勝勝 OR 節点 AND 節点

探索効率向上技術の重要性探索空間 O(b d ) – b: 分岐因子 – d: 深さ証明木 : O(b d/2 ) – 節点が勝ちであることを証明する木トレードオフ：探索速度を落とさずに探索節点数を減らしたい例 OR 節点 AND 節点 A BC DEFG HIJKLM 不明勝ち負け勝ち不明負負勝勝勝勝証明木

探索効率向上へのアプローチゲーム非依存の性質を用いる – AND/OR 木探索一般に応用可能ゲーム依存の知識を用いる – そのゲームにのみ利用可能高性能なソルバーは両方を用いるのが通常

性能向上手法の例 (1 / 2) トランスポジションテーブル DAG の性質を利用前の探索結果をハッシュに保存ゲーム非依存の方法例 A ハッシュ表 B C D OR 節点 AND 節点 A 勝ち D B C 1 回の探索で OK 勝ち

性能向上手法の例 (2 / 2) 評価関数による節点の並べ替え評価関数 – 局面を「評価」し、点数化 – ゲーム依存の知識ある石を捕れるのでプラス 10 点２つの石がつながっているのでプラス 5 点 … 評価関数による子節点の並べ替え – 探索時にすべての子節点を評価 – 評価値のよい子節点から探索 – この枠組み自体はゲーム非依存 20 115 1 2 3

以前の詰碁ソルバーの研究 GoTools [Wolf:2000] – 石の生死を判定する強力なルール – 何年にもわたって書かれた囲碁の知識着手の並べ替え等に利用 – 単純な αβ 法＋トランスポジションテーブル – 過去 15 年にわたって最強の詰碁ソルバーとして君臨 – 14 空点程度の問題しか解けない「多数」のゲーム「依存」の手法 + 「単純」なゲーム「非依存」の手法

コンピュータ将棋における研究詰将棋ソルバー – 強力な探索アルゴリズム Df-pn アルゴリズム＋トランスポジションテーブル [Nagai & Imai:1999] – 様々な将棋の知識囲碁における知識よりもずっと単純 – プロ棋士を凌駕する解答能力現存する 100 手詰以上の問題はすべて解答可能 [Nagai:2002] 比較的「少数」のゲーム「依存」の手法 + 「強力」なゲーム「非依存」の手法

研究成果詰碁ソルバー TsumeGo Explorer の実装 – 新しい探索アルゴリズム df-pn(r) を利用 Df-pn アルゴリズム [Nagai & Imai:1999] をベースに利用 Graph-History Interaction (GHI) 問題の解決策 [Kishimoto & Mueller:AAAI2004] サイクルに関する証明数・反証数計算の問題の解決 [ Kishimoto and Mueller:ACG2003] df-pn の閾値の調整法 [Kishimoto & Mueller:AAAI2005] – 現状での最強の詰碁ソルバー [ Kishimoto & Mueller:AAAI2005] 比較的「少数」のゲーム「依存」の手法 + 「強力」なゲーム「非依存」の手法を用いたアプローチ

TsumeGo Explorer の概要探索エンジン : df-pn(r) ゲーム依存プラグイン – 終端局面の判定 – 着手生成 – 性能向上手法接続 [Mueller:GPW1997] 強制手順シミュレーション [Kawano:1996] 評価関数

Df-pn アルゴリズム [Nagai & Imai:1999] 証明数と反証数 [Allis:94] を利用深さ優先探索 – 証明数と反証数の閾値を持つトランスポジションテーブルによる効率化

証明数の定義節点 n の証明数 pn(n) – n が勝ちであるために展開しなければならない先端節点数の下限値 pn(n) = min(pn(c1), …, pn(ck)) (n: 内部 OR 節点, ci: 子節点 ) pn(n) = pn(c1) + … + pn(ck) (n: 内部 AND 節点 ) pn(n)= 1 (n: 先端節点 ) pn(n)= 0 (n が勝ち ) pn(n)=∞ (n が負け ) 3 2 2 11111 pn OR 節点 pn AND 節点

反証数の定義節点 n の証明数 dn(n) – n が負けであるために展開しなければならない先端節点数の下限値 dn(n) = dn(c1)+…+ dn(ck) (n: 内部 OR 節点, ci: 子節点 ) dn(n) = min(dn(c1),…,dn(ck)) (n: 内部 AND 節点 ) dn(n)= 1 (n: 先端節点 ) dn(n)= 0 (n が負け ) dn(n)=∞ (n が勝ち ) dn OR 節点 dn AND 節点 2 2 11111 3

Df-pn アルゴリズム (1 / 2) 閾値を用いた深さ優先探索例 A BC EFD pn(D)=1 dn(D)=1 pn(E)=1 dn(E)=1 pn(F)=1 dn(F)=1 thpn(A)=INF thdn(A)=INF OR 節点 AND 節点 pn(B)=1 dn(B)=1 pn(C)=1 dn(C)=1 pn(A)=1 dn(A)=2 thpn(B)=2 thdn(B)=INF-1 pn(B)=3 dn(B)=1 pn(B)=3>=thpn(B)=2 thpn(C)=4 thdn(C)=INF-1 GH pn(H)=1 dn(H)=1 pn(G)=1 dn(G)=1 pn(C)=2 dn(C)=1 thpn(G)=3 thdn(G)=2 IJ pn(G)=1 dn(G)=2 dn(G)=2>=thdn(G)=2 thpn(H)=3 thdn(H)=3

Df-pn アルゴリズム (2 / 2) 何度も内部節点を展開トランスポジションテーブルの利用 – 以前に展開した節点を保存証明数・反証数など – 探索や証明数の計算時に参照 – 内部節点の再展開を減少

Graph-History Interaction (GHI) 問題 [Palay:83] 詰碁の探索空間はサイクルを含む – 以前の局面に戻る着手は禁じ手 C.f. SSK ルールトランスポジションテーブルは経路を無視 – 間違えた答えを返す可能性例 A D BC A  B  D(  B) 勝ち勝ち or 負け ? A  C  D  B(  D) 負け OR 節点 AND 節点 D の値は一意に決まらない

Df-pn(r) における GHI 問題対策 [Kishimoto & Mueller:AAAI2004] トランスポジションテーブルの各エントリーに局面 + 経路情報を保持不明の節点は証明数・反証数の情報を利用サイクルがらみの勝ち負けは勝ち / 負け via path と保存サイクルが無関係のときは「無条件」勝ち / 負けと保存例 A D BC D via A  B  D 勝ち D via A  C  D 負け

TsumeGo Explorer の中身 ( 残りの部分 ) 探索エンジン : df-pn(r) ゲーム依存プラグイン – 終端局面の判定 – 着手生成 – 性能向上手法接続 [Mueller:GPW1997] 強制手シミュレーション [Kawano:1996] 評価関数

TsumeGo Explorer のゲーム依存プラグイン着手生成 – パス＋領域内の着手全て – 強制手終端節点の判定 – 活き形である例：二眼、セキ受け方の勝ち – 眼を作るスペースがない攻め方の勝ち黒：受け方白：攻め方

見合い戦略 [Mueller:GPW97] を用いた接続攻め方の接続のみを考慮不安定な石を活きた石と判定可能受け方の石の死を早い段階で判定黒死の例黒：受け方白：攻め方

強制手：安全枝刈り方法強制手の例

シミュレーション [Kawano:96] 「似た」局面の証明木を高速に構築する方法勝ちの局面 P1 P2 P3P4 P5P6 似た局面 Q1 Q2 Q3Q4 Q5Q6 OR 節点 AND 節点

シミュレーションの詰碁への適用 P1 P2 A4 P5 Df-pn(r) P3P4 Simulation A4 Df-pn(r) 勝ち

評価関数を利用した証明数・反証数の初期化 (1 / 2) Df-pn ベースの方法の問題 – 石を捕ることを嫌う – 一時的な証明数・反証数が大きくなる証明数・反証数の初期化のために評価関数を利用 [Nagai:GPW2001] P1 P2 先端節点 pn(P2) = 1 dn(P2) = 1 pn(P2) = evalPN(P2) dn(P2) = evalDN(P2)

評価関数を利用した証明数・反証数の初期化 (2 / 2) 二眼を作れる距離の概算目を奪う着手の評価値 42415 2 4 55 2 2 2 1 1 23 3

その他の話題 ( 囲碁プレイヤー向け ) コウの取り扱い – 詰碁問題の結果に影響 TsumeGo Explorer のでコウの取り扱い – 2 回の探索によって対応 1 回目：コウ立てなしとして探索 2 回目：負けたプレイヤーに無限にコウダテがあると仮定して再探索通常は再探索のオーバーヘッドは少ない

TsumeGo Explorer と GoTools の性能比較マシン環境 : Athlon XP 2800+ 制限時間 : 各問 5 分利用した問題 – Mueller のテスト問題 Mueller によって作成された 148 題簡単なものから非常に難しいものまで様々な難易度 http://www.cs.ualberta.ca/~games/go/oneeye/ – Wolf のテスト問題 GoTools にとっての難問 418 題

利用した問題の例 Mueller のテスト問題 ( 白先白活 ) Wolf のテスト問題 ( 白先白活 )

Wolf の問題における性能比較解けた問題数実行時間の合計 ( 秒 ) GoTools 418 1,235 TsumeGo Explorer 418 448 合計数 418

Wolf の問題におけるパフォーマンスグラフ両方のプログラムで解けた問題のプロット

Mueller の問題における性能比較実行時間の解けた問題の数合計 ( 秒 ) (119 問 ) GoTools 119 957 TsumeGo Explorer 142 47 合計 148

Mueller のテスト問題におけるパフォーマンスグラフ両方のプログラムで解けた問題のプロット

Lessons Learned (1 / 3) GoTools の知識は小サイズの問題には有効 – GoTools は静的に解答 – TsumeGo Explorer は 3,159 節点で解答 (0.1 秒 ) 白先黒死

Lessons Learned (2 / 3) 黒先黒活難しい問題ではより良い探索アルゴリズムが必要 – GoTools は 5 分以内に解答不可能 – TsumeGo Explorer は 0.73 秒 (22,616 節点 ) で解答

Lessons Learned (3 / 3) 性能向上には強力な探索アルゴリズムと様々な性能向上のためのアイデアの両方が必要 566 題のテスト問題を用いた場合の性能比較解けた問題合計実行時間展開節点総数 (566 題中 ) (564 題中 ) (564 題中 ) (1): df-pn(r) 564 6,262 399,195,987 (2): (1) + 連結 564 3,828 185,639,307 (3): (2) + 強制手 566 1,480 63,049,713 (4): (3) + シミュレーション 566 1,146 54,265,265 (5): (4) + 評価関数 566 808 36,592,360

まとめと今後の課題まとめ – df-pn ベースのアルゴリズムを詰碁へ応用 – 比較的少ないゲーム依存の知識 – 現在最高性能の詰碁ソルバーの実装に成功今後の課題 – より大きなサイズの問題への挑戦 22 ～ 27 空点サイズの問題を解くのが限界 C.f. GoTools は 14 空点程度知識をもっと足す必要あり？ – 開いた問題を解けるソルバーの開発 – 実際の囲碁を打つシステムへの利用

最終的に解きたい問題の例囲碁発陽論第 1 番 ( 白先白活 )

宣伝：現在進行中のプロジェクト Akebono プロジェクト – 「日本発」の強いコンピュータ囲碁プログラムの開発 – 現在のメンバー岸本章宏（はこだて未来大学情報アーキテクチャ学科助手）金子知適（東京大学大学院広域科学専攻助手）美添一樹 ( 東京大学大学院情報理工学系研究科今井研 ) 吉本晴洋 ( 東京大学大学院情報理工学系研究科田浦研 ) – 現在は 9 路盤のみ実装、将来は 19 路盤も – 興味のある方は akebono@graco.c.u-tokyo.ac.jp までakebono@graco.c.u-tokyo.ac.jp

高性能な詰碁ソルバーの探索技術について岸本章宏公立はこだて未来大学システム情報科学部情報アーキテクチャ学科共同研究者： Martin Mueller Department of Computing Science, University of Alberta,

Similar presentations

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

高性能な詰碁ソルバーの 探索技術について 岸本 章宏 公立はこだて未来大学システム情報科学部 情報アーキテクチャ学科 共同研究者： Martin Mueller Department of Computing Science, University of Alberta,

Similar presentations

Similar presentations

About project

フィードバック

高性能な詰碁ソルバーの探索技術について岸本章宏公立はこだて未来大学システム情報科学部情報アーキテクチャ学科共同研究者： Martin Mueller Department of Computing Science, University of Alberta,