計算機実験の計画 References 研究目的 囲碁・将棋での強化学習 高信頼性人工知能システムへの展望 大規模な強化学習技術の実証と応用 jh170038-DAH 金子知適 (東京大学) 大規模な強化学習技術の実証と応用 構成員:金子知適(東京大学情報学環)、山口和紀(東京大学総合文化研究科) 、他 研究目的 囲碁将棋を主な対象に大規模強化学習の知見を蓄積 技術的課題に対する分析と新手法の開発 計算資源の投入量と得られる性能向上の関係の最適化 各計算ステップ(下図参照)の効率化 囲碁・将棋での強化学習 人の棋譜 ゲーム木探索エージェント 形勢評価関数 Value networks 初期値推定 未来の(報酬)予測が 正確な新世代作成 教師データ 局面と勝敗 局面と未来の局面 (過去の世代と)大量に対局 自己対局棋譜 e.g. 3000万局 課題局面の抽出 計算機実験の計画 ジョブ分割と分散計算フレームワークの開発 1局1秒〜1時間程度の棋譜の生成と、学習による性能向上の評価 各世代間の判断力向上と限界に関する評価 高信頼性人工知能システムへの展望 人の判断力を超えたシステムの性能の評価方法 学習過程の可視化と判断の説明との連携 人工知能システムの個性と常識の表現 References D. Silver et al. “Mastering the game of Go with deep neural networksand tree search”. In: Nature 529.7587 (Jan. 2016). Article, pp. 484–489. K. Hoki and T. Kaneko. “Large-Scale Optimization for Eval-uation Functions with Minimax Search”. In: J. Artif. Intell. Res. (JAIR)49 (2014), pp. 527–568.