確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研

Slides:



Advertisements
Similar presentations
Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
相対論的場の理論における 散逸モードの微視的同定 斎藤陽平( KEK ) 共同研究者:藤井宏次、板倉数記、森松治.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
ソーラス符号の パーシャルアニーリング 三好 誠司 上江洌 達也 岡田 真人 神戸高専 奈良女子大 東大,理研
有限差分法による 時間発展問題の解法の基礎
CGアニメーションの原理 基本技術 対象物体の動きや変形の設定方法 レンダリング技術
自己重力多体系の 1次元シミュレーション 物理学科4年 宇宙物理学研究室  丸山典宏.
Fortran と有限差分法の 入門の入門の…
・力のモーメント ・角運動量 ・力のモーメントと角運動量の関係
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
シミュレーション論Ⅰ 第4回 基礎的なシミュレーション手法.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
4.2 連立非線形方程式 (1)繰返し法による方法
流体のラグランジアンカオスとカオス混合 1.ラグランジアンカオス 定常流や時間周期流のような層流の下での流体の微小部分のカオス的運動
(ラプラス変換の復習) 教科書には相当する章はない
3次元剛体運動の理論と シミュレーション技法
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
ガウス過程による回帰 Gaussian Process Regression GPR
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
第6章 連立方程式モデル ー 計量経済学 ー.
決定木とランダムフォレスト 和田 俊和.
背 景 多数の「スピン」とそれらの「相互作用」という二種類の変数を有する系の解析においては,相互作用の方は固定されておりスピンだけが 変化するモデルを考える場合が多い.   (例:連想記憶モデル) 「スピン」よりもゆっくりと「相互作用」も変化するモデル(パーシャルアニーリング)の性質は興味深い.
タップ長が一般化された 適応フィルタの統計力学
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
教師がコミティマシンの場合の アンサンブル学習
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
6. ラプラス変換.
ルンゲクッタ法 となる微分方程式の解を数値的に解く方法.
分子生物情報学(2) 配列のマルチプルアライメント法
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
(昨年度のオープンコースウェア) 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Number of random matrices
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
教師がコミティマシンの場合の アンサンブル学習
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
教師が真の教師のまわりを まわる場合のオンライン学習
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ポッツスピン型隠れ変数による画像領域分割
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
パターン認識特論 ADA Boosting.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
パターン認識特論 ADA Boosting.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Cプログラミング演習 ニュートン法による方程式の求解.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
アルゴリズム ~すべてのプログラムの基礎~.
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研 確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専      東 大, 理 研

あ ら ま し 確率的フィルタリングを用いたアンサンブル学習がMurataによって提案されている.このアルゴリズムは生徒集団の多様性を維持するために,わざと間違った例題(負例)も用いる点が特徴的である.我々は統計力学的手法を用いてこのアルゴリズムの解析を行った.非単調な出力特性を有する教師を単純パーセプトロンの生徒集団がヘブ則で学習するモデルについて解析した結果,確率的フィルタリングの効果により生徒集団の多様性が維持され,汎化能力が大きく改善されることが明らかになった.また,次元Nが有限の場合には負例を用いる確率が0.5より大きいと生徒の対称性の破れが生じることがわかった.

背 景 (1/2) バッチ学習 オンライン学習 与えられたいくつかの例題を繰り返し使用 すべての例題に正しく答えられる 長い時間が必要 背 景 (1/2) バッチ学習 与えられたいくつかの例題を繰り返し使用 すべての例題に正しく答えられる 長い時間が必要 例題を蓄えておくメモリが必要 オンライン学習 一度使った例題は捨ててしまう 過去の例題に必ず正しく答えられるとは限らない 例題を蓄えておくメモリが不要 時間的に変化する教師にも追随

背 景 (2/2) 目 的 オンライン学習の枠組みで統計力学的手法を用いた解析を行い,確率的フィルタリングの効果を理論的に明らかにする 背 景 (2/2) アンサンブル学習 精度の低いルールや学習機械を組み合わせて精度の高い予測や分類を行う 生徒集団の多様性を維持することが重要 確率的フィルタリングを用いたアンサンブル学習(Murata, 2005) Schapireのアルゴリズムをオンライン学習に適した形に修正 生徒集団の多様性を維持するために,わざと間違った例題(負例)も用いる点が特徴的 目 的 オンライン学習の枠組みで統計力学的手法を用いた解析を行い,確率的フィルタリングの効果を理論的に明らかにする

モデル(1/2) Teacher Students B J1 J2 J3 教師は非単調な出力特性 生徒集団の出力は3人の多数決で決定

モデル(2/2) 入力:  教師: 生徒の初期値:  N→∞ (熱力学的極限) 巨視的変数 生徒の長さ 類似度(方向余弦)

確率的フィルタリング(Murata, 2005) ←負例

■確率的フィルタリングは以下の更新式で書ける(J1の場合) J2とJ3 の答が同じ場合 J2とJ3 の答が異なる場合 正例 負例 (ステップ関数) (正例を使う確率) ■統計力学的な取り扱いを容易にするためにstep2は以下とする (3個の生徒が順番に更新)

統計的学習理論の目的のひとつは汎化誤差を理論的に計算することである まず誤差 を定義 汎化誤差 多重ガウス分布

巨視的変数のダイナミクスを記述する連立微分方程式を熱力学的極限 における自己平均性に基づいて決定論的な形で導出 1.解析を容易にするため補助的巨視的変数を導入 2. の両辺にBをかける 3. Nr1m+1 = Nr1m + [θ(-u2mu3m)f1m + θ(-u2mu3m)(smf1m +(1-sm)g1m)]vm Nr1m+2 = Nr1m+1 + [θ(-u2m+1u3m+1)f1m+1 + θ(-u2m+1u3m+1)(sm+1f1m+1 +(1-sm+1)g1m+1)]vm+1 Ndt inputs + Nr1m+Ndt = Nr1m+Ndt-1 + [θ(-u2m+Ndt-1u3m+Ndt-1)f1m+Ndt-1 + θ(-u2m+Ndt-1u3m+Ndt-1)(sm+Ndt-1f1m+Ndt-1 +(1-sm+Ndt-1)g1m+Ndt-1)]vm+Ndt-1 Nr1m+Ndt = Nr1m + Ndt<θ(-u2u3)f1 v + θ(-u2u3)(sf1 v+(1-s)g1v)]>/3 r1+dr1= r1 + dt<θ(-u2u3)f1 v + θ(-u2u3)(bf1 v+(1-b)g1v)]>/3

3個の巨視的変数 l,R,q のダイナミクスを 記述する連立微分方程式

ヘブ学習の場合

汎化誤差の計算手順 微分方程式を数値的に解いてl,R,qのダイナミクスを計算.その際,サンプル平均<・>はメトロポリス法で算出

汎化誤差のダイナミクス (a=0.6) 確率的フィルタリングには効果がある! →正解ばかり使うより,わざと間違った答も使うことで汎化能力が向上! →おもしろい!! 理論と計算機シミュ レーションが不一致

Rのダイナミクス 途中で生徒の対称性が破れ,以後は 理論と計算機シミュレーションが不一致

qのダイナミクス 途中で生徒の対称性が破れ,以後は 理論と計算機シミュレーションが不一致

l のダイナミクス 途中で生徒の対称性が破れ,以後は 理論と計算機シミュレーションが不一致

Rとqの関係 負例を使う確率(=1-b)が大きくなるほどRに対してqが小さく抑えられている →生徒集団の多様性が維持されている t=0

b<0.5の計算機シミュレーションで 生徒の対称性が破れる理由 例として,R1~1, R2~1 , R3~-1の場合を考える. J1やJ2 の更新の際にはH(x)=0となり通常のヘブ則になるのでR1 とR2 はさらに1に近づいてゆく. J3 の更新を行う場合にはH(x)=±2となりcoinが振られる.b<0.5だと平均的には「負例を使った学習」となるのでR3 はさらに-1 に近づいてゆく. このようにb<0.5 の場合はR1= R2=1 , R3=-1 は安定平衡点. よってb<0.5 の場合の計算機シミュレーションでは次元Nが有限であることによる生徒の対称性の微小な破れが徐々に拡大し,この安定平衡点に至る.