Algebraic Geometry of Learning Machines

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学 11/13(月) 担当:鈴木智也.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
ベイズ的ロジスティックモデル に関する研究
統計学 11/19(月) 担当:鈴木智也.
【第三講義】 1次元写像の軌道と安定性.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
京都大学 化学研究所 バイオインフォマティクスセンター
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
相関分析.
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
Statistical Physics and Singularity Theory
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
Mathematical Learning Theory
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
物理学者でない人 のための統計力学 東京工業大学 渡辺澄夫 DEX-SMI 1/1/2019.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
7.4 Two General Settings D3 杉原堅也.
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
【第二講義】1次元非線形写像の不変集合とエントロピー
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
パターン認識と機械学習 第2章:確率分布(後半)
完全2部グラフ型ボルツマンマシンにおける平均場近似自由エネルギーの 漸近的挙動
予測に用いる数学 2004/05/07 ide.
Extractor D3 川原 純.
Additive Combinatrics 7
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ベイズ・アプローチによる グラフィカル・テスト理論
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
不完全な定点観測から 真の不正ホストの分布が分かるか?
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
経営学研究科 M1年 学籍番号 speedster
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
7.8 Kim-Vu Polynomial Concentration
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
一般ボルツマンマシンにおける平均場近似自由エネルギーの漸近的挙動
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Algebraic Geometry of Learning Machines 学習理論と代数幾何 東京工業大学 渡辺澄夫 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 1. Introduction 学習理論とは … X1, X2, …, Xn q(x) ? q(x) 学習者 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 1. Introduction 真の分布 と 学習モデル 学習者 x: 見える si sj wij y: 隠れ部分 p(x|w) 真の分布 例 推測 si p(x|w*) wij* sj y: 隠れ部分 x: 見える w → p( |w) が1対1でない ・・・特定不能 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 1. Introduction 事後分布と特異点 p(x|w*) p(x|w) D(w*||w) = ∫p(x|w*) log dx カルバック情報量 W D(w*||w) =0 : 解析的集合 特異点 事後分布も最尤推定量の分布も正規分布には漸近しません。 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 1. Introduction 特異モデルの性質 W/~ W=Rd: パラメータ全体の集合 同値関係  w1~w2⇔「p(x|w1)= p(x|w2) (∀x)」 W/~ は特異点を持つ集合 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 1. Introduction 統計的正則モデルと特異モデル 特異モデル   隠れマルコフモデル   神経回路網 混合正規分布   ベイズネットワーク 縮小ランク回帰   ボルツマンマシン 正則モデル   正規分布   指数分布   多項式回帰 隠れた部分がある学習モデルは特異モデルになる 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 1. Introduction なぜ特異モデルが必要か 1.データから構造を取り出したい 2.潜在(隠れ)変数を使いたい 3.未知の分布を効率よく近似したい 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result 記号 確率変数 X   分布 q(x)=p(x|w*) Dn = { X1, X2, …, Xn } 独立 モデル p(x|w) , 事前 φ(w) f(x,w) = log q(x) – log p(x|w) K(w) = EX[ f(X,w) ] カルバック情報量 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result 条件 (1) W∋w → f( ,w)∈ L2(q) : 解析関数 L2(q) ={g ;∫|g(x)|2q(x)dx <∞} (2) φ(w) = a0(w) (a1(w)>0,…, aL(w)>0) 0 (それ以外) C1関数 解析関数 コンパクト サポート 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result ベイズ統計 n i=1 Hn(w) = ∑ f(xi,w) 対数尤度比 事後分布 e -Hn(w) φ(w) dw 1 Z (Dn) p(w|Dn) dw = p(x|Dn) = ∫p(x|w) p(w|Dn) dw 予測分布 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result 周辺尤度と汎化誤差 Z (Dn) = ∫e -Hn(w) φ(w) dw 周辺尤度 平均対数周辺尤度 F(n) = E[ - log Z(Dn) ] ∫q(x) log dx q(x) p(x|Dn) 汎化誤差 G(n) = E[ ] G(n) = F(n+1) – F(n) 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result 主定理 -λ (-λ): ζ(z) の一番大きな極、m:位数 Re(z) Im(z) ζ(z) = ∫K(w)zφ(w) dw ゼータ関数 Re(z)>0 では正則関数 有理型関数として全複素平面に解析接続できる Z(Dn) nλ (log n) m-1 Z* 法則 収束 n → ∞ Cf.E[Z*] = ∞ 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result 系:対数周辺尤度 確率的複雑さ n i=1 - log ∫Π p(Xi|w) φ(w) dw モデルの 複雑さ = - Σ log q(Xi) + λlog n – (m-1)loglog n - log Z* n i=1 E[ log Z* ] < ∞ n ±n½ log n loglog n 定数 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 2. Main Result 系:汎化誤差 G(n) = λ/ n + o(λ/n) 汎化誤差 真の分布 から 学習結果 までの距離 学習例数 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 対数尤度比のふるまい 対数尤度比 カルバック情報量 Hn(w) = n K (w) + {nK(w)}1/2 σn(w) σn(w) = Σ 1 n i=1 f(Xi,w) - K(w) K(w)1/2 → σ(w) ? K(w)=0の特異点上で ill-defined 各 w 毎に正規分布に収束 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 特異点の問題 Z (Dn) = ∫ dwφ(w) e -Hn(w) = ∫φ(w) dw ∫dtδ(t-K(w)) e -nt -(nt)½σn(w) = ∫φ(w) dw ∫ δ( -K(w)) e -t -t½σn(w) dt n t ② ill-defined ① δ(K(w)) は定義されない 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 特異点解消定理 広中(1964) Atiyah(1970) A(g(u))= u1s1 u2s2 ・・・ udsd A(w) 実解析関数 g U locally U0 正規交差点 実多様体 W W0 プロパーな 実解析関数 φ(w) φ(g(u)) |g’(u)| 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 周辺尤度の分解 L j=1 A(w)≡K(w) Π aj(w) U に特異点解消定理を適用 U0 Z (Dn) = Σ∫ du ψ(u) e -Hn(u) Uα Uα=[0,a]d = Σ ∫ψ (u) du ∫ δ( -K(u)) e -t -t½σn(u) dt n t Uα 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 座標 u の分離 u = (ua,ub) K1(ua) = u12s1 u22s2 ・・・ um2sm K(u) = K1(ua) K2(ub) K2(ub) = um+12sm+1 ・・・ ud2sd ψ(u) = c(u)ψ1(ua)ψ2(ub) ψ1(ua) = u1k1 u2k2 ・・・ umkm ψ2(ub) = um+1km+1 ・・・ udkd s.t. k1+1 2s1 k2+1 2s2 = =・・・= km+1 2sm < km+1+1 2sm+1 ζ(z) の極 =λ 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof δ(t-K(u)) の性質 任意のC1関数 S(u) (u∈[0,a]d ) について I(t) = ∫δ(t – K(u))ψ(u) S(u) du I0(t) = c0 tλ-1 (-log t)m-1 ∫K2(ub)-λ ψ2(ub) S(0, ub ) dub |I(t)-I0(t)| ≦ tλ-1 (-log t)m-2 ||S|| ||S||={ max |S(u)| + Σmax |∂jS(u)| } 補題 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof L2(q)値解析関数のイデアル 補題 f(x,u) = a(x,u) u1s1 ・・ udsd J j=1 f(x,u) = Σ gj(u) hj(x,u) L2(q)解析 解析関数 L2(q)解析 (hj(u),hk(u))>I K(u) = u12s1 u22s2 ・・・ ud2sd = ∫{f(x,u)+e-f(x,u) -1} q(x) dx 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 経験過程の法則収束 n i=1 1 n σn(u) = Σ a(Xi,u) - u1s1 ・・ udsd → σ(u) 正規確率過程 ※経験過程の法則収束 L∞(U) = { f(u) ; ||f(u)||<∞ }  ||f|| = ess. sup |f(u)| u ∈U σn(u) → σ(u) L∞(U)上の任意の有界連続関数 F について EDn[ F(σn)]→Eσ[F(σ)] 定義 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 3. Proof 周辺尤度の法則収束  Σ∫dt c0 tλ-1 (-log t)m-1 ×∫dub K2(ub)-λ ψ2(ub) e -t -t½σ(ub) Uα 証明終 L∞(U)上のσの連続関数 nλ Z (Dn) (log n) m-1 n →∞ 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 統計的推測と特異点 1.特異点を扱うための数理 2次形式 テーラー展開 中心極限定理 特異点解消定理 イデアル有限生成 経験過程 2.特異点が統計的推測に及ぼす影響 特異点と真の分布が一致しない場合 最尤法、MAP法 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 学習係数λ det I(w*)>0, φ(w)>0ならば    λ=d/2 (d: wの次元) (2) det I(w*)=0,φ(w)>0 ならば    λ<< d/2 (3) φ(w): ジェフリーズならば    λ≧ d/2 パラメータ空間 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 具体的なモデルについて ブローアップ ⇒ ζ(z) の極 ⇒ λの上限値   神経回路網  (Watanabe,2001) 混合正規分布 (Yamazaki&Watanabe,2002)   ベイズネットワーク (Rusakov&Geiger,2002) 縮小ランク回帰 (Watanabe&Watanabe,2002) 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 真の分布がモデルの外?にあるとき n:学習例数 G(n) 小さい モデル 大きな 真の分布 パラメータ空間 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View モデルが変化する場所 G(n) ここでは何が起こっているか? n:学習例数 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 相転移点の解析 エネルギー 対 エントロピー  関数近似誤差 対 統計的推測誤差 D (特異点|| 真の分布) = c/n モデルの選択・検定 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 具体例 真 b=0 特異点 : {(a,b):a=0 or b=0} Kullback = |a*|2|b*|2/n 真: q(y|x) = 1 2π exp[ - (y –  a* ∑ bj* ej(x) )2 ] 2 n N j=1 x ∈RN, y ∈R1 例題 推測 a ∈R1 , b ∈RN N j=1 1 2π 1 2 exp[ - (y – a∑ bj ej(x) )2 ] 学習者: p(y|x,a,b) = 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 汎化誤差と学習誤差 G(n) = λ/ 2n + o(1/n) , T(n) = μ/ 2n + o(1/n) , ここで λ= 1 + Eg[ (a*2 b*2+a*b*・g)YN(g)/YN-2(g)] μ = λ–2N+ Eg[ (2a* b*・g+2g2) YN(g)/YN-2(g)] YN(g)=∫0π/2 sinN t exp(-|a*b*+g|2 sin2t /2) dt g ~ N次元の標準正規分布 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 漸近展開 |a*| |b*|→∞ のとき λ(a*,b*) = N - (N-1)(N-3) / |a*|2 |b*|2, μ(a*,b*) = - N + (N-1)2 / |a*|2 |b* |2. N : b の次元 (N-1)(N-3), (N-1)2 : 特異点の指標? 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 4. From the Statistical Point of View 対応する正則モデル 真: q(y|x) = 同じ N j=1 1 2π 1 2 exp[ - (y – a∑ bj ej(x) )2 ] 学習者: p(y|x,b) = G(n) = N/2n +o(1/n) 真の場所に依存しない T(n) = - N/2n +o(1/n) 2019/2/16 Algebraic Geometry of Learning Machines

Algebraic Geometry of Learning Machines 5. Conclusion 結論 (1) 学習理論と特異点 数学的な方法 (2) 統計的推測における特異点の影響 統計学的な意味 2019/2/16 Algebraic Geometry of Learning Machines