カーネル法のトレンド: 非線形化から統計的検定へ

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
0章 数学基礎.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
講義1:カーネル法 産業技術総合研究所 津田宏治.
Extremal Combinatorics 14.1 ~ 14.2
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
回帰分析.
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
第12章 連続潜在変数 修士 1年 村下 昇平.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
応用数理工学特論 期末発表 西口健太郎 渡邉崇充
サポートベクターマシン によるパターン認識
相関分析.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
決定木とランダムフォレスト 和田 俊和.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
ICML2006勉強会 2006年7月29日 局所フィッシャー判別分析 東京工業大学 計算工学専攻 杉山 将.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
訓練データとテストデータが 異なる分布に従う場合の学習
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
独立成分分析 (ICA:Independent Component Analysis )
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
予測に用いる数学 2004/05/07 ide.
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
主成分分析 Principal Component Analysis PCA
“Regression on Manifolds using Kernel Dimension Reduction” by Jens Nilsson, Fei Sha, and Michael I. Jordan IBM東京基礎研究所 井手剛 | 2007/08/20 | ICML
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
高次元データにおける2次形式の近似について
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

カーネル法のトレンド: 非線形化から統計的検定へ ICML2007勉強会,東京工業大学,東京 2007年8月20日 カーネル法のトレンド: 非線形化から統計的検定へ 杉山 将 東京工業大学 計算工学専攻 http://sugiyama-www.cs.titech.ac.jp/~sugi/ sugi@cs.titech.ac.jp

ヒルベルト空間 ヒルベルト空間:完備な内積空間 完備:距離空間における任意のコーシー列がその空間内の 点に収束する 完備:距離空間における任意のコーシー列がその空間内の    点に収束する 距離空間:任意の2点間の距離が定められた集合 コーシー列:十分先の方でほとんど値が変化しない数列 内積空間:内積の定義されたベクトル空間 ベクトル空間:和とスカラー倍が定義された集合 ヒルベルト空間の利点: いつでも射影(最良近似)が存在する. コーシー・シュワルツの不等式が使える.

(再生性,または,“カーネルトリック”) 再生核ヒルベルト空間(RKHS) 再生核ヒルベルト空間:          再生核を持つ関数ヒルベルト空間 関数ヒルベルト空間:            関数を要素に持つヒルベルト空間 再生核ヒルベルト空間  の再生核 任意の固定した  に対して,       は    の元   の任意の元  と任意の  に対して, (再生性,または,“カーネルトリック”)

RKHSの使い方1:非線形化 入力点 に対する特徴ベクトルを次式で定義: 入力点  に対する特徴ベクトルを次式で定義: 線形の学習アルゴリズムが入力ベクトルの内積のみで表現できるとき,特徴空間でそのアルゴリズムを実行すると,もとの空間では非線形になる. 入力空間 特徴空間

応用例 回帰・分類 クラスタリング 外れ値検出 次元削減 サポートベクターマシン カーネルフィッシャー判別分析 カーネル最近傍法 カーネルK平均法 外れ値検出 1クラスSVM, SVデータ記述 次元削減 カーネル主成分分析

RKHSの使い方2:統計的検定 普遍(universal)RKHS:厳密な定義は省略 ガウシアンRKHSは普遍RKHS 分布の違い:最大平均相違 独立性: 相互共分散作用素,相互相関作用素 Steinwart (JMLR2001) Gretton et al. (NIPS2006) Bach & Jordan (JMLR2002) Fukumizu et al. (JMLR2004) Gretton et al. (JMLR2005, ALT2005)

分布の違いの検定 二つの分布       が同じかどうか調べたい. 古典: コルモゴロフ・スミルノフ検定 高次元では難しい.

最大平均相違(MMD) 普遍RKHS内の単位超球 に対して, 直感的な解釈:全ての積率が一致すれば, 二つの分布は等しい. Gretton et al. (NIPS2006) 普遍RKHS内の単位超球  に対して, 直感的な解釈:全ての積率が一致すれば,  二つの分布は等しい.        :期待値        :分散

再生核を用いたMMDの陽表現 (再生性) (コーシー・シュワルツの不等式) よって

MMDの経験近似 i.i.d.標本が与えられると仮定: このとき,MMDの二乗の経験近似は この統計量の分布を調べれば,      が 同じ分布かどうか検定できる.

Borgwardt et al. (Bioinformatics2006) MMDの応用例 バイオインフォマティックスにおける分布の違いの検定 共変量シフトにおける重要度の推定(カーネル平均適合)       と    が一致するように    を決定.  Borgwardt et al. (Bioinformatics2006) Huang et al. (NIPS2006)    :重要度

独立性の検定 二つの確率変数   が独立かどうか調べたい. 古典:相互情報量 密度推定を行なう必要があるため,高次元ではうまくいかない.

相互共分散作用素 相互共分散作用素: 普遍RKHS に対して, は独立 : への特徴変換 : への特徴変換     :  への特徴変換     :  への特徴変換 Bach & Jordan (JMLR2002) Fukumizu et al. (JMLR2004) Gretton et al. (JMLR2005, ALT2005)    は独立

作用素の“大きさ”の評価の仕方 作用素ノルム:最大固有値 行列式:固有値の積 ヒルベルト・シュミットノルム:固有値の和 カーネル正準相関分析 カーネル拘束分散 Bach & Jordan (JMLR2002) Gretton et al. (JMLR2005) カーネル一般化分散 カーネル相互情報量 Bach & Jordan (JMLR2002) Fukumizu et al. (JMLR2004) Gretton et al. (JMLR2005) ヒルベルト・シュミット独立性規準 (HSIC) Gretton et al. (ALT2005)

再生核を用いたHSICの陽表現 より,        :  の再生核        :  の再生核

HSICの経験近似 標本 が与えられると仮定. このとき,HSICの二乗の経験近似は 標本         が与えられると仮定. このとき,HSICの二乗の経験近似は この統計量の分布を調べれば,    が独立かどうか検定できる. カーネルの選び方によって,様々な従来法が再現できる.

応用例 独立成分分析 次元削減・特徴選択 クラスタリング 分解後の成分同士が最も独立になるようにする. 入力と出力の独立性を調べ Bach & Jordan (JMLR2002) Gretton et al. (JMLR2005) 独立成分分析 分解後の成分同士が最も独立になるようにする. 次元削減・特徴選択 入力と出力の独立性を調べ 最も独立なものを取り除いていく. 最も従属なものを選んでいく. クラスタリング 入力と最も従属になるようなラベルを付与する. Song et al. (ICML2007b) Fukumizu et al. (JMLR2004) Song et al. (ICML2007a)

まとめ カーネル・トリックの応用は,アルゴリズムの非線形化から,統計的検定に広がっている. カーネル統計的検定において,ガウシアンの幅はどうやって決めればよいか? 相互共分散作用素は正規化していないため,次元削減やクラスタリングでは相互相関作用素を使うべき? 次元削減では,条件付き相関を使うべき? 理論的に面白く汎用性はあるが,本当に実用的か?