講義1:カーネル法 産業技術総合研究所 津田宏治.

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
「わかりやすいパターン認識」 第1章:パターン認識とは
第八回  シンプレックス表の経済的解釈 山梨大学.
9. 主成分分析 Principal Component Analysis (PCA)
Pattern Recognition and Machine Learning 1.5 決定理論
第三回 線形計画法の解法(1) 標準最大値問題 山梨大学.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
回帰分析.
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
第 七 回 双対問題とその解法 山梨大学.
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
細胞の形と変形のための データ駆動型解析手法
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
訓練データとテストデータが 異なる分布に従う場合の学習
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
独立成分分析 (ICA:Independent Component Analysis )
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
Data Clustering: A Review
Black Litterman Modelによる最適化
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Number of random matrices
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
京都大学 化学研究所 バイオインフォマティクスセンター
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
データ解析 静岡大学工学部 安藤和敏
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
パターン認識特論 ADA Boosting.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
Locally-Weighted Partial Least Squares LWPLS 局所PLS
パターン認識特論 ADA Boosting.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

講義1:カーネル法 産業技術総合研究所 津田宏治

産業技術総合研究所(産総研) 産業技術分野におけるさまざまな研究開発を総合的に行う経済産業省所管の研究組織である。「ライフサイエンス」「情報・通信」「環境・エネルギー」「ナノテク・材料・製造」「地質・海洋」「標準・計測」の6分野を主軸に、日本の産業のほぼ全分野を網羅している。 陣容は、研究職を中心とする常勤職員約2500名、事務系職員約700名に加え、企業・大学・外部研究機関等から約5200人の外来研究者を受け入れている。(Wikipedia)

生命情報工学研究センター 東京、お台場 生命情報工学研究センターでは、ゲノム情報、生体高分子の構造と機能、細胞内ネットワークを工学的な観点から総合的に解析し、個別技術の統合による実用的、応用志向の研究開発により産業技術に貢献することを目標とします。 生物学データを処理する技術を開発中

津田宏治:経歴 1998 京大で博士号取得、旧電子技術総合研究所入所 2000 ドイツGMD FIRSTで在外研究 2001 産総研CBRCに配属 2003-2004, 2006-2008 ドイツ・マックスプランク研究所で研究 2010 ERATO湊プロジェクトチームリーダ 2011 北海道大学 客員教授

講義の構成 パターン認識 カーネル法の紹介 最適化理論の復習 サポートベクターマシン

パターン認識 対象を識別するルールを訓練データより、自動的に取得する 二クラス分類:識別関数 f(x) 訓練データ テストデータ:X 二クラス分類:識別関数 f(x) 訓練データ テストデータ:X Negative Positive

ベクトル表現 各対象を、同次元のベクトルで表現する 識別関数は、特徴空間上に定義される Feature Space

線形 vs 非線形 Feature Space 線形識別 非線形識別 計算が簡単、多くのデータに適用 精度が高い

非線形識別を線形識別器を用いて行う 元の空間(入力空間)を、非線形に写像 し、写像先(特徴空間)で線形識別 元の空間(入力空間)を、非線形に写像             し、写像先(特徴空間)で線形識別 どのように写像を定めるかは難しい問題

カーネル法 どのように写像を定めるかは難しい問題 写像を類似度関数(カーネル関数)に基づいて決める 例:ガウシアンカーネル

カーネルと射影の関係 カーネル関数が「正定値」なら、             が成り立つような 写像   が存在

カーネルトリック 特徴空間における重要な量が、写像を計算することなく求められる 例:ユークリッド距離

カーネル法のポイント 写像を陽に求めなくても、写像先の内積にアクセスできる 線形識別法のうち、計算がサンプル間の内積にしか依存しないものは、「カーネル化」できる 例:サポートベクターマシン、カーネル主成分分析、カーネル正準相関分析、カーネルFisher判別分析

正定値カーネル 正定値カーネル W:集合. k(x,y) がW上の正定値カーネルであるとは,次の2つを満たすことをいう 1. (対称性)   k(x,y) = k(y,x) 2.(正定値性) 任意の自然数 n と,任意のW の点 x1, …, xn に対し,           が(半)正定値.すなわち,任意の実数 c1,…, cn に対し, 対称行列 のことを,グラム行列と呼ぶ n×n 行列

正定値カーネルの例 s > 0 多項式カーネル ガウスカーネル(RBFカーネル) Fourierカーネル(複素数値) ( d:自然数,   ) s > 0

例:多項式カーネル 二次元空間上の正定値カーネル k(x,y) = (xTy )2 = (x1y1 + x2y2)2 対応する写像 :2次元から、3次元へ

様々な構造データへの応用 カーネル法では、類似度さえ定義できればどのような対象にでも適用できる 例:生物学的ネットワーク上のタンパク質の分類

様々なカーネル 生物学的配列のカーネル 木構造に関するカーネル Spectrum kernel (Leslie et al., 2002) Marginalized kernel (Tsuda et al., 2002) Profile kernel (Kuang et al., 2004) Local alignment kernel (Saigo et al., 2004) 木構造に関するカーネル Kernel for phylogenetic profiles (Vert, 2002) Kernel for natural language (Suzuki et al., 2003) Kernel for RNA sequences (Kin et al., 2002) Kernel Methods in Computational Biology, MIT Press, 2004

様々なカーネル ネットワーク上のノード間のカーネル グラフカーネル Diffusion kernel (Leslie et al., 2002) Locally constrained diffusion kernel (Tsuda and Noble, 2004) グラフカーネル Marginalized Graph Kernels (Kashima et al., 2003) MGK without tottering (Mahe et al., 2004) Acyclic Pattern Kernels (Horvath et al., 2004)

最適化理論の復習

条件なし最適化 ある関数fが与えられたとき、それが最小値を取る点を見つけ出す 微分をとって0になる点を見つければいい

条件あり最適化 条件を満たすもので、fを最小にする点 ラグランジュ未定係数法:係数λを導入して次の関数を考える

ラグランジュ未定乗数法 ラグランジュ関数を、xに対して最小化し、λに対して最大化すると、制約付き問題の最適解が得られる(鞍点)

双対問題 ラグランジュ関数が、xに関して解ける場合 鞍点発見問題は次のような最適化問題(双対問題)になる

Duality Gap 主問題は最小化、双対問題は最大化 最適解において、主問題と、双対問題の目的関数の値は一致する 主問題 双対問題 最適化の進行

サポートベクターマシン チュートリアル

サポートベクターマシン(SVM) ベクトル空間上での線形識別器 カーネルトリックを行うことによって、非線形に拡張 :重みパラメータ :バイアス

線形識別器の学習 訓練サンプルの誤分類数を減らすようにパラメータを決める

SVMの学習の考え方 訓練サンプルを完全に識別する超平面は無数にある この中で、未知のテストサンプルの識別に優れているのは?    二つのクラスの「真ん中」を通るもの 正則化理論・VC理論による正当化

学習方法(マージン最大化) 超平面と訓練サンプルとの最小距離を評価関数として,これを最大にするように超平面を決定する 評価関数の値を大きくすれば,二つのクラスへの距離が自動的にバランスされ,ほぼ真ん中に超平面が位置する

サポートベクター 超平面との最小距離に対応するサンプルは,一つではない. これらのサンプルは,超平面の周辺に位置し,超平面を「サポート」 =サポートベクター

学習法の定式化(1) 学習サンプル クラスラベル 学習の目的は、パラメータ を決定すること 学習サンプルを完全に識別する超平面があると仮定 学習の目的は、パラメータ    を決定すること 学習サンプルを完全に識別する超平面があると仮定 正規化:パラメータを定数倍しても超平面は不変 このようにすると最小距離は クラスAなら1,クラスBなら-1

学習法の定式化(2) 訓練サンプルとの最小距離を最大化するには、次の最適化問題を解けば良い 目的関数 制約条件  目的関数  制約条件 制約条件により,訓練サンプルはすべて正しく分類される. 最適解は,正規化条件を満たす. 最小化

学習法の定式化(3) 制約つきの問題をラグランジュの乗数法で解く 最適解においては、 これから、次のような関係が導かれる

学習法の定式化(4) これらの関係を代入して、双対問題を得る 目的関数 制約条件 ポイント:Xの内積のみで記述される 最大化

カーネル関数との組み合わせ 写像先の空間での識別関数 ここで、           より

学習問題のカーネル化 内積をカーネルに入れ替えて、以下の問題を得る 目的関数 制約条件 最大化

ソフトマージン これまでは、訓練サンプルが超平面で完全に識別できることを仮定 そうでない場合には、制約条件を満たす超平面が存在しないので、解なし 制約条件を緩める=ソフトマージン

ソフトマージン スラック変数を導入し、制約条件を以下のように変更する 最適化においては、次の目的関数を最小化 Cは、どこまで制約条件を緩めるかを指定するパラメータであり、設定は実験的に行われる

ソフトマージンの双対問題 目的関数 制約条件

サポートベクターマシンの理論 なぜ、超平面を「真ん中」に置けば、誤識別率が最小になることが期待できるのか? PAC学習の枠組みに沿って説明

期待リスクと経験リスク 損失関数 期待リスク(テストサンプルに対する誤識別率) 経験リスク(訓練サンプルに対する誤識別率) 学習の目的は、期待リスクを最小化するfを求めることだが、我々は経験リスクしかしらないので、これを最小化するしかない=「経験リスク最小化」

リスクの差 経験的リスク最小化での学習結果は、母関数集合 に影響される 期待リスクを最小にするような の選び方は? 経験的リスク最小化での学習結果は、母関数集合  に影響される 期待リスクを最小にするような  の選び方は? 一つの手掛かりとなるのは、リスクの差の上限

一般化バウンド   に対応する損失関数の集合  のVC次元を  とすると、次の不等式は、    以上の確率で成立する ここで、

一般化バウンドの意味 が大きな集合の場合、損失関数の集合のVC次元は増加し、リスク差の上限は、大きくなる   が大きな集合の場合、損失関数の集合のVC次元は増加し、リスク差の上限は、大きくなる リスクの差の上限を小さく抑えるには、  を小さな集合にすればいい

構造的リスク最小化 構造:入れ子になった関数集合の族 どれを選んで、経験リスク最小化を行えば、最も期待リスクを小さくできるのか?

関数集合の大きさによる トレードオフ 期待リスク=経験リスク+リスクの差 関数集合大:経験リスク小、リスクの差大 関数集合小:経験リスク大、リスクの差小

SVMと構造的リスク最小化 SVMで用いられている構造 SVMでは、訓練サンプルを完全識別する関数の中で、最も の小さいものを選んでいる SVMでは、訓練サンプルを完全識別する関数の中で、最も    の小さいものを選んでいる 経験リスクを0にするものの中で、最も小さい関数集合を選んでいる これにより、リスクの差を小さくし、結果的に、期待リスクを小さくできる

構造的リスク最小化の理論の特徴 サンプルの従っている分布 に何の仮定も置かない (Distribution Free) リスクの差の上限に関わるわずかな手がかりから手法を構築

次元数の呪いについて パラメータの次元数が大きくなると、少数の訓練サンプルから、精度よくパラメータ推定することが難しくなる現象 カーネルトリックによって、パラメータ数は大幅に増加するので、次元数の呪いに陥る可能性がある PAC学習の立場からは、このような心配はない リスクの差は、パラメータ数ではなく、パラメータベクトルのノルムによって左右される

SVMのまとめ SVMはマージン最大化に基づく線形識別器 カーネル関数と組み合わせることによって非線形な識別も可能 サンプル間の類似度にしか依存しない 非ベクトルデータの分類も可能

PCAとカーネルPCA 主成分分析(PCA, 復習) m 次元データ X1, …, XN 主成分分析 ・・・ 分散が最大になる方向(部分空間)にデータを射影 単位ベクトル a 方向の分散: V の固有ベクトル u1, u2, …, um (ノルム1) 固有値( l1 ≧ l2 ≧ … ≧ lm ) 第 p 主成分の軸 = up データ Xj の第 p 主成分 =  分散共分散行列 (中心化)

カーネルPCA(Schölkopf et al 98) データ X1, …, XN              特徴ベクトル f1, …, fN 特徴空間での単位ベクトル h 方向の分散 =   としてよい (∵ 直交する方向は分散に寄与しない) 主成分は カーネル k を設定 ただし (中心化) 分散 ただし 制約条件

カーネルPCAのアルゴリズム 分散最大の方向 = の最大固有値の固有ベクトル方向 の固有値分解 第 p 主成分を与える a : ただし 分散最大の方向 =    の最大固有値の固有ベクトル方向   の固有値分解 第 p 主成分を与える a :  ただし 1N = (1,…,1)T ゆえ データ Xj の第 p 主成分 = 

カーネルPCAの実験例 ‘Wine’ データ(UCI Machine Learning Repository) 13次元,178データ,3種類のワインの属性データ 2つの主成分を取った(3クラスの色は参考に付けたもの) PCA(線形) KPCA(RBF,s = 3)

KPCA(RBF,s = 2) KPCA(RBF,s = 4) KPCA(RBF,s = 5)

カーネルPCAの特徴 非線形な方向でのデータのばらつきが扱える. 結果はカーネルの選び方に依存するので,解釈には注意が必要 ガウスカーネルの分散パラメータなど どうやって選ぶか?  必ずしも明確でない 前処理として使える 後の処理の結果を改良するための非線形特徴抽出

カーネルCCA 正準相関分析(CCA, 復習) CCA ・・・ 2種類の多次元データの相関を探る m 次元データ X1, …, XN n 次元データ  Y1, …, YN X を a 方向,Y を b 方向に射影したときに相関が大きくなる (a,b) を求める 正準相関 ただし など a b X Y aTX bTY

カーネルCCA(Akaho 2001, Bach and Jordan 2002) データ X1, …, XN              特徴ベクトル fX1, …, fXN Y1, …, YN fY1, …, fYN カーネルCCA: 特徴空間での相関を最大化する射影方向 f, g を求める カーネル kX , kY を設定 カーネルPCA同様 としてよい.

まとめ カーネルによる非線形化 非線形アルゴリズムの特徴 線形データ解析アルゴリズムを特徴空間で行うことによって 非線形アルゴリズムが得られる → カーネル化(kernelization) 「内積」を使って表される線形手法なら拡張が可能 射影,相関,分散共分散,etc 例: サポートベクターマシン,スプライン平滑化,カーネルPCA,    カーネルCCA,など 非線形アルゴリズムの特徴 線形ではとらえられない性質が調べられる. とらえることのできる非線形性はカーネルの選び方に影響を受ける