第6章 カーネル法 修士2年 藤井 敬士.

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
0章 数学基礎.
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
プログラミング論 I 補間
Pattern Recognition and Machine Learning 1.5 決定理論
第三回 線形計画法の解法(1) 標準最大値問題 山梨大学.
Extremal Combinatorics 14.1 ~ 14.2
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
第12章 連続潜在変数 修士 1年 村下 昇平.
第4章 線形識別モデル 修士2年 松村草也.
ガウス過程による回帰 Gaussian Process Regression GPR
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
第6章 連立方程式モデル ー 計量経済学 ー.
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
第14章 モデルの結合 修士2年 山川佳洋.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
ルンゲクッタ法 となる微分方程式の解を数値的に解く方法.
主成分分析 Principal Component Analysis PCA
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
様々な情報源(4章).
部分的最小二乗回帰 Partial Least Squares Regression PLS
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
サポートベクターマシン Support Vector Machine SVM
回帰分析(Regression Analysis)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ポッツスピン型隠れ変数による画像領域分割
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

第6章 カーネル法 修士2年 藤井 敬士

カーネル法とは カーネル関数を用いたデータ解析手法 カーネル関数とは,二つの入力x=(x1,...,xd), x’=(x’1,...,x’d)から計算される関数k(x,x’). 直観的には, k(x,x’)はxとx’の近さのようなものである 不変カーネル と均一カーネル(RBF)  の意味は, に対し, また,βは適当に決めるパラメータである よく使われるカーネル関数の例

カーネル法とは xに対して関数 を当てはめ,二乗誤差 を最小化するαを求める. 二乗誤差の総和は ここで, この解は,Kが正則ならば                    を最小化するαを求める.  二乗誤差の総和は ここで, この解は,Kが正則ならば  任意のx,x’について             が成り立つのでKは対称行列  すなわち,KT=Kだから,(KTK)-1KT=(K2)-1K=K-1よって,

カーネル法とは 推定結果 を最小化する より, 正則化 ※正則化パラメータλの取り方には任意性が残る 過学習による誤推定 λ=0.01の場合の関数 を最小化する 正則化項 より, ※正則化パラメータλの取り方には任意性が残る λが小さいと不安定な解,λが大きいとα=0に近づく

カーネル法を用いることの利点 サンプルの増加と共にどんどん複雑に出来る 線形性と非線形性を両方持つ 高次元・非数値データへの適用 (正則化パラメータを適当に取ると)複雑な関数を表現することが出来る. 線形性と非線形性を両方持つ          より,決めるべきパラメータαについては線形性を持つが,入力データについては非線形な関数を表現できる. 高次元・非数値データへの適用 カーネル関数の中身は1次元の実数に限らず,高次元,文字列,グラフ構造などについても同様に扱うことが出来る. カーネル関数のモジュール化 最適解αは行列Kのみに依存し,カーネル関数がどんなものであるかは関係ない.つまり,カーネル関数を計算する部分とそれ以降の処理を分割できる.

双対表現 パラメータベクトルwを直接扱う代わりに,最小二乗法のアルゴリズムをパラメータベクトルaで表現しなおすこと. この表現によって,カーネル関数が見える形になる.                   のような正則化された二乗和誤差の最小 化を考える(λ≧0とする). J(w)のwについての勾配を零とおくと, すなわち,係数がwの関数であるようなφ(xn)の線形結合となる.ここ で,φは,n番目の行がφ(xn)Tで与えられるような計画行列.また,                 としてa=(a1,…,aN)とする.

双対表現 w=ΦTaをJ(w)に代入すると, ここで,t=(t1,…tn)とする. 次に,N×Nの対称行列で,その要素が  で表されるグラム行列K=ΦΦTを定義する(           )と, wを消去してaについて解くと, これを線形回帰モデルに代入し直すことによって,新たなxに対する予測は以下のように与えられる. カーネル関数のみで表現可能 双対:φ(x)の要素の線形結合によってaが表現できることから,パラメータベクトルwを用いたもともとの定式化を復元できる. 特徴ベクトルφ(x)を明示的に考えなくても,カーネル関数で表現できる

双対表現 双対表現 においては,N×N行列の逆行列を求めることでパラメータaが得られる. もともとの表現においては,M×M行列の逆行列を求めればよかった. 通常はN>>M.しかし,双対表現を用いることで特徴ベクトルφ(x)を明示的に考えずに,高次元や無限次元の特徴空間を間接的に扱うことが出来る. 回帰のための確率的な線形モデルとガウス過程の双対性 サポートベクトルマシンとの関連性(7章)

カーネル関数の構成 カーネル置換を行う=有効なカーネル関数を構成する必要 カーネル関数は以下のように定義されている. φi(x)は基底関数 カーネル関数を直接定義する. カーネル関数は以下のように定義されている.                          φi(x)は基底関数 

カーネル関数の構成 次の例で考える. 2次元の入力空間 を考えて,上式を展開 特徴空間への写像は の形を持ち,すべての2次の項を含む. 次の例で考える.        2次元の入力空間         を考えて,上式を展開 特徴空間への写像は               の形を持ち,すべての2次の項を含む. 関数k(x,x’)が有効なカーネル ⇔任意の{xn}に対して,要素がk(xn,xm)で与えられるグラム行列Kが半正定値であること.

新たなカーネル関数の構成法 k1(x,x’)と k2(x,x’)が有効なカーネルであるとき,下の関数もカーネル関数として有効である. c>0は定数 f(・)は任意の関数 q(・)は非負の係数を持つ多項式 φ(x)はxからRMへの関数 k3(・,・)はRMで定義された有効なカーネル Aは対称な半正定値行列 xaとxbはx=(xa,xb)であるような変数 kaとkbはそれぞれの特徴空間において有効なカーネル関数

カーネル関数の例 ガウスカーネル 生成モデルに基づくカーネル 配列XとX’の類似度を測るカーネル フィッシャーカーネル シグモイドカーネル

RBFネットワーク 線形基底関数モデル(3章)では,基底関数の形を考えていなかった.→RBF(動径基底関数:radial basis function)が良く使われる. もともとは,関数補間(目的変数の値を正確に表現できる関数を求めること)のために導入された.  入力変数にノイズが含まれる場合の補間にも使われる 入力変数xに含まれるノイズが,確率分布ν(ξ)に従う確率変数ξによって表されるとき 変分法を用いて以下のように最適化でき,RBFも求められる Nadaraya-Watsonモデル

RBFネットワーク 3層から構成されるニューラルネットワーク 最小二乗法によって関数の最良近似法を導くことができる =安定した学習が可能  =安定した学習が可能 ガウス関数を基底関数として用いることが多い

RBFネットワーク ネットワーク構造の中間層にさまざまなRBFを使用 出力層は中間層出力の多重和

RBFネットワーク デモ

Nadaraya-Watsonモデル 訓練集合を{xn,tn}として,同時分布p(x,t)を推定するために,Parzen推定法を用いる.f(x,t)は密度関数の要素. 回帰関数y(x)は,目標変数の条件付き期待値 Nadaraya-Watsonモデル(カーネル回帰) データ点xに近いデータ点xnほど大きな重みを与えることが出来る

ガウス過程 関数y(x)の上の確率分布として定義され,任意の点集合x1,…xNに対するy(x)の値の同時分布がガウス分布に従うもの 線形回帰モデルだけでは訓練データを増やせば増やすほど予測がほぼ期待値に一致してしまう.しかし,一般化されたガウス過程のモデルを導入すると,訓練データに近いところでは分散が小さく,離れるごとに分散が大きくなるモデルとなる.