オンライン学習 定式化 評価法: Regret など パーセプトロン Passive Aggressive Algorithm ( アルゴリズムと損失の限界の評価) Confidence Weighted Algorithm Pegasos Coordinate Descent バッチ、オンライン、ストリームの.

Slides:



Advertisements
Similar presentations
授業展開#12 コンピュータの扱いにくい問 題. 扱いにくい問題  処理時間がかかる。  メモリを大量に必要とする。  プログラムの優劣、アルゴリズムの優劣 を比較するためには、標準的なコン ピュータで比較する必要がある。  処理時間を計るのに、コンピュータのモ デルとして、チューリングマシンを考え、
Advertisements

©2008 Ikuo Tahara探索 状態空間と探索木 基本的な探索アルゴリズム 横形探索と縦形探索 評価関数を利用した探索アルゴリズム 分岐限定法 山登り法 最良優先探索 A ( A* )アルゴリズム.
コンピュータプラクティ スⅠ 比較実験 水野嘉明. 本日の予定 計算量について 「比較実験」  パラメータを変化させての比較 ⇒ 実験1  二つのプログラムの比較 ⇒ 実験2  実験レポート R3として提出 2.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
<最適化の概念> 最適化すべき問 題 数学モデル 変数,数式 数理計画法 定められた計算手 順を用いて解くた めの方法論.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
到着時刻と燃料消費量を同時に最適化する船速・航路計画
オンライン学習 Prediction Learning and Games Ch2
「わかりやすいパターン認識」 第1章:パターン認識とは
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節 主・双対法 pp
ラベル付き区間グラフを列挙するBDDとその応用
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
Pattern Recognition and Machine Learning 1.5 決定理論
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
Accelerated Gradient Methods for Stochastic Optimization and Online Learning (Hu, Kwok and Pan, NIPS2009) 二宮 崇 機械学習勉強会 2010 年 6 月 17 日 1.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
大規模データの線形識別 Recent Advances of Large-scale Linear Classification
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
整数計画法を用いた ペグソリティアの解法 ver. 2.1
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
Probabilistic Method 6-3,4
3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.3 節 Lagrange緩和 pp
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
サポートベクターマシン によるパターン認識
決定木とランダムフォレスト 和田 俊和.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
7.4 Two General Settings D3 杉原堅也.
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
Basic Tools B4  八田 直樹.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
25. Randomized Algorithms
Data Clustering: A Review
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
部分的最小二乗回帰 Partial Least Squares Regression PLS
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Nightmare at Test Time: Robust Learning by Feature Deletion
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
サポートベクターマシン Support Vector Machine SVM
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
データ解析 静岡大学工学部 安藤和敏
パターン認識特論 ADA Boosting.
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
分枝カット法に基づいた線形符号の復号法に関する一考察
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
パターン認識特論 ADA Boosting.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
参考:大きい要素の処理.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

オンライン学習 定式化 評価法: Regret など パーセプトロン Passive Aggressive Algorithm ( アルゴリズムと損失の限界の評価) Confidence Weighted Algorithm Pegasos Coordinate Descent バッチ、オンライン、ストリームの 比較 ビッグデータへの対応

オンライン(あるいは逐次)学習と は  データを1つづつ読み込んで、それまでの学習 結果を更新する。  2 つの利用局面 1. データ全体は保持しているが、学習を 1 データ毎に 行う 2. データが1こずつ時系列としてやってくる  この場合はストリームという。  データ全体をメモリの乗せなくてよいのでマシ ンに必要なメモリ少、あるいはメモリに乗りき らないほど大きなデータから学習可能  1 個のデータからの学習(これを 1round という) だけなら高速

オンライン学習の概観

識別関数 h (t) データ xtxt 正解(実測 あるいは人 手による) ytyt 予測 h (t) (x t ) If 予測 ≠ 正解 then 更新: h (t) →h (t+1) オンライン学習のイメージ

オンライン学習の評価法  仮説 h のなす空間を H, t ラウンドの予測値を h (t) (x t )  累積損失 (最小化し たい):  Mistake( 失敗回数)の upper bound  以後は識別に失敗しなくなるまでの学習回数= 学習データ数

オンライン学習をオンライン凸最適化の観点から定 式化 By Shai Shalev-Shwartz  以下では L (w,(x i, y i )) を fi (w) と略記することに留意。  最も簡単なオンライン学習は、過去の全 round の損失を 最小化するような w を選ぶ方法: Follow-The-Leader(FTL)

Follow-The-Regularized-Leader (FoReL)  FTL ではwに制約がないので、過学習が危ぶま れる。そこで、正則化項 (Regularizer) を加えた ものを最適化( FoReL)

Example of FoReL: Online Gradient Descent: OGD

FoReL の Regret の Upper Bound  Theorem 30

損失 f が連続でない場合 Sub-gradient( 劣勾配)の FoReL  f の凸性が重要

Sub-gradient の場合の FoReL の Regret Bound 問題はこの部分

FoReL の上界を厳しくする まず、 FoReL の別形式を導入する Online Mirror Descent (OMD) という

数学的ツールの準備 Fenchel-Young 不等式

数学的ツールの準備 Bregman Divergence: D R

定理 OMD2

パーセプトロン (Perceptron)  FoReL から導出された Online Gradient Descent の例としてパーセプトロンを紹介する。  パーセプトロンは F. Rosenblatt が 1956 年に提案 した線形識別の繰り返しアルゴリズム  効率がよく、現在でもその価値が高い  入力 x t が目的のクラスに  属する場合に y t =1, 属さない場合に y t = −1  右図 

Perceptron アルゴリズム 分類に失敗し たときだけ そのデータを分類器 W に足 し込むという至って単純な 更新

線形分離可能性  線形分離可能:クラスを識別するする超 平面が存在する場合  そうでない場合を線形分離不可能という。  下図参照 線形分離可能 線形分離不可能 γ :マージ ン

Perceptron アルゴリズムの分析 FoReL の別形式として導入した Online Mirror Descent とみれば、 (OMD20) の上界が使える

Perceptron アルゴリズムの分析

Passive Aggressive Algorithm  K.Crammer et.al. Online Passive-Aggressive Algorithms Journal of Machine Learning Research 7 (2006) 551–585  識別(あるいは分類)の問題設定  round t で n 次元データ が到着  の正負は のように 与えられる  重みベクトル :  正しい(誤った)判定:  w t はデータが到着するたびに更新されている

損失関数による定式化  境界面そのもので判定はきわどいのでマ ージンを持たせる。マージンを 1 とした場 合の損失関数 (hinge-loss function) は以下 の通り  この設定で、 round t の更新は次の条件付き 最適化問題となる。 0 1

FoRe Lとして見ると

最適化問題( PA-1) を解く  If l t =0 then w t minimizes w t+1 =w t  If l t ≠0 then Lagrange 未定乗数法で解く。 Passive Aggressive

Passive Aggressive xtxt Passive xtxt Aggressive

soft margin の学習法 PA-I, PA-II

Passive Aggressive Algorithm

付録: PA-I の導出

付録: PA-II の導出

損失の限界の評価

Proof

 Theorem 2 では次の制約が厳しい。  この制約は、 u で完全な識別ができること。  この制約を外す定理を考える Proof は次ページ

Proof

Proof は次のページ PA-I における入力データ識別の失敗回数の上限

PA-II における累積損失の上限 Proof は次のページ

Confidence Weighted Algorithm Crammer et al. 2008

学習する重みベクトル W を点ではなく分布(正規分布)にす る  W の期待値と分散を更新する

Pegasos : Primal Estimated sub-GrAdientSOlver for SVM  L2 正則化+ L1 損失の SVM  Pegasos の更新は次式による  更新の後、 w を半径 の球に project  以上を収束するまで繰り返す。データ集合 A ご となので、 online というよりは mini-batc h

Pegasos : Primal Estimated sub-GrAdient SOlver for SVM のアルゴリズム

f (w) の評価

Lemma1 を拡張するとさらに強力な次の定理が得られる。 詳細は: Mathematical Programming 127(1), 2011, pp.3-30 Pegasos:primal estimated sub-gradient solver for SVM. Shai Shalev-Schwarts, et.al.

ここの導出は初等的が だちょっとした計算

ここで双対問題を思 いつくところがいか にも SVM 的

強双対定理の実に 賢い使い方だ

Coordinate Descent C.-J. Hsieh, et.al. ICML2008  Target: L1 損失 - L2 正則化の SVM 双対化 して解く。下に定義

Coordinate Descent  Coordinate Descent は順番に 1 変数づつ選 び、他の変数は固定して最適化。

Coordinate Descent つづき  (CD10) の Q ii は α i の最適化の中で 1 回計算すれ ばよいが 

L1 損失 -L2 正則化の SVM の Coordinate Descent アルゴリズ ム

オンライン学習とストリーム学習 学習正解との比較 モデル1データづつ 到着データのモ デル学習 と分類などの結 果 学習結果 1データづ つ モデル データ 発生 オンライン学習 ストリーム学 習

バッチ、オンライン、ストリームの比 較 バッチ学習オンライン学習ストリーム学習 メモリに乗せるデー タ 同時に全部同時には 1 デー タ メモリ量大小でも可能小 データの到来全データが揃って から処理 1 データ到着ごとに処 理 データの消去消去せず データは処理後に消 去 同一データの処理 回数 収束するまで繰り 返し 1回1回 メモリに保持する モノ 全データと途中に 内部状態 内部状態のみで も可能 内部状態のみ 性能精度高バッチより劣る。 ただし、最近は バッチに肉迫 劣る 可能な処理何でもありやや制限あり限定的

捕捉:世の中、ビッグデータがホットだと言う けれど ? ? ? ? ? ? 異なる分類のデータ ? ? ? ? 分類されていない生のデータ

パーセプトロンの別のアルゴリズ ム という識別に失敗したデー タに、その値を重み(学習率と呼ぶ) η で w に足しこんで是正 を図るアルゴリズム この部分が線形識別

パーセプトロンは有限回で収束  mistake の upper bound Novikoff の定理 ( バイアスのない場合 )

証明

メモリ容量より大きなデータの SVM Hsiang-Fu Yu et.al KDD2010 主問題の場合は Pegasos, 双対問題の場合は Coordinate Descent (CD)をブロックごとに適 用 ここが重要

主問題を Pegasos で解く場合の 6. の部 分

双対問題で Coordinate Descent (CD)を使う 場合

双対化の御利益: 教師データアクセスの観点か ら  主問題と双対問題は最適化するパラメタ -数が違う。  主問題パラメタ-数 >> 双対問題パラメタ-数 なら双対問題を解くほうが楽  教科書的  SVM の場合:  主問題のパラメタ-は重みベクトル :w  双対問題にパラメタ-は個別データ :x i  必ずしも教科書的なお得感ではない。

双対化の御利益  SVM の場合:  主問題のパラメタ-は重みベクトル :w  下の定式化なので、全教師データ {t n,x n } が同 時に必要  データ量が大きくメモリにロード仕切れ ない場合に困ったことになる。  データ量は最近、増加傾向

双対化の御利益  必ずしも教科書的なお得感ではない。  一方、双対問題では入力データ x i t i のと最適化する a i が対 応する形で最適化式に現れるので、どのデータを学習で 使うか制御しやすい。(下の式参照)  例えば、 a i (i≠j) を固定して、 a j を最適化する操作を j を動かして 繰り返すなど。そのときには だけしか使わな い。

双対化の御利益  入力データ、あるいはカーネル行 列全体がメモリに乗り切らないビ ッグデータを扱うために、入力( すなわちカーネル k ( x n, x m ) の一部 を取捨選択してメモリにロードし て使う方法が、この双対化で可能 になっている。  ビッグデータ時代における御利 益  cf. 台湾大学の LIBSVM ( SVM の実装)  全データからどのようにメモリにロードす る部分を切り出すかについてはここで紹介 した通り。 k ( x n, x m ) M N この部分だけ 使って最適化: 次に使う部分 ロードし直して 最適化:繰り返 す

内外のバランス など  内側の繰り返しで最適化でCDにおいて α の更新を 1 回にし、 loose な解を求めると、 外側の繰り返しが多数回必要  内側の繰り返しで精密な最適化を行えば 、外側の繰り返しは少なくてよい。  Bj{j=1,..,m} 内の要素の最適化処理におけ る順番は外側の繰り返し毎にランダムに 変更した方が収束が早い

小さなブロックに分けてデータマイニング、機 械学習 ? ? ? ? ? ? ブロックをメモリに順次ロードして学習し、その結 果を活用して次のブロックへ と繰り返す: 例えば Stream SVM

転移学習 ? ? ? ? ? ? 異なる分類のデータ ? ? ? ? 分類されていない生のデータ この分類での学習 の結果を別のグ ループに転移して 有効利用

人間に正解をつけてもらうデータを絞り込む: Active 学習 ? ? ? ? ? ? 異なる分類のデータ ? ? ? ? 分類されていない生のデータ 分類しにくい 部分のデータ

付録: Duality による FoReL の定式 化

Online Mirror Descent:OMD

パーセプトロンの別のアルゴリズ ム という識別に失敗したデー タに、その値を重み(学習率と呼ぶ) η で w に足しこんで是正 を図るアルゴリズム この部分が線形識別

w(k) w(k+1)

パーセプトロンは有限回で収束  mistake の upper bound Novikoff の定理(バイアスのある場 合)

証明

証明 つづき