大規模データの線形識別 Recent Advances of Large-scale Linear Classification

Slides:



Advertisements
Similar presentations
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Advertisements

1. 補間多項式 n 次の多項式 とは、単項式 の 線形結合の事である。 Definitions: ( 区間, 連続関数, abscissas (データ点、格子点、差分点), 多項 式 ) Theorem. (補間多項式の存在と一意性) 各 i = 0, …, n について、 をみたす、次数が高々 n.
オンライン学習 定式化 評価法: Regret など パーセプトロン Passive Aggressive Algorithm ( アルゴリズムと損失の限界の評価) Confidence Weighted Algorithm Pegasos Coordinate Descent バッチ、オンライン、ストリームの.
到着時刻と燃料消費量を同時に最適化する船速・航路計画
Building text features for object image classification
オンライン学習 Prediction Learning and Games Ch2
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
「わかりやすいパターン認識」 第1章:パターン認識とは
セキュアネットワーク符号化構成法に関する研究
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
Accelerated Gradient Methods for Stochastic Optimization and Online Learning (Hu, Kwok and Pan, NIPS2009) 二宮 崇 機械学習勉強会 2010 年 6 月 17 日 1.
AllReduce アルゴリズムによる QR 分解の精度について
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
モード付き並列機械における オンラインスケジューリング
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
雑音重み推定と音声 GMMを用いた雑音除去
多変数関数の積分(6/3~24) 重積分(2重積分) 第6章(§5は除く) 重積分の定義 「連続関数は積分可能」
非線形方程式の近似解 (2分法,はさみうち法,Newton-Raphson法)
3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化
(ラプラス変換の復習) 教科書には相当する章はない
Semi-Supervised QA with Generative Domain-Adaptive Nets
計算量理論輪講 岩間研究室 照山順一.
DMLA 小町守 半教師あり学習 チュートリアル.
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
7-3.高度な木 (平衡木) AVL木 平衡2分木。回転操作に基づくバランス回復機構により平衡を保つ。 B木
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
サポートベクターマシン によるパターン認識
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
決定木とランダムフォレスト 和田 俊和.
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
named by かしまさん(IBM) 読む人:藤巻(NEC)
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
6. ラプラス変換.
訓練データとテストデータが 異なる分布に従う場合の学習
計算量理論輪講 chap5-3 M1 高井唯史.
Data Clustering: A Review
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
Nightmare at Test Time: Robust Learning by Feature Deletion
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Data Clustering: A Review
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
回帰分析(Regression Analysis)
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
パターン認識特論 ADA Boosting.
スパース構造学習の 異常検知への応用 IBM東京基礎研究所 井手 剛 | 2008/10/30 | IBIS 2008.
実験計画法 Design of Experiments (DoE)
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
2008年6月5日 非線形方程式の近似解 2分法,はさみうち法,Newton-Raphson法)
パターン認識特論 ADA Boosting.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Cプログラミング演習 ニュートン法による方程式の求解.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
転移学習 Transfer learning
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
プログラミング論 バイナリーサーチ 1.
Presentation transcript:

大規模データの線形識別 Recent Advances of Large-scale Linear Classification Guo-Xun Yuan, Chia-Hua Ho, and Chih-Jen Lin を中心にまとめた

データの性質 入力データの次元と入力データ数 入力データの各次元を素性とも言う 次元の高い場合はsparse(有効な素性が少ない) 次元が低い場合はdense(多数の素性が有効) 入力データの次元 小 103以下 入力データの次元 大 104以上 入力データ数 小 Mega 新規理論をとりあえず試すtoy data 正解タグ付きテキストコーパスなど (場合によっては画像も) 入力データ数 大 Giga-Tera 計測される数値データ (センサーデータ、市場データ、など) 正解タグなしの生テキストコーパス ストリーム 時系列到着 センサーデータ Twitter、ソーシャルメディアなど

データの性質 次元が大きい(10の4乗以上)の場合は線形識別も非線形識別の精度に大きな差はない。 次元が低いと非線形識別のほうが精度がかなりよい。非線形化すなわち高次元化による特徴抽出能力の改善のため 教師データ(タグ付けデータ)と生データ 教師データが大きければ、それを相手に学習 教師データがなければクラスタリングなど 小さな教師データと多数の生データ(実際は多い) Semi-supervised learning, Active learning などチャレンジング

記法

正則化項:r+損失:ξの最小化 各種の損失関数(右図) 各種の正則化項 ywTx ξL2 ξL1 ξLR ξ(y,w,x)

学習アルゴリズム 以下では種々の学習アルゴリズムについて述べる

双対化 双対問題を解くほうが良いこともある。双対化とは以下の通り:

双対化

比較 Gradient Descentのような低次の手法はupdateは簡単でメモリも少ない。収束が遅く、解は精密ではないが、実は性能に大差ない ニュートン法のような高次の手法は、収束は早いが、updateのコストは高い(例えば、Hessian-1の計算とかLBFGSとか)。また、解空間がスムーズ(2階微分可能)でないといけない。精密な最適化には有効。 exp/logの計算はコストが高いことを忘れないように 並列化する場合はコア間、ノード間の通信のコストも大きいことに注意

Pegasos:Shalev-Schwalz et al. ICML 2007 L2正則化+L1損失のSVM Pegasosの更新は次式の劣微分による 更新の後、wを半径(Cl)-1/2の球にproject 以上を収束するまで繰り返す。

Trust Region Newton Method(TRON):導入 データの次元:nが大きいと▽2f(w)はn×nなのでメモリに置くのも逆行列の計算も大変。 逆行列計算はBFGSなどによる まずlogistic regressionについて するとNewton法は以下のようになる。

[Dij]が対角行列であることの直観的説明 Dは対角行列

xiがsparse  (I+ε)-1はεが小さいと近似計算もできそう。 1次近似なら(I+ε)-1= I-ε したがって、データが高次元Sparseならlogistic regressionはHessianの計算を避けられて、効率よく計算できる。

Trust Region Newton Method(TRON): C. -J Lin et. al. SIAM J Trust Region Newton Method(TRON): C.-J Lin et.al. SIAM J. Optimization 9 (1999) 以下の問題をfの2次の展開qを用いて解く 最適化問題 予め決めた閾値

Trust Region bound Δkの変え方 まだ最適値からは遠いので d         もう最適値に近いので このアイデアは目的関数が凸で微分可能なあたりにポイントがある! d        

Coordinate Descent C.-J. Hsieh, et.al. ICML2008 Target: L1損失- L2正則化のSVM 双対化して解く。下に定義

Coordinate Descent Coordinate Descentは順番に1変数づつ選び、他の変数は固定して最適化。

Coordinate Descent つづき (CD10)のQiiはαiの最適化の中で1回計算すればよいが

L1損失-L2正則化のSVMの Coordinate Descent アルゴリズム

Newton+ Coordinate Descent J. H. Friedman, T. Hastie, and R. Tibshirani, “Regularization paths for generalized linear models via coordinate descent,” Journal of Statistical Software, vol. 33, no. 1, pp. 1–22, 2010.

小さなvはHをpositive保つため導入 最小化する目的関数 f は以下 ただし、L1正則化項(1-norm)のために全体を一度に解けないので、coordinate descentを導入 L1正則化項 小さなvはHをpositive保つため導入

(NCD10)を1変数化してみると以下のようになる

(NCD20)の直観的説明 g2(z) g1(z) z -(w+d)

(NCD20)を各次元に対して行うと最適化問題(NCD10)の1回の繰り返しができる。 直線探索による近似アルゴリズム

メモリに乗り切らないビッグデータの処理に関して ディスクとメモリのデータ転送 学習中にディスクとメモリのデータ転送回数が増えるのはもちろん問題だが ビッグデータを(分割するにしても)メモリに1回転送する時間も膨大 分散環境(地理的な場合も含む)にデータがある場合 分散環境での学習はもっと厄介 あまり公表された成果がない。Googleがちらっとブログで言った程度

オンライン学習による方法 元来が1データ毎の学習なので自然な方法 L1-正則化&L2-損失のSVMは以下の更新式 Coordinate Descentのように双対化して解く 理論的決め方なし 収束速度が遅い ηを決める必要なし

収束の遅さを改善するために高次情報を使う

バッチ学習による方法 ディスクアクセスを減らすために一度のあるまとまりのデータ(=ブロック)を読み込み学習 ブロックBだけではなく、メモリにcacheデータも残す