近傍保存原理による異常検知 Anomaly Detection with Neighborhood Preservation Principle 井手剛 IBM東京基礎研究所 | 2007/11/07 | IBIS 2007 |

Slides:



Advertisements
Similar presentations
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
Advertisements

1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
動的計画法を用いたアラインメント  小菅孝史.
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疎な相関グラフの学習による 相関異常の検出
10.時系列データの解析 time-series data
9. 主成分分析 Principal Component Analysis (PCA)
生物統計学・第3回 全体を眺める(2) 主成分分析
Bassモデルにおける 最尤法を用いたパラメータ推定
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
Paper from PVLDB vol.7 (To appear in VLDB 2014)
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
プログラムの動作を理解するための技術として
第3章 重回帰分析 ー 計量経済学 ー.
固有空間における コンピュータシステムの障害検知
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
需要の価格弾力性 価格の変化率と需要の変化率の比.
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
脳活動に関するデータ データの種類 データの特徴 脳波・脳磁図・fMRI画像 脳活動とパフォーマンスの関係はきわめて冗長。
プログラム実行履歴を用いたトランザクションファンクション抽出手法
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
動的依存グラフの3-gramを用いた 実行トレースの比較手法
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
Online Decoding of Markov Models under Latency Constraints
ICML2006勉強会 2006年7月29日 局所フィッシャー判別分析 東京工業大学 計算工学専攻 杉山 将.
細胞の形と変形のための データ駆動型解析手法
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
22章以降 化学反応の速度 本章 ◎ 反応速度の定義とその測定方法の概観 ◎ 測定結果 ⇒ 反応速度は速度式という微分方程式で表現
独立成分分析 (ICA:Independent Component Analysis )
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
主成分分析 Principal Component Analysis PCA
分子生物情報学(2) 配列のマルチプルアライメント法
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
不確実データベースからの 負の相関ルールの抽出
バイトコードを単位とするJavaスライスシステムの試作
第4章 社会構造概念はどのように豊穣化されるか
Nightmare at Test Time: Robust Learning by Feature Deletion
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
曲がった時空上の場の理論の熱的な性質と二次元CFT
第16章 動的計画法 アルゴリズムイントロダクション.
構造的類似性を持つ半構造化文書における頻度分析
保守請負時を対象とした 労力見積のためのメトリクスの提案
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ETPB: Extraction of Context from Pedestrians' Behavior
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
ポッツスピン型隠れ変数による画像領域分割
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
スパース構造学習の 異常検知への応用 IBM東京基礎研究所 井手 剛 | 2008/10/30 | IBIS 2008.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
Locally-Weighted Partial Least Squares LWPLS 局所PLS
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
Jan 2015 Speaker: Kazuhiro Inaba
原口和也 高橋隆一 丸岡章 石巻専修大学 理工学部 情報電子工学科
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
1.2 言語処理の諸観点 (1)言語処理の利用分野
アルゴリズム ~すべてのプログラムの基礎~.
Presentation transcript:

近傍保存原理による異常検知 Anomaly Detection with Neighborhood Preservation Principle 井手剛 IBM東京基礎研究所 | 2007/11/07 | IBIS 2007 |

発表の内容 問題設定 近傍保存原理 確率的近傍グラフに基づく異常度の定義 実験結果 まとめ | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

問題設定 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

問題設定 (1/2): 「変化分析」という問題を設定する。「変化検出」の一般化に当たる。 問題設定 (1/2): 「変化分析」という問題を設定する。「変化検出」の一般化に当たる。 data set A data set B … x1 x2 xN … 問題 1 (変化検出): AとBが違うかどうかを言う 問題 2 (変化解析 ): AとBが与えられた時,どの変数が両者の相違に効いているのかを言う | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

問題設定 (2/2): かなり動的で相関の強い時系列データを想定する。 問題設定 (2/2): かなり動的で相関の強い時系列データを想定する。 data set A data set B 典型的応用例 センサー検査(異常センサーを見つける) … x1 x2 xN … 実データでよくある特徴 高度に動的 時系列間の強い相関 異種混合的 教師情報は与えられない | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

? … … 使える既存手法は乏しい 時系列アラインメント (DTWなど) 2標本検定 PCAなどで潜在構造を求めるもの [Berndt 94, Keogh 00, …] ? … … 高度に動的なデータだと重ね合わせても無意味 2標本検定 [Friedman 79, Henze 88, Gretton 07, …] 変化検出には有効 変化分析は困難(属性の同定は簡単でない) PCAなどで潜在構造を求めるもの [Papadimitriou 05, Idé 05, …] ある程度データがおとなしくないと安定した潜在構造を抽出できない  実験参照 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

Key question: そもそも2つのデータの間の何が共通なのか。 こんなにも違うデータを比較する手段などあるのだろうか? 「近傍を信じよ」 (近傍しか信じない) data set A data set B … … | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

近傍保存原理 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

やりたいこと: 各時系列の「異常度」を計算すること data set A data set B variable 異常度 test data reference data t = (time index) t = (time index) | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

相関異常を見つけたい。問題をグラフ比較の問題とみなす。 data set A data set B variable 異常度 test data reference data dissimilarity graph Problem 二つのグラフの相違に,どの頂点が一番効いているだろうか? x1 x2 .. 0.2 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

相違度が満たすべき条件 similarity or correlation | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

以下では、相関係数の大きさを類似度にとり、それから相違度を定義 もっとも単純な選択 物理的なセンサーの場合,通常の相関係数を考えることは合理的 本定式化は相違度の詳細には特に依存しない 時系列 i と j の間の相関係数 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

Key observation: 大局的には何の共通性がなくても,局所的に見ると保存されるものはある data set A グラフの大局的構造は不安定 時系列が高度に動的なため 強く相関している対の結合は比較的安定 高度な動的なデータでも成り立つ data set B test data reference data dissimilarity graph 近傍保存原理 系が普通に動作していれば、強く相関している変数対の「結合の固さ」はほとんど変わらない | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

Our approach (1/2): 相違度グラフを近傍グラフの和に分解し、個々の近傍グラフの「固さ」を評価 k-近傍グラフ test dissimilarity graph graph decomposition Comparison to give anomaly score Evaluation reference | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

Our approach (2/2): 異常度 = 近傍グラフの「固さ」の変化 近傍グラフの「固さ」を評価する 「固さ」の変化が異常を示唆する Comparison to give anomaly score Evaluation | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

(参考) 近傍グラフを構成する手順例(自明) k を決める たとえば1 相違度行列の各列に対し, 相違度最小のものから小さい順にk個えらぶ 相手の番号と相違度を記録する x1 x2 x3 x4 0.2 2 8 4.2 1.3 X3 0.6 X4 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

確率的近傍グラフによる異常度の定義 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

近傍グラフの「固さ」は、ノード間の結合確率 の和として定義できる 近傍グラフの「固さ」は、ノード間の結合確率 の和として定義できる 「固さ」の定義は無数にありえるが、恣意的なものだと値の解釈が難しい。 何かの確率として得られればうれしい。 グラフの辺が、確率的な結合を表していると想像してみる。 : 近傍 j に対する、頂点 i の結合確率 が与えられたとすると、頂点 i まわりの結合の固さは次のように自然に定義できる neighborhood to i | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

対応する近傍グラフの固さの差を異常度として定義する。 異常度スコアの定義 Evaluation of tightness Comparison to give anomaly score * (詳細) データセットが2つあるから,各変数の近傍の定義も2通りある。別のデータを使ったとすると異常度は 最終的なスコアは、二つのスコアの最大値として定義される | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

パープレキシティーを定数に(Hi: エントロピー) は確率的近傍の考えを使って定義できる。 次の問題を解くことで を定める 「与えられた近傍ノード数に対し、平均相違度を最小化せよ」  c.f. Hinton-Roweis 03 平均相違度を最小化 パープレキシティーを定数に(Hi: エントロピー) 規格化条件  近傍ノード数を定数ということ この問題の解: ただし 近傍グラフの辺を「ソフト化」したことに対応 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

Eスコアの諸性質: p値の差として定義されているので解釈が容易 自己結合項 を含めて結合確率を定義することにより、周りとあまり関係なくふらついているような変数の寄与を自動的に割り引くことができる その場合 近傍グラフの固さとしてはほとんどゼロ  したがって(正常なら)固さの差もまたほとんどゼロ が主要な入力パラメター 原理的には k は局所的なクラスターの最小サイズ p値の差としてスコアが定義されているので解釈がしやすい 上下限が存在するので、たとえば 「0.5」という値がどういう意味を持つのかすぐ分かる | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

実験結果 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

実験結果 (1/3): 弱く動的なデータと強く動的なデータを比較する 実験結果 (1/3): 弱く動的なデータと強く動的なデータを比較する Motor Current (N=20) UCRアーカイブで入手可能 (a) すべてが “healthy” (b) 下の二つが “1 broken bar”、残りは“healthy” 相関は強いが、あまり動的でない 実際の機械のセンサーデータ (a) 正常時 (b) センサー配線ミスを含むデータ 3つのセンサーの信号が入れ替わっている 相関が強く高度に動的 (a) … (b) … vs “Machine” (N=61) (a) (b) … … vs | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

実験結果 (2/3): 両者のデータを多次元尺度構成法的に可視化してみる 実験結果 (2/3): 両者のデータを多次元尺度構成法的に可視化してみる Motor Current (a) と (b) の間で、大局的な構造は保たれている 仕込んだ“1 broken bar”を図から見つけるのは容易 このようなデータならPCAや他の時系列予測のような手法でもOK 大局的には何の共通性もない 図を見ても異常センサー(*,×,+)は分からない PCA系の異常検知手法は適用困難 broken bar “Machine” | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

実験結果 (3/3): われわれの異常度は、明瞭に異常センサーを浮き彫りにしている 実験結果 (3/3): われわれの異常度は、明瞭に異常センサーを浮き彫りにしている 実際の機械系の実際のセンサーエラーに対して異常度を計算した 主たるエラーは配線ミス 人の目では見つけるのが困難: センサー自体は生きているため 右図: 異常度の計算例 加速度センサーの3軸が入れ替わっている もっとも検知が難しかった例だが,非常に明瞭に異常センサーを特定している k依存性は、kが小さい限りはあまり重大ではない | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

まとめ | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

まとめ 「変化解析」というタスクを定式化した。 動的なデータの比較のために、近傍保存原理という見方を提案した。 近傍保存原理を確率的近傍グラフで実現する方法を提案した。 The author acknowledges Spiros Papadimitriou and Michail Vlachos (IBM T.J. Watson Research Center) for fruitful discussions. 機械学習研究グループ T-PRIMAL (Tokyo PRobabilistic Inference and MAchine Learning)での議論に感謝します。 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

Backup | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL

定義: エントロピーと平均相違度 i の近傍 | 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL