外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection

Slides:



Advertisements
Similar presentations
橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
統計学入門 4-10章 チーム小樽 担当:いぬき.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
統計解析 第7回 第6章 離散確率分布.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
時空間データからのオブジェクトベース知識発見
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
3章 Analysing averages and frequencies (前半 p )
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
応用数理工学特論 期末発表 西口健太郎 渡邉崇充
相関分析.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
中澤 港 統計学第4回 中澤 港
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
部分的最小二乗回帰 Partial Least Squares Regression PLS
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤 差 誤差 = 測定値 - 真値 ・真値は神様だけが知っている。 ・ばらつきの程度を表す意味が薄い。
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
Number of random matrices
ex-8. 平均と標準偏差 (Excel 実習シリーズ)
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
情報工学Ⅱ (第9回) 月曜4限 担当:北川 晃.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データ分布の特徴 基準化変量 歪度 尖度.
統計現象 高嶋 隆一 6/26/2019.
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

外れ値検出とは? データセットの分布から外れたデータを検出する もちろんデータセットにはばらつきがあるが、ばらつき過ぎていると 考えられるデータを外れ値とする ロバストな方法、時系列データに適した方法、複数の変数を考慮する 方法もある 3σ法 Hampel identifier 平滑化(スムージング)による外れ値検出 データ密度の推定による外れ値 (外れサンプル) 検出

3σ法 ある一つの変数のデータがベクトルで与えられているとき、 その平均値から標準偏差 (σ) の3倍以上離れている値を 外れ値とする ある一つの変数のデータがベクトルで与えられているとき、 その平均値から標準偏差 (σ) の3倍以上離れている値を 外れ値とする 閾値は、平均値±3σ 変数は説明変数 x でも 目的変数 y でも OK データが正規分布に従うことを仮定している

3σ法の例 正規分布に従うデータを乱数で発生させ、意図的に4つの外れ値を 混ぜて、それらを検出できたか確認 正規分布に従うデータを乱数で発生させ、意図的に4つの外れ値を 混ぜて、それらを検出できたか確認 4つの外れ値のうち、2つを検出できた

3σ法の問題点 外れ値を含んだベクトルで、平均や標準偏差が計算され、 平均値や標準偏差が外れ値の影響を受けてしまう 外れ値を含んだベクトルで、平均や標準偏差が計算され、 平均値や標準偏差が外れ値の影響を受けてしまう 下の例では、外れ値の影響を受けて標準偏差が大きくなってしまい、 2つしか外れ値を検出できていない

Hampel Identifier 平均値や標準偏差が外れ値の影響を受ける、という問題を 解決するために開発された手法 平均値や標準偏差が外れ値の影響を受ける、という問題を 解決するために開発された手法 以下のように、平均値と標準偏差をそれぞれロバストな統計量に 置き換える 平均値 → 中央値 標準偏差 → 中央絶対偏差の1.4826倍 1.4826 は、正規分布に従うデータのときに、標準偏差に 等しくなるよう補正するための係数 ロバストについては、こちら http://datachemeng.com/robustmodel/ 閾値は、中央値±3×1.4826×中央絶対偏差 変数は説明変数 x でも 目的変数 y でも OK データが正規分布に従うことを仮定している

Hampel Identifierの例 正規分布の上限・下限付近に閾値がある 4つとも外れ値を検出できた♪

平滑化(スムージング)による外れ値検出 時系列データの外れ値検出で有効な方法 ある一つの変数のデータがベクトルで与えられているとき、 平滑化 (スムージング) を行う 平滑化についてはこちら http://datachemeng.com/preprocessspectratimeseriesdata/ 平滑化する前とした後とで差をとる その差に対して、3σ法や Hampel identifier で外れ値を検出する 平滑化によって、変数の時間変化を考慮した外れ値検出が可能 3σ法より Hampel identifier の方がロバストに外れ値検出できる 変数は説明変数 x でも 目的変数 y でも OK

平滑化(スムージング)による外れ値検出の例 Hampel identifier を用いた例

データ密度による外れ値(外れサンプル)検出 3σ法、Hampel identifier、平滑化(スムージング)による外れ値検出 は 一つの変数に対して外れ値検出をする方法 複数の変数があるときは、一つの変数ずつ外れ値を検出する必要がある これでは、複数の変数を同時に考慮した外れ値検出ができない 複数の変数を同時に用いる方法の一つに、データ密度による 外れ値検出がある 各サンプルのデータ密度を計算して、データ密度の低いサンプルを 検出する 外れ値というか、外れサンプルを検出できる

データ密度の推定方法 k最近傍法(k-Nearest Neighbor, k-NN) One-Class Support Vector Machine (OCSVM) OCSVM についてはこちら https://datachemeng.com/ocsvm/