T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
生物統計学・第3回 全体を眺める(2) 主成分分析
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 第3回 10/11 担当:鈴木智也.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
独立成分分析 (ICA:Independent Component Analysis )
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
再討論 狩野裕 (大阪大学人間科学部).
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
心理学研究の自己点検(6): 心理学研究における 探索的因子分析の基本問題 企画・講演:堀 啓造氏
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
rd-7. 主成分分析 (Rシステムでデータサイエンス演習)
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

T2統計量・Q統計量とは? データに基づいた異常検出・異常診断に用いられる モデルの適用範囲 (Applicability Domain, AD) の設定にも利用できる https://datachemeng.com/applicabilitydomain/ T2統計量・ Q統計量は主成分分析 (Principal Component Analysis, PCA) に基づく https://datachemeng.com/principalcomponentanalysis/ T2統計量は、標準化 (オートスケーリング) した第 m 主成分までの、 原点からの距離の二乗 Q統計量は、第 m 主成分までで表せなかった部分の大きさ

単変量プロセス管理 プロセスの異常検出・制御 何らかの操作 温度 異常 正常 上限管理限界 目標値 下限管理限界 時間 シューハート管理図

2つのプロセス変数の相関が強い場合 時間 赤点は分布から外れているにもかかわらず異常値として検出されない

多変量プロセス管理 プラントでは非常に多くのプロセス変数が測定 一つのプロセス変数の誤アラーム率が 0.01% でも100変数のどれかに 誤アラームがある確率は 約10%! 4変数以上 (4次元以上) のデータの様子は確認できない 多変量プロセス管理 (Multivariate Statistical Process Control, MSPC) 主成分分析 独立成分分析 など

主成分分析(PCA) 主成分分析 (Principal Component Analysis, PCA) 見える化 (可視化) する手法 多変量 (多次元) のデータセットを低次元化する方法 データセットのもつ情報量をなるべく失わないように 元の次元から より低い次元でデータセットを表現 “より低い次元” を2次元にすれば可視化を達成 軸を回転 (+反転) させる 詳しくは、https://datachemeng.com/principalcomponentanalysis/

PCA の例 PCA 第2主成分軸 (t2) を見れば、異常値を検出できそう! 主成分軸がもっと多いときはどうする?

T2統計量 標準化 (各主成分を 標準偏差で 割る) T2統計量 = 原点からの距離の二乗 T. Kourti T, J.F. MacGregor, Chemom. Intell. Lab. Syst., 28, 3–21, 1995. T2統計量 = 原点からの距離の二乗

T2統計量の計算 あるサンプルの T2統計量 ti : 第 i 主成分のスコア σi : 第 i 主成分の標準偏差 m : 考慮する主成分の数 T. Kourti T, J.F. MacGregor, Chemom. Intell. Lab. Syst., 28, 3–21, 1995.

Q統計量:PCAで表現できない部分 1成分まで使用する場合、 Q統計量 = t1軸との距離の二乗 2成分まで使用する場合、 Q統計量 = t1軸, t2軸の平面からの 距離の二乗 t2 ・・・ T. Kourti T, J.F. MacGregor, Chemom. Intell. Lab. Syst., 28, 3–21, 1995.

Q統計量の計算 あるサンプルの Q統計量 n : 変数の数 xi : i 番目の変数の値 xEST,i : PCAによる i 番目の変数の推定値 (第m主成分までで逆写像されたサンプル点の i 番目の変数に対応する値) 逆写像の詳細については https://datachemeng.com/principalcomponentanalysis/ T. Kourti T, J.F. MacGregor, Chemom. Intell. Lab. Syst., 28, 3–21, 1995.

T2統計量・Q統計量の使い方 T2統計量・Q統計量のどちらかが閾値を越えたときに異常値とする 閾値をどう決めるか? 3σ法において正規分布に従うとき±3σ以内に入る確率は 99.7 % である PCAモデルを構築したときのデータセット (すべて正常サンプル) を 用いて、T2統計量 (Q統計量) の小さい順にサンプルを並び替え、 99.7% に対応するサンプルのT2統計量(Q統計量) の値を閾値とする たとえば 1000サンプルあったときは、997番目のサンプルの T2統計量(Q統計量) の値

モデルの適用範囲 (AD) T2統計量・Q統計量のどちらかが閾値を越えたときに モデルの適用範囲外とする モデルの適用範囲についてはこちら https://datachemeng.com/applicabilitydomain/

Q統計量で異常に関与する変数の診断 変数ごとに xi と xEST,i との差をみて、 それが大きい変数が異常に関与している、とする