スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~

Slides:



Advertisements
Similar presentations
22 ・ 3 積分形速度式 ◎ 速度式: 微分方程式 ⇒ 濃度を時間の関数として得るためには積分が必要 # 複雑な速度式 数値積分 (コンピューターシミュ レーション) # 単純な場合 解析的な解(積分形速度式) (a)1 次反応 1次の速度式 の積分形 [A] 0 は A の初濃度 (t = 0 の濃度.
Advertisements

データ解析
EXCELで学ぶマーケティング統計 第4章 経営学研究科 M1  真島 健.
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
実証分析の手順 経済データ解析 2011年度.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
電子物性第1 第5回 ー 原子の軌道 ー 電子物性第1スライド5-1 目次 2 はじめに 3 場所の関数φ 4 波動方程式の意味
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
エッジの検出 画像中に表示された物理の輪郭(エッジ(edge))や線では、一般的に濃淡が急激に変化しており、これらは画像中のなんらかの構造を反映していることが多い このようなエッジや線の検出処理は、画像理解や認識のための前処理として重要である   差分型によるエッジ検出   零交差法によるエッジ検出.
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
需要予測システム WebForecastのご紹介
誤差の二乗和の一次導関数 偏微分.
変数選択手法っていろいろあるけど 何を使えばいいの?
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
補章 時系列モデル入門 ー 計量経済学 ー.
計測工学 復習.
ガウス過程による回帰 Gaussian Process Regression GPR
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
相関分析.
エッジの検出 画像中に表示された物理の輪郭(エッジ(edge))や線では、一般的に濃淡が急激に変化しており、これらは画像中のなんらかの構造を反映していることが多い このようなエッジや線の検出処理は、画像理解や認識のための前処理として重要である   差分型によるエッジ検出   零交差法によるエッジ検出.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音高による音色変化に着目した音源同定に関する研究
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
第14章 モデルの結合 修士2年 山川佳洋.
顧客維持に関するモデル.
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
部分的最小二乗回帰 Partial Least Squares Regression PLS
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
第3章 線形回帰モデル 修士1年 山田 孝太郎.
計測工学 計測工学8 最小二乗法3 計測工学の8回目です。 最小二乗法を簡単な一時関数以外の関数に適用する方法を学びます。
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
22・3 積分形速度式 ◎ 速度式: 微分方程式 ⇒ 濃度を時間の関数として得るためには積分が必要
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
22・3 積分形速度式 ◎ 速度式: 微分方程式 ⇒ 濃度を時間の関数として得るためには積分が必要
データ解析 静岡大学工学部 安藤和敏
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
プログラミング論 相関
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
弱電離気体プラズマの解析(LXXVI) スプラインとHigher Order Samplingを用いた 電子エネルギー分布のサンプリング
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~ スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~ 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

スペクトルデータの特徴 波長 (波数) が近いと、吸光度 (強度) の値も似ている ノイズが含まれる 吸光度 (強度) の極大値 (ピーク) 以外のデータも重要

時系列データの特徴 時刻が近いと、プロセス変数の値も似ている ノイズが含まれる プロセス変数の極大値・極小値以外のデータも重要 時間が経つとデータが増える

スペクトル・時系列データ スペクトル・時系列データの特徴は似ている 回帰分析・クラス分類の推定性能を向上させるための データの前処理についても、同様の方法を適用できる

スペクトル・時系列データの前処理 平滑化 (スムージング) スペクトル・時系列データを “均す (ならす)” ことでノイズを低減する やりすぎて極大値・極小値の情報が消えないように注意する 微分 スペクトル・時系列データの傾きを計算することで、 ベースラインを補正する 新しいスペクトル情報を抽出する 時間変化を得る 一次微分、二次微分、三次微分、・・・ 微分するとノイズが大きくなるので注意する

単純移動平均 (スペクトルデータ) ある波長 (波数) の前後 n 点での強度 (吸光度) の平均値を、 平滑化後の値にする 波長ごとに計算する (2n+1) を 窓枠の数 と呼ぶ 端っこの波長については、(2n+1) 点とれないこともある 強度 (吸光度) 平均値 (2n+1) 点:窓枠 波長 (波数)

単純移動平均 (時系列データ) 現在時刻の値を含めて、過去 n 点でのプロセス変数の平均値を、 平滑化後の値にする (予測するときは 前後点 をとれないため) 時刻ごとに計算する n を 窓枠の数 と呼ぶ 初期時刻付近については、n 点とれないこともある プロセス変数 平均値 n 点:窓枠 現在 経過時間

線形加重移動平均 (スペクトルデータ) ある波長 (波数) の前後 n 点での強度 (吸光度) について、 対象の波長から離れるにつれて、線形に重みが小さくなる加重平均の 値を、平滑化後の値にする (2n+1) を 窓枠の数 と呼ぶ ある波長 i における強度を xi とし、平滑化後の値を xS,i とすると、

線形加重移動平均 (時系列データ) 現在時刻の値を含めて、過去 n 点でのプロセス変数の値について、 現在時刻から離れるにつれて、線形に重みが小さくなる加重平均の 値を、平滑化後の値にする (2n+1) を 窓枠の数 と呼ぶ ある時刻 t におけるプロセス変数の値を xt とし、 平滑化後の値を xS,t とすると、

指数加重移動平均 (スペクトルデータ) ある波長 (波数) の前後 n 点での強度 (吸光度) について、 対象の波長から離れるにつれて、指数関数的に重みが小さくなる 加重平均の値を、平滑化後の値にする 波長からある程度離れると、重みはほぼ 0 になるため、 窓枠をある程度大きくしておけば、細かい数字は気にしなくてよい ある波長 i における強度を xi とし、平滑化後の値を xS,i とすると、 α を 平滑化係数 とよぶ

指数加重移動平均 (時系列データ) 現在時刻の値を含めて、過去 n 点でのプロセス変数の値について、 現在時刻から離れるにつれて、指数関数的に重みが小さくなる 加重平均の値を、平滑化後の値にする 波長からある程度離れると、重みはほぼ 0 になるため、 窓枠をある程度大きくしておけば、細かい数字は気にしなくてよい ある時刻 t におけるプロセス変数の値を xt とし、 平滑化後の値を xS,t とすると、 α を 平滑化係数 とよぶ

微分 隣の波長・時刻における値との差分をとることで、一次微分 一次微分の値について、隣の波長・時刻における値との差分を とることで、二次微分 一次微分の値について、隣の波長・時刻における値との差分を とることで、二次微分 ・・・

Savitzky-Golay (SG) 法 [1,2] データの平滑化と微分とを同時に行う方法 窓枠のデータを多項式で近似して、多項式の計算値を 平滑化後の値とする 多項式の微分係数を微分後の値とする 波長や時刻ごとに計算 スペクトル解析の分野における前処理の方法として一般的 時系列データに用いられる例はあまりないが、効果は確認済み [3,4] [1] A. Savitzky, M.J.E. Golay, Anal. Chem. 36, 1627-1639, 1964. [2] 吉村 季織, 高柳 正夫, Journal of Computer Chemistry, Japan, 11, 149-158, 2012 [3] H. Kaneko, K. Funatsu, Ind. Eng. Chem. Res., 54, 12630-12638, 2015. [4] H. Kaneko, K. Funatsu, J. Chem. Eng. Jpn., 50, 422-429, 2017

SG法の例 元のスペクトル SG法後 SG (2次微分) SG (1次微分)

SG法 (スペクトルデータ) x = t の多項式 = a2t2 + a1t + a0 (例) x: 強度 窓枠の数 t : 波長 多項式の次数 窓枠の数 を事前に決めなければならない

SG法 (時系列データ) x = t の多項式 = a2t2 + a1t + a0 (例) x: プロセス 変数 窓枠の数 現在 多項式の次数 窓枠の数 を事前に決めなければならない

手法・ハイパーパラメータ・微分次数はどうする? 4つの手法とハイパーパラメータの値の候補 単純移動平均:窓枠の数 (5, 11, 21, 31, …, 201) 線形加重移動平均:窓枠の数 (5, 11, 21, 31, …, 201) 指数加重移動平均:平滑化係数 (0.01, 0.02, …, 1) SG法: 多項式の次数 (1, 2, 3, 4) 窓枠の数 (5, 11, 21, 31, …, 201) 微分次数 (場合によってはその組み合わせ) をどのように決めるか? ① モデルの検証により選択する ② ノイズの正規分布性により選択する

① モデルの検証による選択 各手法・各ハイパーパラメータの値・各微分係数の値で、 回帰分析・クラス分類のモデルの検証を行い、 最も検証結果のよい組み合わせを選択する たとえば、 クロスバリデーション推定値の r2 が最も大きい組み合わせ バリデーションデータの r2 が最も大きい組み合わせ モデルの検証:http://datachemeng.com/modelvalidation/

① モデルの検証による選択 特徴 メリット モデルの検証の仕方によっては、推定性能の高いモデルを構築できる 手法・ハイパーパラメータの値・微分係数 を選択可能 デメリット 教師ありデータが必要 モデリングを何回も行わなくてはならない (時間がかかる)

② ノイズの正規分布性による選択 平滑化前後の値を引くことで、平滑化によって “均(なら)された” ノイズの値を計算できる 平滑化前後の値を引くことで、平滑化によって “均(なら)された” ノイズの値を計算できる ノイズは正規分布であると仮定すると、平滑化によって減少したノイズの 分布も正規分布に従う必要がある コルモゴロフ–スミルノフ検定などの正規分布性の検定により、ノイズが 正規分布に従う手法・ハイパーパラメータの組み合わせを選択 選択された手法・ハイパーパラメータの組の中で、 標準偏差が最も大きい ( = ノイズが最も減少した) 組を選択 詳しくは下の論文を参照のこと H. Kaneko, K. Funatsu, J. Chem. Eng. Jpn., 50, 422-429, 2017

② ノイズの正規分布性による選択 特徴 メリット 教師データ不要 モデリング不要 (時間がかからない) デメリット 微分次数は選択できない 選択の際、モデルの推定性能は考慮されていない