プロセスデータ解析学2 -単回帰分析- 担当:長谷部伸治 金 尚弘
前回の復習 統計的推定(母集団,標本) 質的変数,量的変数 1変数の統計量 平均,中央値,平方和 分散,標準偏差 2変数の統計量 偏差積和,共分散,相関係数 相関比 ベクトル,行列 四則演算 転置 微分
今日の内容 準備 ベクトル・行列を利用した統計量の表現 中心化,標準化 単回帰分析 回帰係数の求め方 回帰式の評価方法
データの中心化 要素数が N のデータの平均 は要素数が N で全ての要素が1のベクトル 中心化 中心化後の変数の平均は0になる.証明?
データのスケーリング・標準化 平方和Sxx ,偏差積和Sxy スケーリング スケーリング後の変数の標準偏差は1になる.証明? 標準化
回帰分析 回帰分析 データを利用して変数間に成り立つ関係式(回帰式,ソフト センサ,モデル)を推定すること 出力変数(被説明変数) 推定される変数 入力変数(説明変数) 出力変数を推定するために利用する変数 単回帰式 入力変数が1つの回帰式 重回帰式 入力変数が2つ以上の回帰式
蒸留塔の例 測定頻度が低い 測定に時間がかかる 時間 変数 温度 組成
有機物精製プロセス1:背景 製品中の不純物濃度に制約がある スチーム量削減のために,推定制御システムを導入した CV-T4 脱ガス塔 製品塔 CV-F1 CV-P1 CV-P2 製品 CV-T1 CV-T5 CV-F2 DV-F2 原料 CV-T2 CV-T6 MV-F2 DV-T2 DV-T1 CV-T3 CV-T7 DV-F1 CV-T8 DV MV CV P T F :外乱変数 :操作変数 :制御変数 :圧力 :温度 :流量 MV-T1 スチーム スチーム MV-F1
有機物精製プロセス2:結果 運転員による制御 新システムによる制御 200 400 600 800 100.0 36.1 67.5 74.6 不純物濃度の実測値 不純物濃度の推定値 不純物濃度の目標値 スチーム流量(脱ガス塔) プロセス変数 [-] 時間 [h] 200 400 600 800 運転員による制御 新システムによる制御 目標値からの 差 [%] 不純物濃度の標準偏差 [%] スチーム流量1の平均値 [%] スチーム流量2の平均値 [%] 運転員 100.0 新システム 36.1 67.5 74.6 97.2
統計的データ解析による品質予測(ソフトセンサ) (2/2) ソフトセンサがないプロセス 原料 プロセス 製品試験 出荷 ソフトセンサがあるプロセス 試験省略 ソフトセンサ 原料 プロセス 製品試験 出荷 台詞は後で. まず,導入といたしまして,ソフトセンサと呼ばれるものが何かについて簡単にご説明致します. 検量線とは,測定に多くの時間やコストが必要な変数を,容易に測定できる変数から推定するものです.例えば,蒸留塔の製品品質などを,トレイの温度や流量から推定したりします.蒸留塔以外にも,反応プロセスにも使われていますし,半導体や鉄鋼,医薬品プロセスなど,多様な生産プロセスで利用されてきました. 検量線を利用することのメリットの1つとして(アニメ),製品試験を削減できることが挙げられます.製品試験にはコストや環境負荷の大きいものも多いため,これを他の測定値から推定できることは非常に有用です.さらに,(アニメ)検量線を用いてリアルタイムに品質などを推定し,モデル予測制御などの制御システムと組み合わせて利用することで,運転コスト削減や品質改善も可能となります. 制御 ソフトセンサ コントローラ 推定制御
ソフトセンサの作り方 オフライン オンライン 入出力データの準備 推定条件の取得 サンプルの選択 推定値の計算 入力変数の選択 実測値の取得 モデルの構築 データベースと モデルの更新 (必要に応じて) それぞれのステップの目的は何で,どのようなことを行うのか.具体的な手法については,後続のスライドで紹介する. リサイクルもあるし,入れ子もある. モデルの検証 オンラインでの利用
ú û ù ê ë é = x ・ X é y ù ê ú y ê ú y = ê ・ ú ê ú ・ ê ú ê ú ë y û データの準備 日常的な運転データを利用する データ取得の負担が小さい 未知の要因が含まれている可能性が高い データ取得のための実験をする 希望する条件でデータを取得できる どのような実験をすれば良いのかが不明である ú û ù ê ë é = NM N M x ・ 1 2 21 12 11 X é y ù 入力変数の数 1 出力変数 ê ú 入力変数 y ê ú 2 y = ê ・ ú ê ú ・ ê ú ê ú ë y û N サンプル数
ú û ù ê ë é = x ・ X é y ù ê ú y ê ú y = ê ・ ú ê ú ・ ê ú ê ú ë y û サンプルの選択 サンプル選択の方針 不正確な測定値を含むサンプル(行)を除く 推定が必要とされる運転条件以外のサンプルを除く ú û ù ê ë é = NM N M x ・ 1 2 21 12 11 X é y ù 入力変数の数 1 出力変数 ê ú 入力変数 y ê ú 2 y = ê ・ ú ê ú ・ ê ú ê ú ë y û N サンプル数
不正確な測定値を含むサンプルの影響 不正確な測定値を利用するとソフトセンサの精度が低下する 真の入出力関係 黒サンプルのみを 入力変数 出力変数 黒サンプルのみを 利用した時のソフトセンサ 黒と赤のサンプルを 利用した時のソフトセンサ
ú û ù ê ë é = x ・ X 入力変数の選択 変数選択の目的:出力に影響する入力変数のみを選択し, 推定精度を高める 変数選択のアプローチ 組み合わせ最適化問題を解く 変数を順位付けして上位の変数のみを利用する ú û ù ê ë é = NM N M x ・ 1 2 21 12 11 X 出力 変数1 出力 変数2
回帰式の評価の仕方1 視覚的な評価 時系列プロット 予測値-実測値プロット 数値的な評価 予測値と実測値の相関係数 q2 値 2乗平均平方根誤差 (RMSE: Root Mean Square Error) 平均絶対誤差(MAE: Mean Absolute Error) 相対絶対誤差(RAE: Relative Absolute Error)
回帰式の評価の仕方2 時系列プロット 実測値と予測値を時系列でプロット 2つの線が近いほど推定が正しい
回帰式の評価の仕方3 予測値-実測値プロット 予測値を縦軸,実測値を横軸にプロット 対角線上にデータが近いほど推定が正しい
回帰式の評価の仕方4 予測値と実測値(平均) 予測値と実測値の相関係数 q2値
回帰式の評価の仕方5 2乗平均平方根誤差 (RMSE: Root Mean Square Error) 平均絶対誤差(MAE: Mean Absolute Error) 相対絶対誤差(RAE: Relative Absolute Error)
x β ˆ = y Xy X ) ( モデルの構築 入力変数 x から出力変数 y を推定するモデル f (x) を構築す る 生産現場では線形モデル が支配的である Output y Input x x β T ˆ = y Xy X 1 MLR ) ( - おかないとだめ
WS 27 WS 29 ソフトセンサに関するアンケート結果1 モデル構築手法 その他 その他 物理モデル 物理モデル 5% 6% 6% 13% PLS 21% 67% 82% 重回帰分析 統計モデル
モデルの更新 運転条件の変更などで,モデルの更新が必要になることが多 い 測定バイアス・外乱 入力変数 x 出力変数 y 運転条件 の変更
課題 ソフトセンサに関するアンケート結果1 コストパフォーマンスが低い モデルの正確性不足 信頼性の評価 推定精度の劣化 前処理の負担 22% 7% 36% 14% 信頼性の評価 推定精度の劣化 前処理の負担 WS29でも同様の項目が挙げられた.割合は,分類の方法に依存するので,割愛する. モデリングの負担 データ取得の負担
単回帰分析1 単回帰分析では次式のように,出力変数y が入力変数x の定 数倍,定数項 および誤差ε で表現されると仮定する. 誤差の二乗和eが最小になるように,β0とβ1を決定する ただし,
単回帰分析2 この最適化問題の最適解 β*= [β0* β1 *]Tは以下の条件を満たす. 上記の連立方程式を解くことで以下の解が得られる.