プロセスデータ解析学2 -単回帰分析- 担当:長谷部伸治     金 尚弘.

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
グラフィカル多変量解析 ----目で見る共分散構造分析----
データ解析
データ分析入門(12) 第12章 単回帰分析 廣野元久.
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
Excelによる統計分析のための ワークシート開発
重回帰分析入門 経済データ解析 2009年度.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
重回帰分析入門 経済データ解析 2011年度.
Bias2 - Variance - Noise 分解
回帰分析.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第5章 回帰分析入門 統計学 2006年度.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
地理情報システム論演習 地理情報システム論演習
離婚が出生数に与える影響 -都道府県データを用いた計量分析
補章 時系列モデル入門 ー 計量経済学 ー.
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
データ解析 静岡大学工学部 安藤和敏
市場規模の予測.
第6章 連立方程式モデル ー 計量経済学 ー.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
プロセス制御工学 7.多変数プロセスの制御 京都大学  加納 学.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
最小自乗法.
主成分分析 Principal Component Analysis PCA
市場規模の予測.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
Black Litterman Modelによる最適化
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
4. システムの安定性.
第7章 単回帰で「消費関数」を計測する 1.所得の定義 1.1 国民純生産 国内総生産(GDP) ⇔ 所得
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
標準時間の設定と生産性改善 日本能率協会セミナー 目標 6時間 期間 3ヶ月 講師 MEマネジメントサービス編
データ解析 静岡大学工学部 安藤和敏
回帰分析(Regression Analysis)
データ解析 静岡大学工学部 安藤和敏
実習 実験の目的 現行と目標値の具体的数値を記す。 数値がわからなければ設定する。.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 経済データ解析 2008年度.
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
重回帰分析入門 (第5章補足) 統計学 2007年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析入門 経済データ解析 2011年度.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

プロセスデータ解析学2 -単回帰分析- 担当:長谷部伸治     金 尚弘

前回の復習 統計的推定(母集団,標本) 質的変数,量的変数 1変数の統計量 平均,中央値,平方和 分散,標準偏差 2変数の統計量 偏差積和,共分散,相関係数 相関比 ベクトル,行列 四則演算 転置 微分

今日の内容 準備 ベクトル・行列を利用した統計量の表現 中心化,標準化 単回帰分析 回帰係数の求め方 回帰式の評価方法

データの中心化 要素数が N のデータの平均 は要素数が N で全ての要素が1のベクトル 中心化 中心化後の変数の平均は0になる.証明?

データのスケーリング・標準化 平方和Sxx ,偏差積和Sxy スケーリング スケーリング後の変数の標準偏差は1になる.証明? 標準化

回帰分析 回帰分析 データを利用して変数間に成り立つ関係式(回帰式,ソフト センサ,モデル)を推定すること 出力変数(被説明変数) 推定される変数 入力変数(説明変数) 出力変数を推定するために利用する変数 単回帰式 入力変数が1つの回帰式 重回帰式 入力変数が2つ以上の回帰式

蒸留塔の例 測定頻度が低い 測定に時間がかかる 時間 変数 温度 組成

有機物精製プロセス1:背景 製品中の不純物濃度に制約がある スチーム量削減のために,推定制御システムを導入した CV-T4 脱ガス塔 製品塔 CV-F1 CV-P1 CV-P2 製品 CV-T1 CV-T5 CV-F2 DV-F2 原料 CV-T2 CV-T6 MV-F2 DV-T2 DV-T1 CV-T3 CV-T7 DV-F1 CV-T8 DV MV CV P T F :外乱変数 :操作変数 :制御変数 :圧力 :温度 :流量 MV-T1 スチーム スチーム MV-F1

有機物精製プロセス2:結果 運転員による制御 新システムによる制御 200 400 600 800 100.0 36.1 67.5 74.6 不純物濃度の実測値 不純物濃度の推定値 不純物濃度の目標値 スチーム流量(脱ガス塔) プロセス変数 [-] 時間 [h] 200 400 600 800 運転員による制御 新システムによる制御 目標値からの 差 [%] 不純物濃度の標準偏差 [%] スチーム流量1の平均値 [%] スチーム流量2の平均値 [%] 運転員 100.0 新システム 36.1 67.5 74.6 97.2

統計的データ解析による品質予測(ソフトセンサ) (2/2) ソフトセンサがないプロセス 原料 プロセス  製品試験  出荷 ソフトセンサがあるプロセス 試験省略 ソフトセンサ 原料 プロセス  製品試験  出荷 台詞は後で. まず,導入といたしまして,ソフトセンサと呼ばれるものが何かについて簡単にご説明致します. 検量線とは,測定に多くの時間やコストが必要な変数を,容易に測定できる変数から推定するものです.例えば,蒸留塔の製品品質などを,トレイの温度や流量から推定したりします.蒸留塔以外にも,反応プロセスにも使われていますし,半導体や鉄鋼,医薬品プロセスなど,多様な生産プロセスで利用されてきました. 検量線を利用することのメリットの1つとして(アニメ),製品試験を削減できることが挙げられます.製品試験にはコストや環境負荷の大きいものも多いため,これを他の測定値から推定できることは非常に有用です.さらに,(アニメ)検量線を用いてリアルタイムに品質などを推定し,モデル予測制御などの制御システムと組み合わせて利用することで,運転コスト削減や品質改善も可能となります. 制御 ソフトセンサ コントローラ 推定制御

ソフトセンサの作り方 オフライン オンライン 入出力データの準備 推定条件の取得 サンプルの選択 推定値の計算 入力変数の選択 実測値の取得 モデルの構築 データベースと モデルの更新 (必要に応じて) それぞれのステップの目的は何で,どのようなことを行うのか.具体的な手法については,後続のスライドで紹介する. リサイクルもあるし,入れ子もある. モデルの検証 オンラインでの利用

ú û ù ê ë é = x ・ X é y ù ê ú y ê ú y = ê ・ ú ê ú ・ ê ú ê ú ë y û データの準備 日常的な運転データを利用する データ取得の負担が小さい 未知の要因が含まれている可能性が高い データ取得のための実験をする 希望する条件でデータを取得できる どのような実験をすれば良いのかが不明である ú û ù ê ë é = NM N M x ・ 1 2 21 12 11 X é y ù 入力変数の数 1 出力変数 ê ú 入力変数 y ê ú 2 y = ê ・ ú ê ú ・ ê ú ê ú ë y û N サンプル数

ú û ù ê ë é = x ・ X é y ù ê ú y ê ú y = ê ・ ú ê ú ・ ê ú ê ú ë y û サンプルの選択 サンプル選択の方針 不正確な測定値を含むサンプル(行)を除く 推定が必要とされる運転条件以外のサンプルを除く ú û ù ê ë é = NM N M x ・ 1 2 21 12 11 X é y ù 入力変数の数 1 出力変数 ê ú 入力変数 y ê ú 2 y = ê ・ ú ê ú ・ ê ú ê ú ë y û N サンプル数

不正確な測定値を含むサンプルの影響 不正確な測定値を利用するとソフトセンサの精度が低下する 真の入出力関係 黒サンプルのみを 入力変数 出力変数 黒サンプルのみを 利用した時のソフトセンサ 黒と赤のサンプルを 利用した時のソフトセンサ

ú û ù ê ë é = x ・ X 入力変数の選択 変数選択の目的:出力に影響する入力変数のみを選択し, 推定精度を高める 変数選択のアプローチ 組み合わせ最適化問題を解く 変数を順位付けして上位の変数のみを利用する ú û ù ê ë é = NM N M x ・ 1 2 21 12 11 X 出力 変数1 出力 変数2

回帰式の評価の仕方1 視覚的な評価 時系列プロット 予測値-実測値プロット 数値的な評価 予測値と実測値の相関係数 q2 値 2乗平均平方根誤差 (RMSE: Root Mean Square Error) 平均絶対誤差(MAE: Mean Absolute Error) 相対絶対誤差(RAE: Relative Absolute Error)

回帰式の評価の仕方2 時系列プロット 実測値と予測値を時系列でプロット 2つの線が近いほど推定が正しい

回帰式の評価の仕方3 予測値-実測値プロット 予測値を縦軸,実測値を横軸にプロット 対角線上にデータが近いほど推定が正しい

回帰式の評価の仕方4 予測値と実測値(平均) 予測値と実測値の相関係数 q2値

回帰式の評価の仕方5 2乗平均平方根誤差 (RMSE: Root Mean Square Error) 平均絶対誤差(MAE: Mean Absolute Error) 相対絶対誤差(RAE: Relative Absolute Error)

x β ˆ = y Xy X ) ( モデルの構築 入力変数 x から出力変数 y を推定するモデル f (x) を構築す る 生産現場では線形モデル     が支配的である Output y Input x x β T ˆ = y Xy X 1 MLR ) ( - おかないとだめ

WS 27 WS 29 ソフトセンサに関するアンケート結果1 モデル構築手法 その他 その他 物理モデル 物理モデル 5% 6% 6% 13% PLS 21% 67% 82% 重回帰分析 統計モデル

モデルの更新 運転条件の変更などで,モデルの更新が必要になることが多 い 測定バイアス・外乱 入力変数 x 出力変数 y 運転条件 の変更

課題 ソフトセンサに関するアンケート結果1 コストパフォーマンスが低い モデルの正確性不足 信頼性の評価 推定精度の劣化 前処理の負担 22% 7% 36% 14% 信頼性の評価 推定精度の劣化 前処理の負担 WS29でも同様の項目が挙げられた.割合は,分類の方法に依存するので,割愛する. モデリングの負担 データ取得の負担

単回帰分析1 単回帰分析では次式のように,出力変数y が入力変数x の定 数倍,定数項 および誤差ε で表現されると仮定する. 誤差の二乗和eが最小になるように,β0とβ1を決定する ただし,

単回帰分析2 この最適化問題の最適解 β*= [β0* β1 *]Tは以下の条件を満たす. 上記の連立方程式を解くことで以下の解が得られる.