プロセスデータ解析学1 担当:外輪健一郎     金 尚弘.

Similar presentations


Presentation on theme: "プロセスデータ解析学1 担当:外輪健一郎     金 尚弘."— Presentation transcript:

1 プロセスデータ解析学1 担当:外輪健一郎     金 尚弘

2 PLS (Partial Least Squares)
講義予定 回数 日付 内容 1 2019年10月1日 イントロ,数学基礎 2 2019年10月8日 統計量,単回帰分析 3 2019年10月15日 重回帰分析 4 2019年10月29日 演習 5 2019年11月5日 主成分分析 6 2019年11月19日 主成分回帰,多変量統計的プロセス管理 7 2019年11月26日 PLS (Partial Least Squares) 8 2019年12月3日 非線形回帰手法1 9 2019年12月10日 非線形回帰手法2 10 2019年12月17日 判別分析 11 2020年1月7日 復習 12 2020年1月28日 試験 13 2020年2月4日 フィードバック講義 2019年11月12日と12月24日は休講 2020年1月14日は月曜授業 2020年1月21日は休講

3 講義の目的 製造プロセスのデータを解析し,生産性の改善に貢献できるよ うになること. 統計用語の習得. 回帰分析ができるようになること.
判別分析ができるようになること.

4 理解レベルの分類(Bloom's taxonomy)
参考URL:

5 データ解析とは? (多量,人間が直感的に理解できない)データから有用な情報 (品質,異常の有無)を抽出すること. 主に統計学に基づいている.
利用例 医療(診断) 製造業 社会インフラ マーケティング 自動運転(画像認識) AI,IoT,ビッグデータ,Deep Learning,最近流行ですよね

6 AI (Artificial Intelligence,人工知能)
Wikiの定義 計算機による知的な情報処理システム KiMの定義 自動化,省人化のためのツール 背景 計算機とアルゴリズムの進歩

7 BigData Wikiの定義 一般的なデータ管理・処理ソフトウエ アで扱うことが困難なほど巨大で複 雑なデータの集合 KiMの定義
(従来より)多量のデータ 背景 計算機とアルゴリズムの進歩 センサーの低廉化

8 IoT(Internet of Things モノのインターネット)
Wikiの定義 様々な「モノ(物)」がインターネットに接続され(単に繋がる だけではなく,モノがインターネットのように繋がる),情報交 換することにより相互に制御する仕組みである.それによる 社会の実現も指す. KiMの定義 インターネットを通じた情報の迅速なやりとり 背景 情報のデジタル化(センサーの進化) インターネットの普及・高速化

9 今日の講義の内容と目標 講義内容 統計用語の説明(できるだけ具体例を交えながら) 目標 統計用語に慣れること(最低限の理解レベル)

10 世論調査と統計1

11 世論調査と統計2 世論調査では,「国民全体がどの党を支持するか」を求めよう としている.
全数調査をするのは非現実的なので,「国民の一部がどの党 を支持するか」を調査して,国民全体の支持率を推定している. サンプリング 標本 母集団 推定 母集団についての情報を限られた標本(データ,サンプル) の情報から推定すること.これが統計的推定の本質です.

12 蒸留塔における統計的推定 母集団:想定される運転状態全て 標本:実現した運転状態 推定したい情報:温度と製品純度の関係 Flow rate
Pressure Temperature Feed Composition

13 データ(変数)の種類 質的変数 名義尺度(順番に意味がない.ex. 男女,有無) 順序尺度(順番に意味がある.ex. 優良可,月火水)
量的変数 間隔尺度(原点が任意.ex. 日付) 比率尺度(原点がある.ex. 重さ,長さ,温度)

14 1つの量的変数の代表的な統計量 統計量:データ全体 x = [x1, x2, …, xN]T を代表する値 (N はデータ数) 平方和 平均
x = 1 𝑁 n=1 N x n S xx = n=1 N (x n − 𝑥 ) 2 中央値  xnの上位50%値 分散(元々の変数と単位が違う) 𝑉 𝑥 = 1 𝑁−1 S xx 標準偏差(元々の変数と単位が同じ) 𝜎 𝑥 = 𝑉 𝑥

15 x = [x1, x2, …, xN]T y = [y1, y2, …, yN]T 2つの変数間の統計量 (量的変数間) 2変数のデータ
偏差積和 S 𝑥𝑦 = n=1 N (x n − x ) (y n − y ) 共分散 相関係数(標準化後の共分散) 𝜎 𝑥𝑦 2 = 1 𝑁−1 S xy r x𝑦 = σ xy 2 σ x σ y

16 相関係数の解釈 r x𝑦 = σ xy 2 σ x σ y x が大きいときに y も大きければ、rxy は正の値(正の相関)
Manabu Kano

17 相関係数の具体例 強い正の相関 やや強い正の相関 rxy = 0.73 rxy = 0.99 rxy = 0.55 rxy = -0.84
弱い正の相関 強い負の相関 Manabu Kano

18 2つの変数間の統計量(質・量混在) 廃水処理後の有害物質濃度 処理方法は質的変数 得られた濃度は量的変数 処理方法毎にまとめる

19 平方和と相関比 総平方和 y の平方和 全サンプルの平均濃度と 処理 i ごとの平均濃度のずれ 級間平方和 級内平方和
処理 i ごとの y の平方和 総平方和 = 級間平方和 + 級内平方和 平方和はばらつきぐあいを表す指標 第1式の左辺と中辺が定義 第2式があるから,第1式の右辺と中辺が等しい 第2式の証明は省略 級間の変動は,処理を変えることでどれだけ収率の平均が変化するかを表している.ただし,サンプル数で重みがついている. 級内変動は,同じ処理を行った時の収率yの変動を処理ごとに積算したものである.級内平方和が大きいほど,処理に再現性がないことを示唆している. 級間平方和 級内平方和 相関比 = = 1 - 総平方和 総平方和

20 相関比(寄与率)とそのイメージ 級間平方和 級内平方和 相関比 = = 1 - 総平方和 総平方和 級間平方和 小 大 相関比:小 大
= 1 - 総平方和 総平方和 相関比:小 濃度 [-] 濃度 [-] 処理 処理 級内平方和 濃度 [-] 濃度 [-] 処理 処理 相関比:大

21 回帰分析のための数学

22 x = [x1, x2, …, xN]T 変数の表記 スカラー 1つの変数,1つの値を意味する.小文字斜体で表記する. ベクトル
行列 複数のベクトルを横に並べたもの.大文字斜体太字で表記する. 𝑥 x = [x1, x2, …, xN]T 𝑿= 𝒙1,𝒙2,…,𝒙𝑁 T= 𝑥11 ⋯ 𝑥1𝑀 ⋮ ⋱ ⋮ 𝑥𝑁1 ⋯ 𝑥𝑁𝑀

23 ベクトル・行列の四則演算1 スカラー同士の和,差,積,商 省略 スカラーaとベクトルxの演算 積:𝑎𝒙= 𝑎𝑥1,𝑎𝑥2,…,𝑎𝑥𝑁 T
ベクトルxとベクトルaの演算(xとaの要素数が同じと仮定する) 和,差:𝒙±𝒂= 𝑥1±𝑎1,𝑥2±𝑎2,…,𝑥𝑁±𝑎𝑁 T 積(線形結合): 𝒙T𝒂=𝑥1𝑎1+𝑥2𝑎2+…+𝑥𝑁𝑎𝑁=𝒂T𝒙

24 ベクトル・行列の四則演算2 行列Xとベクトルaの積(Xの列数とaの要素数が同じと仮定す る)
行列Xaの行数はN(Xの行数),列数は1 (aの列数)である. 行列Xa第n要素は行列Xのn行目とベクトルa の積(線形結合) 𝑿𝒂= 𝑥11 ⋯ 𝑥1𝑀 ⋮ ⋱ ⋮ 𝑥𝑁1 ⋯ 𝑥𝑁𝑀 𝑎1 … 𝑎𝑀 = 𝑚=1 𝑀 𝑥1𝑚𝑎𝑚 … 𝑚=1 𝑀 𝑥𝑁𝑚𝑎𝑚 = 𝒙1T𝒂 … 𝒙𝑁T𝒂 𝒙𝑛= 𝑥𝑛1,…,𝑥𝑛𝑀 T

25 ベクトル・行列の四則演算3 行列XとベクトルAの積(Xの列数とAの行数が同じと仮定する)
行列XAの行数はN(Xの行数),列数はL(Aの列数)である. 行列XAのn行l列要素は行列Xのn行目と行列Aのl列目の積(線形 結合) 𝑿𝑨= 𝑥11 ⋯ 𝑥1𝑀 ⋮ ⋱ ⋮ 𝑥𝑁1 ⋯ 𝑥𝑁𝑀 𝑎11 ⋯ 𝑎1𝐿 ⋮ ⋱ ⋮ 𝑎𝑀1 ⋯ 𝑎𝑀𝐿 = 𝑚=1 𝑀 𝑥1𝑚𝑎𝑚1 ⋯ 𝑚=1 𝑀 𝑥1𝑚𝑎𝑚𝐿 ⋮ ⋱ ⋮ 𝑚=1 𝑀 𝑥𝑁𝑚𝑎𝑚1 ⋯ 𝑚=1 𝑀 𝑥𝑁𝑚𝑎𝑚𝐿 𝑿𝑨= 𝒙1T𝒂1 ⋯ 𝒙1T𝒂𝐿 ⋮ ⋱ ⋮ 𝒙𝑵T𝒂1 ⋯ 𝒙𝑵T𝒂𝐿 = 𝑿𝒂1,…,𝑿𝒂𝐿 T 𝒙𝑛= 𝑥𝑛1,…,𝑥𝑛𝑀 T 𝒂𝑙= 𝑎1𝑙,…,𝑎𝑀𝑙 T

26 特別な行列 正方行列:行数と列数が同じ行列 単位行列:正方行列で対角要素が1,その他の要素がゼロの 行列
逆行列:正方行列Xに対して,XA = AX = Iとなる行列 対称行列: 転置しても変化しない行列(X = XT) 単位行列はI,Eと表記されることが一般的.本資料ではIと表記する. Xに対する逆行列はX-1と表記されることが一般的(逆数のイメージ) − −0.5 に対する逆行列は XTX(次ページで説明)

27 行列に関する公式 (Aが対称行列の場合) 転置の公式 XTXが対称行列である証明 (X1T) T=X1 (XTX) T=XTXTT= XTX
微分の公式(aとAは定数) (Aが対称行列の場合) 回帰分析をする際には,Aが対称行列の場合が多いので高校生 の感覚で微分してほぼ問題無い.

28 まとめ 統計的推定(母集団,標本) 質的変数,量的変数 1変数の統計量 平均,中央値,平方和 分散,標準偏差 2変数の統計量
偏差積和,共分散,相関係数 相関比 ベクトル,行列 四則演算 転置 微分 宿題:線形代数の講義を見る 


Download ppt "プロセスデータ解析学1 担当:外輪健一郎     金 尚弘."

Similar presentations


Ads by Google