誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)

Slides:



Advertisements
Similar presentations
Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
Pattern Recognition and Machine Learning 1.5 決定理論
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
C言語 配列 2016年 吉田研究室.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
誤差の二乗和の一次導関数 偏微分.
第3章 補足:パラメータが極小値に収束する例
第5章 ニューラル ネットワーク 博士課程1年 原 祐輔.
第4章 線形識別モデル 修士2年 松村草也.
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
ニューラルコンピューティングを理解する 第一版:2006/12/12 第二版:2007/11/12
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
ルンゲクッタ法 となる微分方程式の解を数値的に解く方法.
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
部分的最小二乗回帰 Partial Least Squares Regression PLS
ニューラルコンピューティングを理解する 2006/12/12 Graduate School of Media and Governance
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
線形判別分析 Linear Discriminant Analysis LDA
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
解析学 ー第9〜10回ー 2019/5/12.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
ニューラルネットワークの仕組み (Raspberry PI 演習で学ぶ) AI DATA VASSEL 資料
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

BPNN とは? ニューラルネットワークおよびその学習法の一つ 目的変数の誤差が小さくなるように、各ニューロンの重みを最適化 深層学習 (ディープラーニング) も基本的には同じ学習方法で可能 ディープニューラルネットワーク 隠れ層の数が多くなると、入力変数 (説明変数) に近くなるにつれて 学習が進まなくなるので注意

ニューラルネットワークの構造 1/2 ・・・ ・・・ ・・・ ・・・ ・・・ i ・・・ ・・・ ・・・ ・・・ ・・・ 入力変数 (説明変数) 隠れ層 1 層目 隠れ層 2 層目 ・・・ x0=1 w0,1(0) z0(1)=1 w0,1(1) z0(2)=1 w0,1(2) ・・・ x1 z1(1) = f(a1(1)) z1(2) = f(a1(2)) x2 z2(1) = f(a2(1)) z2(2) = f(a2(2)) w2,2(1) w2,2(3) ・・・ ・・・ ・・・ ・・・ xi zi (1) = f(ai (1)) zi (2) = f(ai (2)) i ・・・ ・・・ ・・・ ・・・ xm zm(1)(1) = f(am(1)(1)) zm(2)(2) = f(am(2)(2)) ・・・ wm,m(1)(0) wm(1),m(2)(1) wm(2),m(3)(2)

ニューラルネットワークの構造 2/2 ・・・ ・・・ ・・・ ・・・ ・・・ i i ・・・ ・・・ ・・・ ・・・ ・・・ 隠れ層 j 層目 隠れ層 k 層目 出力変数 (目的変数) ・・・ ・・・ w0,1(k-1) z0(k)=1 ・・・ ・・・ w0(k) z1(k) = f(a1(k)) z2(k) = f(a2(k)) w2,2(k-1) w2(k) ・・・ ・・・ ・・・ yE y i i zi (k) = f(ai (k)) wm(k)(k) ・・・ ・・・ ・・・ ・・・ ・・・ zm(k)(k) = f(am(k)(k)) wm(k-1),m(k)(k-1)

ニューラルネットワークの構造の補足 入力変数 (説明変数) と隠れ層 1 層目の間や、隠れ層の前後の間や、 隠れ層 k 層目と出力変数 (目的変数) の間の、すべての線 (ー) に 重み w がある それぞれの隠れ層における四角 ( ) をニューロンと呼ぶ 入力変数 (説明変数) には x0 = 1 が、それぞれの隠れ層にも 0 番目の ニューロンとして z0(j) =1 が、バイアスパラメータとしてある 隠れ層 j-1 層目の p 番目のニューロンと、隠れ層 j 層目の i 番目の ニューロンとの間の重みを、wp,i(j) とする zi(j) = f(ai(j))

ニューラルネットワークの構造を式で表す xi:i 番目の入力変数 (説明変数) y:出力変数 (目的変数) yE:推定された出力変数 (目的変数) f : 活性化関数

活性化関数の例 1/2 シグモイド関数 ソフトサイン ソフトマックス関数

活性化関数の例 1/2 ReLU (Rectified Linear Unit) 動径基底関数

活性化関数についての補足 活性化関数によって、ニューラルネットワークが非線形になる 活性化関数は微分可能である必要がある (後述) 以前はシグモイド関数が多く用いられたが、近年は隠れ層の数 k を 多くすることもあり、ReLU やその改良版が用いられることが多い (後述) クラス分類のときは、出力層にソフトマックス関数を用いる 動径基底関数を用いたとき、RBF (Radial Basis Function) ネットワークの一つになる

ネットワークを構築するとは? すべての重み ( wp(k) や wp,i(j) ) を決めるということ 決める方法の一つが、誤差逆伝播法

誤差逆伝播法 サンプルごとの誤差 E サンプルごとの誤差 E は サンプルごとに E が小さくなるように、重み w を変化させていけばよい w を微小変化させることでどう E が変化するか、を 求めるため、E を w で微分する これにより w を変化させるべき方向 (大きくするか小さくするか) が 求まるので、たとえば確率的勾配降下法 [1] などで重みを更新する ・・・ [1] https://ja.wikipedia.org/wiki/確率的勾配降下法

誤差逆伝播法 隠れ層 k 層目から y への重み (連鎖則) ・・・ でやっていることと同じ p. 10 より p. 5 の4式目より よって、

誤差逆伝播法 k = 1 のとき 続いて、隠れ層 j 層目から j+1層目への重みを考えたいが、

ニューラルネットワークの構造 隠れ層 1 層 ・・・ ・・・ ・・・ ・・・ 入力変数 (説明変数) 隠れ層 1 層目 出力変数 (目的変数) x0=1 w0,1(0) z0(1)=1 x1 z1(1) = f(a1(1)) w0(1) x2 z2(1) = f(a2(1)) w2(1) ・・・ ・・・ yE y xi zi (1) = f(ai (1)) wm(1)(1) ・・・ ・・・ xm zm(1)(1) = f(am(1)(1)) wm,m(1)(0)

誤差逆伝播法 x から隠れ層 1 層目への重み (連鎖則) p. 5 の1式目より また、 (連鎖則) (p. 11) よって、

誤差逆伝播法 活性化関数の微分 は、p. 6, 7 の活性化関数を ai(j) で微分して、その導関数に ai(1) を代入したもの

誤差逆伝播法 k > 1 のとき 1/3 隠れ層が 2 層以上のとき (ディープニューラルネットワーク)、 隠れ層 j-1 層目から j 層目への重みを考える (連鎖則) p. 5 の2式目より 隠れ層 j 層目の i 番目のニューロンにつながっている、 隠れ層 j+1 層目の m(j+1) 個のニューロンを考えると、

誤差逆伝播法 k > 1 のとき 2/3 p. 5 の2式目より から、 は、p. 6, 7 の活性化関数を ai(j) で微分して、その導関数に ai(1) を代入したもの

誤差逆伝播法 k > 1 のとき 3/3 p. 16, 17 をまとめると、 について、p. 17 と同様にして、隠れ層 j+1 層目の q 番目の ニューロンにつながっている、隠れ層 j+2 層目の m(j+2) 個のニューロンを 考えることができる これを繰り返すと、j+2 層目、 j+3 層目、・・・となり、最後は y になる つまり、

誤差逆伝播法 名前の由来 以上のように、y の誤差 yE – y が、隠れ層 k 層目、k-1 層目、・・・ と 逆に伝播して、重みの変化に寄与していることから、誤差逆伝播法と呼ぶ

誤差逆伝播法 注意点 y の誤差が伝播するとき、隠れ層 k 層目、k-1 層目、・・・ と入力変数 (説明変数) に近くなるにつれて、値が小さくなってしまうことに注意 p. 18 に活性化関数の微分係数 があるが、たとえば シグモイド関数の微分係数の最大値は 0.25 であり、隠れ層の層が 深くなるにつれて、最大でも 0.25j と指数関数的に小さくなってしまう 重み w が変化しなくなってしまう そこで、特に隠れ層の数 k を多くするときには、微分係数が 1 になる ReLU が使われる