Bias2 - Variance - Noise 分解

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
「わかりやすいパターン認識」 第1章:パターン認識とは
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
Bassモデルにおける 最尤法を用いたパラメータ推定
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
3. 線形回帰および識別 クラシックな機械学習の入門 by 中川裕志(東京大学) 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
 統計学講義 第11回     相関係数、回帰直線    決定係数.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
Data Clustering: A Review
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
回帰分析入門 経済データ解析 2011年度.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

Bias2 - Variance - Noise 分解 クラシックな機械学習の入門 4. 学習データと予測性能 Bias2 - Variance - Noise 分解 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 bias2とvarianceの間のトレードオフの 線形回帰への応用 by 中川裕志(東京大学)

過学習:over-fitting 教師データによる学習の目的は未知のデータの正確な分類や識別 過学習(over-fitting) 教師データに追従しようとすればするほど、複雑なモデル(=パラメタ数の多い)になり、教師データへの過剰な適応が起こりやすい。 このことを数学的に整理してみるのが目的。

損失関数と Bias,Variance, Noise xが与えられたときの結果:tの推定値=y(x) 損失関数: L(t,y(x))  ex. (y(x)-t)2 損失の期待値:E[L]を最小化する t の推定値=E[t|x] この導出は次の次のページを参考にしてください E[L]を計算してみると(次のページ参照) 第1項は予測値と学習データからの期待値の差の2乗、第2項は雑音(noise)

参考:E[L]の計算

参考:E[L]を最小化するt の推定値=E[t|x]の導出

E[t|x]はxによって決まる。E[L]は次式でした。 第2項 ()内の左の項は、観測値として与えられたxに対してE[L]を最小化するtの予測値だから、()内の右の項すなわち真のt との差は、観測における誤差と考えられる。 y(x)の作り方で解決できないノイズ

は、データ点の観測に伴う誤差あるいはノイズの効果を示し、真のデータ点は、大体    のような範囲にある。このノイズの項が既に述べた次の式:

E[L]の第1項と教師データ集合:Dから機械学習で得た y(x;D)の関係について考えてみよう。 母集団のモデルとしてp(x,t)を想定する。このモデルからDという教師データ集合が繰り返し取り出される状況を考えてみる。 Dからの機械学習の結果のy(x;D)の統計的性質は、同じサイズのDを多数回、母集団モデルp(t,x)から取り出して、その上で期待値をとったED[y(x;D)]によって評価する。 E[L]の第1項はy(x;D)を用いると次の式

この式をED[]すると、第3項は消え     第1項はvariance 第2項はbias2 variance: y(x)の機械学習による推定値が、教師データ集合によって変動する度合いの期待値:教師データに依存しすぎるモデルになって新規データの予測誤差が悪化する度合い bias2:y(x)の機械学習による推定値が、損失の期待値:E[L]を最小化するtからずれる度合いの期待値:モデルを記述が単純になるとき予測誤差が悪化する度合い。

以上により損失の期待値:E[L]=bias2+variance+noise

新規データに対する誤差:variance+ bias2+ noise 予測誤差        小 正則化項の重みλ  大

新規データに対する誤差:variance+ bias2+ noise 予測誤差 bias2 variance noise 新規データに対する誤差:variance+ bias2+ noise variance+bias2              小 正則化項の重みλ  大 L2正則化の場合 観測データに大きく異存小 λ 大正則化項(事前分布)に大きく依存 L1正則化の場合:重みがゼロ化される次元をみると  ゼロの次元が少なく複雑 小 λ 大ゼロの次元が多く単純

bias2とvarianceの間のトレードオフをK-Nearest Neighbor法と線形回帰で具体的に見てみよう。 2クラスへの分類問題で考える。 教師データはクラス:   とクラス:   と判定された相当数 があるとする。 未知のデータxがクラス  /  である確率は xに近いほうからK個の教師データ点のうちでクラス / であるものの割合 至ってシンプルだがかなり強力。

下の図のような教師データの配置で考える

K=1の場合:クラス青,赤の確率が等しい境界線は以下のようにかなり複雑。相当多くのパラメターを使わないと記述できない。教師データ数に強く依存。   は新規に到着した分類すべきデータ の点は本来青い点かもしれないが、赤だと判断される。 の点は本来赤い点かもしれないが、青だと判断される。

境界線はだいぶ滑らか。K=1の場合より境界を決めるパラメターは多い この点は本来赤かもしれないが青と判断される この青の近辺のデータは本当に青かもしれないが、新規データとしては頻出しない

K=13以上だと、どんな新規データでも赤と判定される。

K=1だと非常に複雑な境界線であり、個々の教師データに強く依存した結果をだすため、過学習をしやすい。 varianceが大きい。 Kが非常に大きくなると、境界線はますます滑らか(=いい加減?)になり、あるところから個別の教師データの影響が無視され、モデルとして大域のデータに依存し、個別データに対する精密さを欠くため、新規データを正確に分類できなくなってくる。 bias2 が大きい。 以上のから、 bias2とvarianceの間には次ページの図のような関係が見てとれる。

新規データの予測誤差=bias2+variance+noise Error rate 新規データの予測誤差=bias2+variance+noise variance bias2 K=1 K=13 K=3 境界線が単純 境界線が複雑 最適なK

まず線形モデルのパラメタ-w推定の復習から bias2とvarianceの間のトレードオフを 線形回帰で具体的に見てみよう。 まず線形モデルのパラメタ-w推定の復習から

入力ベクトル:x から出力:y を得る関数がxの線形関数(wとxの内積)にノイズが加算された場合を再掲 得られたN個の観測データ の組(y,X)に対して2乗誤差を最小化するようにwを推定し  を得る。

ここで、前にやった損失の期待値 E(L) を思いだそう ただし、新規の未知データは以下の通り

XはDにおいては定数なので、(XTX)-1XTも定数と見なせることに注意 次に すなわちN個の観測データ の組(あるいは計画行列) (y,X)=Dを学習データとする部分について考える。 Xに対して繰り返しyを観測することでDを動かした場合の  期待 値:ED[..]を求めてみよう。 重みwの期待値:  のD動かした場合の期待値 共分散行列は? XはDにおいては定数なので、(XTX)-1XTも定数と見なせることに注意

共分散行列

bias2が0にならない状況とはどんなもの?

レポート課題4:この場合variance of (loss 10)の近似はどうなる?

過学習:over-fittingと bias2-variance分解 教師データによる学習の目的は未知のデータの正確な分類や識別 過学習(over-fitting) 学習するモデルを複雑な(=パラメタ数の多い)ものにすると過学習が起こりやすい。 モデルの良さ(=(対数)尤度あるいは2乗誤差などの損失-1 )を最大化し、かつ簡単なモデルであるほど良い モデルの簡単さを表すのは線形回帰における正規化項(正則化項とも呼ぶ)。cf.情報量基準、MDL