パターン認識と機械学習 第1章:序論(前半)

Slides:



Advertisements
Similar presentations
Maximal likelihood 法に基づく Matched filter について 田越秀行(阪大理) LCGT コヒーレンス解析 WG 修正 Ref: Finn, PRD63, (2001) Pai, Dhurandhar, Bose, PRD64,
Advertisements

1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
確率・統計Ⅱ 第7回.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
京都大学 化学研究所 バイオインフォマティクスセンター
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
(ラプラス変換の復習) 教科書には相当する章はない
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
相関分析.
第6章 連立方程式モデル ー 計量経済学 ー.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第14章 モデルの結合 修士2年 山川佳洋.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
6. ラプラス変換.
訓練データとテストデータが 異なる分布に従う場合の学習
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
パターン認識と機械学習 第2章:確率分布(後半)
電気回路学Ⅱ コミュニケーションネットワークコース 5セメ 山田 博仁.
25. Randomized Algorithms
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
ベイズ・アプローチによる グラフィカル・テスト理論
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
解析学 ー第9〜10回ー 2019/5/12.
人工知能特論II 第8回 二宮 崇.
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
確率と統計 確率編- 平成19年10月25日(木) 確率と統計2007.
重回帰分析入門 (第5章補足) 統計学 2007年度.
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

パターン認識と機械学習 第1章:序論(前半) Christopher M. Bishop (2006): Pattern Recognition and Machine Learning, Springer, pp.1-37

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*にうまくフィットする曲線はどのような式になるか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生成したもの

とりあえず、以下のようなM次の多項式の係数を求めることでフィッティングを行うことにする。 ※上式は ・多項式 y(x,w) はx の非線形関数であるが… ・wの線形関数である …このように未知パラメータに関して線形であるような関数は線形モデルと呼ばれる。 では、最適なフィッティングを達成する係数をどのように求めるのか? 以下の誤差関数 E(w)、すなわち「各データ点 xn における予測値 y(xn,w) 」と「対応する目標値 tn 」との二乗誤差を最小化するような w を求める。

この誤差関数は w についての2次関数だから解くのは簡単。 これらの和を最小化する! この誤差関数は w についての2次関数だから解くのは簡単。 係数に関する微分は w にする1次式になり、この式を最小にするただ一つの解(以下では w* とする)を持つ。 従って、求める多項式はこのw*を使って以下のように表される。 残った問題は…式の次数Mとしてどの値を選ぶか?ということ。 すなわちデータ選択(データ比較)の問題。

Mをいろいろ変えて見てみる。 M=0 の場合…定数なのでとうぜん全く合わない。

M=1 の場合…1次関数なのでやっぱり合わない。

M=3 の場合…だいぶフィットしてきた!

M=9 の場合… 誤差関数は0になったけれど、元の緑線に合っていない。 つまり…新たなテスト集合(緑線に近い分布をする)が与えられたときの予測の精度が低い…!

○ ◎ × パラメータをたくさんとりすぎると 訓練集合のランダムノイズに引きずられてしまう。 …これが過学習! M=3 M=9 訓練集合に対する誤差 (平均二乗平方根誤差*) ○ ◎ テスト集合に対する誤差 × いかに青点から外れていないか いかに緑線から外れていないか *平均二乗平方根誤差:以下の式で表され、違うMを用いた場合の誤差同士を比較することができる。

どうすれば過学習の問題を回避できるのか? 1. (パラメータ数に対する)訓練集合のサイズを増やす 問題点:モデルのパラメータ数は解くべき問題の複雑さに応じて選ぶのがもっともなはずだが、この方法をとると入手できる訓練集合のサイズに応じてモデルのパラメータ数を制限しなければならなくなる。 2. ベイズ的アプローチをとる 3. 正則化を行う

正則化とは誤差関数に罰金項を負荷し、係数が大きくなりすぎることを防ぐこと。 例えば、以下の右辺第2項が罰金項である。 ただしここで ||w||2 = wTw = w02 + w12 + … +wM2であり*、 λ は正則化項と二乗誤差の和の項の相対的な重要度を示す。 当然 λ の選び方によってあてはまりかたも変わってくる。 *係数 w0 は目的関数の原点の選び方に依存しているため正則化から外すことも多い。

2. ベイズの定理とベイズ確率 まずはベイズの定理の復習から… 確率の乗法定理 *XかつYである確率=Xである確率×XのもとでのYの確率 より、 であり、さらに 「同時確率」「周辺確率」「条件付き確率」等の用語についての説明はもう省略してもいいよね? であることから、以下のベイズの定理が成り立つ

2/5 3/5 もうちょっとベイズの定理に慣れましょう。 例: 赤と青のいずれかの箱が置いてあり(観測者にはそれがどちらであるかは分からない)その箱の中から果物を取り出す。 また、以下のことが分かっている。 赤い箱である確率は2/5 青い箱である確率は3/5 赤い箱にはりんごが2個とオレンジが6個 青い箱にはりんごが3個とオレンジが1個 2/5 3/5

ここで、箱から果物を取り出してみると、オレンジであったとする。 このとき置いてある箱が赤い箱である確率はどのくらいだろうか? 事前に分っている情報を整理すると… …赤い箱を選ぶ確率 …青い箱を選ぶ確率 …赤い箱からりんごを選ぶ確率 …赤い箱からオレンジを選ぶ確率 …青い箱からりんごを選ぶ確率 …青い箱からオレンジを選ぶ確率 また、ここから次の確率も容易に求めることができる* *たとえば前者の式は… りんごを選ぶ確率=(赤い箱からりんごを選ぶ確率)*(赤い箱を選ぶ確率) +(青い箱からりんごを選ぶ確率)*(青い箱を選ぶ確率) …となっている。もう一方も同様である。

で、問題は… 「置いてある箱からオレンジが取り出されたとき、それが赤い箱である確率」 …であった。 これはすなわち、以下の条件付き確率を求めたいということである。 ベイズの定理より、先ほどの値を代入して計算すると… すなわち、「置いてある箱が赤い箱である確率」を考えたいとき、事前には単純な 「赤い箱が置いてある確率」(事前確率) だけしか知らなかったが、その後果物(ここではオレンジであった)を取り出すことで 「オレンジが取り出されたときに、それが赤い箱である確率」(事後確率) というふうに絞り込むことができるのである。

では、ベイズ確率とは? 古典的(頻度主義的)確率解釈、すなわち確率を「ランダムな繰り返し試行の頻度」とみなすだけでなく、より広義に「不確実性の度合い」とする解釈 たとえば「月がかつて太陽を周る軌道上にあったかどうか」「南極の万年雪が今世紀末には消えるかどうか」など、たくさんの繰り返しが観測できない事象は、頻度主義的な確率解釈では「確率」として捉えられない。 …しかしこれらの事象が「どのくらいの尤もらしさで起こる/起こったのであろうか」ということに関して我々は何らかの知見を持っているし、そこに新たなデータ(温室効果ガスについての観測衛星からの情報など)がつけ加われば、その尤もらしさについての知見を修正することもできる。 このように不確実性(や信念の度合い)を定量的に表現し、新な証拠に照らして修正し、またその結果として最適な行動や決定を下そうとする場合に有用なのがベイズ確率である。

…すなわち、データを観測する前の我々の仮説を事前確率分布 として取り込んでおき、これを、観測することによって新たに得られたデータ を用いて、新たなデータを照しあわせたときの事前分布の尤もらしさを 以下のような事後分布として評価し、修正できることになる。 ここで左辺の分子にある p(D|w) は、「w というパラメータを仮定したときにデータ集合 D となるのはどのくらい尤もらしいことなのか」を表わす尤度関数である。 このようにベイズの定理は事後確率∝尤度×事前確率という形になっているが、頻度主義的アプローチとベイズ的アプローチではこの尤度関数の扱い方がおおきく異なっているといえる。

頻度主義的アプローチでは、wは固定した、推定量として定められるパラメータとされ、データ集合 D はこのパラメータのもとでの分布に従った結果である。 ベイズ的アプローチでは実際に観測されたデータ集合 D がまずあって、そこから主観に基づくパラメータの不確実性が w の確率分布として表わされる。 たとえば「コインを投げて3回とも表が出た」場合… 頻度主義的アプローチでは「このコインは表が出る確率が1であるような確率分布に従ってるんだな」と考える。すなわち、データに対して尤度が最大となる w が固定される。 ベイズ的アプローチでは「はじめは表と裏が1/2ずつだと思っていたけれど、こんな結果が出たなら、その予想が当ってる度合いは低いだろう」と考える。すなわち、尤度によって w が評価され、D を条件とする分布に修正される。 …というように、ベイズ的アプローチは事前知識を自然に入れることができるため、頻度主義的アプローチのように極端な結論を導くことがない。

ベイズ確率の欠点 事前分布が何らかの信念によらず、むしろ数学的な便宜によって選ばれてしまうことがある。 事前分布の選び方によっては結果が主観的になるし、悪い事前分布を選べば、高い確率で悪い結果が得られてしまう。 頻度主義的アプローチを織り交ぜていくことで、ある程度回避することができる。 というわけで次回は今日やった曲線フィッティングをベイズ的にやります…