パターン認識と機械学習 第1章:序論(後半)

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
11.確率モデル 確率・・・不確実性の経済学や金融やファイナンス で重要 密度関数がある場合に期待値を取る計算を中心に、紹介.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
決定木とランダムフォレスト 和田 俊和.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
Basic Tools B4  八田 直樹.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
予測に用いる数学 2004/05/07 ide.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
部分的最小二乗回帰 Partial Least Squares Regression PLS
ベイズ・アプローチによる グラフィカル・テスト理論
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
データ解析 静岡大学工学部 安藤和敏
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

パターン認識と機械学習 第1章:序論(後半) Christopher M. Bishop (2006): Pattern Recognition and Machine Learning, Springer, pp.37-57

今回の内容と目次 1.5 決定理論 1.6 情報理論 確率論 決定理論 情報理論 1.5.1 誤識別率の最小化 1.5.2 期待損失の最小化 1.5.3 棄却オプション 1.5.4 推論と決定 1.5.5 回帰のための損失関数 1.6 情報理論 1.6.1 相対エントロピーと相互情報量 確率論 決定理論 情報理論 1章の内容

決定理論 確率論:不確実性を定量化したり,操作を行ったりするため の一貫した数学的枠組み 決定理論:パターン認識で遭遇する不確かさを含む状況に置 ける最適な意思決定を行うこと 入力ベクトルxと対応する目標変数t 新たなxの値に対するtを予測することが目的 ex)回帰問題:tは連続変数   クラス分類:tはクラスラベル   離散選択問題:tは離散変数 同時確率分布p(x,t)は変数に関する不確実性を完全に要約 するもの p(x,t)を訓練データ集合から決めることが推論

決定理論の具体例(1) 具体例:医療診断問題:患者のX線画像で癌かどうかを判断する 入力ベクトルxは画像のピクセル強度 出力変数tは癌であるクラスC1(t=0), 癌でないクラスC2(t=1) 一般的な推論問題は同時分布p(x, t)を決定することであり, それが状況の最も完全な確率的記述である →これは非常に有用で情報量が多い記述であるが, 最終的には患者に治療を施すかどうかを決めなければならないので ある適当な基準の上で最適な決定をしたい これが決定(decision)の段階であり,適切に確率が与えられたときに 最適な決定をするにはどうするかを教えてくれる決定理論の主題である

決定理論の具体例(2) 新たな患者のX線画像xが得られたときに,画像を2つの クラスのどちらかに割り振ることが目標 (1.77) :人が癌である/ない確率(これまでの観測(訓練集合)から得られる) :xというX線画像である確率(これまでの観測から得られる) :CkのときにxというX線画像である確率(これまでの観測から~)

誤識別率の最小化(1) (1)誤識別をできるだけ少なくすることを目標とする 決定のためにはxの各値に利用可能なクラスの1つを割り振 るための規則が必要 そのような規則は入力空間を各クラスに1つずつ対応する決 定領域(decision region)と呼ばれる領域Rkに分割しRk上の 点にはすべてクラスCkを割り当てる. 決定領域の間の境界は決定境界(クラス境界:decision boundary)あるいは決定表面(decision surface)と呼ばれる 各決定領域は連続とは限らず,いくつかの領域に分かれてい ることもあり得る.

誤識別率の最小化(2) 癌の例 誤識別とはクラスC1に属する入力ベクトルをC2に割り当てたりその逆が 起きることである.それが起きる確率は (1.78) 誤識別を最小化するxの値は x0である

期待損失の最小化 (2)単純に誤識別を最小化すればいいのではない 正常な患者を癌と診断することと,癌の患者を正常と診断す ることの間には大きな違いが存在する そこで損失関数(loss function),コスト関数(cost function)を 導入 (1.80) 癌 正常 癌 正常

棄却オプション すべてクラス分けするのが良いとも限らない 正確に分類できるところだけ自動的に分類し,曖昧なと ころは人(専門家)が行う方が全体のクオリティが向上す る場合がある そのしきい値θを導入する

回帰のための損失関数(1) 曲線フィッティングの回帰問題の場合に戻る 決定段階は各入力xにおける特定の推定値y(x)を選ぶこ と.その際,損失L(t, y(x))を被るとする. 平均損失は (1.86) 回帰問題の場合に良く使われる損失関数は二乗誤差で あるので, (1.87)

回帰のための損失関数(2) 目標はE[L]を最小にするy(x)を選ぶこと 変分法を用いると (1.88) (1.89) これがよく知られた 回帰関数(regression function) 損失関数に二乗誤差を用いず ミンコフスキー損失を用いた拡張版もある

情報理論 離散変数xを考える.この変数に対するある特定の値を観測したときに, どれだけの情報を受け取るかを考える 起きそうにないこと事象が起きることを知れば,多くの情報量を得たと言 える ex) 「明日,太陽が東から昇ります」という情報と 「明日,雨が降ります」という情報はどちらが情報量が多いか? 情報量を測る尺度が必要        →情報量の定義へ

4 4 情報量 情報量をh(・)という関数で表す (1.92) 単位:ビット ex). トランプから1枚カードを抜くことを考える x y 確率p(x) p(y) p(x,y) 情報量h(x) h(y) h(x,y)

(情報論の)エントロピー (entropy) ある送信者が確率変数の値を受信者に送りたいとき, その 操作で送られる情報の平均量は(1.92)を分布p(x)に 関して 期待値をとったものとなり,これをエントロピーという (1.93) 熱力学に分子の無秩序さを表す 「エントロピー(entropy)」 という言葉があるが,上式とまったく同じ形をしている エントロピーは情報の無秩序さ、あいまいさ、不確実さを表す尺度 ある事柄の発生確率がすべて同じとき すなわち何が起こるか予測がつかないときに最大で、 発生確率の偏りが大きければ大きいほどエントロピーは小さくなる

情報論のエントロピー(2) 8個の取り得る変数{a, b, c, d, e, f, g, h} それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 } このときエントロピーは ビット 8個の取り得る変数{a, b, c, d, e, f, g, h} それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64} このときエントロピーは ビット

情報論のエントロピー(3) エントロピーの概念…確率変数の状態を規定するのに必要 な情報量の平均量 エントロピーの別の見方を考える N個の同じ物体がたくさんの箱に分けられている状況を考える. どの物体を最初のものとして選ぶかにN通りの場合があり, 次の物体はN-1通りあるので,N個の物体をどういう順序で入れるかはN!通りある i番目の箱にはni!通りの順番付けがあるので,N個の物体の箱への入れ方の総数は 多重度(multiplicity) (1.94)

多重度の例 多重度(multiplicity) (1.94) ex). N=8, 箱の数が4つのとき

多重度からエントロピーへ 統計力学の観点からエントロピーを多重度から導出 (1.95) ここで,ni/Nを一定に保ったままN→∞という極限を考え,スターリ ングの近似式を用いると (1.96)

多重度からエントロピーへ 統計力学の観点からエントロピーを多重度から導出 ここで,piとは物体がi番目の箱に割り 当てられる確率 物理学の用語で言えば, 箱の中の物体の特定の状態は ミクロ状態(微視的状態microstate) 比ni/Nで表される物体の占有数の分布 は マクロ状態(巨視的状態macrostate) 多重度Wはマクロ状態の重み(weight) とも呼ばれる (1.97)

統計力学的エントロピーの定義 箱は離散確率変数Xの状態xiと解釈できるので,p(X=xi)=pi となる.すると確率変数Xのエントロピーは (1.98) 広がりが大きい分布はエントロピーが大きい また,エントロピーは非負である

離散確率変数の最大エントロピー 最大のエントロピーを持つ確率分布 Hを最大化するようにラグランジュ乗数法を用いて (1.99) ここから,Mをxiの状態の総数として となることがわかる(一様分布)

連続確率分布への拡張 連続変数xの分布p(x)に拡張する まず,xを等間隔の区間Δに分ける (1.101) となるxiが必ず存在する i番目の区間に入る任意の値xに値xiを割り当てることで量子 化を行うと,xiの値を観測する確率はp(xi)Δとなる ここから,離散分布のエントロピーは(1.101)より (1.102)

微分エントロピー ここで(1.102)の右辺第二項をとりあえず無視して,Δ→0の 極限を考えると 右辺の量は微分エントロピーを呼ばれている (1.103) 右辺の量は微分エントロピーを呼ばれている 離散と連続の場合のエントロピーはln Δだけ異なり この値はΔ→0で発散することがわかる これは連続変数を厳密に規定するのに無限のビット数が必 要なことを表している

連続変数の場合のエントロピー最大化 離散変数では等確率が最大 連速変数では?以下の制約の下で最大化する (1.105) (1.106) (1.107)

連続変数の場合のエントロピー最大化 変分法により,この汎関数の微分を0とおいて 最終的に が得られる.これは正規分布である (1.108) 最終的に (1.109) が得られる.これは正規分布である (1.110) これは分散が大きくなればエントロピーが大きくなる ことも示している

相対エントロピーと相互情報量 エントロピーをはじめとする情報理論のアイデアをパターン認識と関係づ ける 未知の分布p(x)があり,これを近似的にq(x)でモデル化したとする q(x)を用いてxの値を受信者に送るための符号化作業を構築したい 真の分布p(x)の代わりにq(x)を使うとxの値を特定するのに必要な 追加 (additional)情報量の平均はナットで測って (1.113) これは分布p(x)とq(x)の間の相対エントロピー(relative entropy) あるいはカルバックーライブラーダイバージェンス(Kullback-Leibler divergence)あるいは略してKLダイバージェンスとして 知られている

凸関数 ここで,KLダイバージェンスは を満たし,なおかつ等式が成り 立つのはp(x)=q(x)のとき,そのときに限ることを示す まず,凸関数(convex function)の概念を導入する 関数f(x)はすべての弦が関数に乗っているか,それよりも上にあるとき凸 であるという (1.114)

カルバックーライブラーダイバージェンス 数学的帰納法を用いると(1.114)より凸関数f(x)が任意の点集合{xi}に対 して, を満たすことができる.ここでΣλ=1である. (1.115)はイェンセンの不等式として知られている. λiを値xiを取る離散確率変数x上の確率分布として解釈すると と書ける.イェンセンの不等式をカルバックーライブラーダイバージェンス (1.113)に適用することができ, が得られる (1.115) (1.116) (1.118)

KLダイバージェンスと密度推定(1) データ圧縮と密度推定(未知の確率分布のモデル化の問題)は密接に関 係しており,最も効率的な圧縮は真の分布を知っているときに達成される 真の分布と異なる分布を使えば,非効率な符号化となり,送信しなければ ならない追加情報量は平均して2つの分布の間のカルバックーライブラー ダイバージェンスと等しくなる データが未知の分布p(x)から生成されるとき,それをモデル化してみよう 可変なパラメータθをもつパラメトリックな分布q(x|θ)(たとえば多変量正規 分布)を使って近似することを考える θを決める1つの方法はp(x)とq(x|θ)の間のカルバックーライブラーダイバ ージェンスをθについて最小化することが考えられる しかし,p(x)を知らないのでこれを直接行うことはできない…

KLダイバージェンスと密度推定(2) p(x)から得られた有限個の訓練点の集合xn{n=1,…..,N}が手元にある となる.右辺第二項はθとは独立であり,最初の項は訓練集合を使って評 価した分布の下でのθの負の対数尤度である. つまり,KLダイバージェンスの最小化は尤度の最大化と等価である (1.119)

相互情報量 2つの変数集合xとyの同時分布p(x, y)を考える 変数の集合が独立であれば同時分布は周辺分布の積に分解され p(x, y)=p(x)p(y)となる 変数が独立でなければ,独立に近いかどうかを知るために,同時分布と 周辺分布の積の間のKLダイバージェンスを考えることができ, これは変数x,yの間の相互情報量(mutual information)と呼ばれる 相互情報量はyの値を知ることによってxに関する不確実性がどれだけ減 少するかを表す. ベイズ的に言えばp(x)をxの事前分布,p(x|y)は新たなデータyを観測した 後の事後分布と考えられる.したがって,新たにyを観測した結果として,x に関する不確実性が減少した度合いを表している (1.120)