Pattern Recognition and Machine Learning 1.5 決定理論 2010.11.25 多田 圭佑
目次 0. 決定理論とは 1. 誤識別率の最小化 2. 期待損失の最小化 3. 棄却オプション 4. 推論と決定 5. 回帰のための損失関数 6. まとめ
決定理論とは 適切な確率が与えられた(推論された)時に,最適な決定をするための理論 例:患者のX線画像からその患者が癌かどうかの診断の決定方法は? 入力ベクトルx :画像のピクセル強度 出力変数t :癌であるクラス か,癌でないクラス どちらかを表す 同時分布 を求める:推論の問題 これが分かった上で患者にどのような診断を下すか:決定の段階 ※ここでは,推論の問題は解決できる(同時分布が求まる)として,決定理論の話をする.しばらくはこの癌に診断の例を用いる.
ベイズの定理 (確認) が求まるとき,ベイズの定理により, (新たな患者のX線画像xが得られた時,修正された事後確率)を求めることができる. ※今から述べる決定理論では, が得られると適切なクラス分類ができる.
誤識別率の最小化 (1/2) 誤ったクラスに分類する可能性を最小にしたい →事後確率 が最大となるクラスにxを割り当てる 直感的には正しそうだが,本当に正しいか?
誤識別率の最小化 (2/2) 領域 上の点は全てクラス を割り当てるとする. 誤りが起きる確率は, 領域 上の点は全てクラス を割り当てるとする. 誤りが起きる確率は, となる.これを最小にするには, ならxにはクラス を割り当てる必要がある(図1.24参照). であり,p(x)はどちらのクラスでも共通なので,誤り確率を最小にするのは,各xを事後確率 が最大となるクラスに割り当てる時である.
期待損失の最小化 (1/3) 単に誤識別率を減らすだけでは十分でないケースがある(例えば,癌であるのに健康と診断するのは,癌でないのに癌であると診断するより罪が重い). →損失関数を導入しそれを最小化する (損失関数は未知である真のクラスの不確実性 に依存するため,損失の平均を考える.)
期待損失の最小化 (2/3) 新たなxに対し,真のクラスが で,xをクラス に割り当てたとする.その時の損失を で表すと,それをk,j成分とする損失行列を考えることができる. 損失の平均(期待損失)は, で,これを最小化したい. →各xごとに を最小化すればよい. → を用いて共通因子p(x)を取り除く →新たなxを以下の量が最小になるようなクラスjに割り当てればよい. これは事後確率 が分かっていれば求まる. 癌 正常 癌 正常
期待損失の最小化 (3/3) の直感的な理解 i)新たなxをj=1のクラスに割り当てるとすると(癌であると診断すると) ii)新たなxをj=2のクラスに割り当てるとすると(正常であると診断すると) i)とii)の小さくなるほうのjのクラスをこのxに割り当てればよい. 癌 正常 癌 正常
棄却オプション の最大値が1よりかなり小さい場合 →どのクラスに属するか不確か.決定を避けるほうがいい場合もある. → の最大値がθ以下だったら棄却する.
推論と決定 決定までに3つの方法がある. a) の推論問題を解き,ベイズの定理から事後確率 を求め,決定理論を用いる. b)事後確率 の推論問題を解き,決定理論を用いる. c)推論と決定の問題を同時に解いて入力xから直接クラスラベルに写像する識別関数f(x)を求める. a)が一番大変でc)が一番楽. c)だと事後確率が出せない(事後確率が知りたい場合は数多くある).
回帰のための損失関数 (1/3) クラス分類問題ではなく,回帰問題の場合を考える. 目標:入力ベクトルxと対応する目標変数tがあり,新たなxの値に対するtを予測する. 前提:同時確率分布p(x,t)は推論問題を解くことで求まっているとする. 決定段階でやること:各入力xに対して,目標変数tの値に対する良い推定値y(x)を選ぶ.
回帰のための損失関数 (2/3) 損失関数 の期待損失を考える. 目標:E[L]を最小にするy(x)を選ぶこと 二乗誤差 の場合,変分法で, 損失関数 の期待損失を考える. 目標:E[L]を最小にするy(x)を選ぶこと 二乗誤差 の場合,変分法で, となり,これより, を得る. y(x)の最適解は条件付き平均となる.
回帰のための損失関数 (3/3) 期待二乗誤差を最小にする回帰関数y(x)は,条件付き分布p(t|x)の平均で与えられる.
まとめ 推論→決定 決定の仕方(誤識別率,期待損失,棄却) 決定までの3通りのアプローチ クラス分類問題と回帰問題