条件付き確率 ベイズの定理 ベイズの展開公式 ベイズ更新 ベイズ理論 条件付き確率 ベイズの定理 ベイズの展開公式 ベイズ更新
悲運のベイズ統計学 1740年代英国の牧師 トーマス・ベイズが発見 1980年代に開花.多分野に応用 迷惑メールの検知,商品のおすすめ 「何かに関する最初の考えを,新たに得られた客観的情報に基づいて更新すると,それまでとは異なった,より質の高い意見が得られる」 経験 から学ぶことをエレガントに表現
数奇な遍歴 ベイズ統計学は,最初の考え(事前確率)を客観的情報で更新する形で,事象発生の確率(事後確率)を計算 軍事分野で隠れて利用 事前確率の与え方に客観性がなく,主観が入る可能性がある. ベイズの確率論は 主観主義 と呼ばれる 実験を繰り返して仮説検定する 頻度主義 者からの批判 ベイズの死後,ラプラスが(ベイズの名前を出さずに)発表 客観性がないとして,近代科学から排斥される 軍事分野で隠れて利用 第2次世界大戦中,英軍が独軍のUボートの暗号解読に利用 指揮したのはチャーチル首相.解読したのはチューリング 現代になって,その実用性に注目があつまる 経験や常識を取り込んだ計算が可能 頻度派の理論では繰り返し実験が必須だが、そんな実験は非現実的 ベイズなら1回きりの事象の発生確率を予想可能
確率 数学的確率:各事象の,場合の数で計算した確率 統計的確率:たくさん 試行するとその確率 同時確率: 2つの事象A,Bが同時に起こる確率 [例] 壺の中に,赤玉が3つ,白玉が7つある.壺から無作為 に1つ取り出した玉が赤玉である確率は? 統計的確率:たくさん 試行するとその確率 同時確率: 2つの事象A,Bが同時に起こる確率 標本空間 U: 起こりうるすべての場合 積事象: A∩B に対応 A B A∩B U 4
条件付き確率の公式 事象U,A,Bの場合の数を nU, nA, nB とする よって [例] 男性200人中120人が,女性150人中40人が メガネをかけている. ひとりを選んだところ男性であった. その人がメガネをかけている確率は? 男性である確率 男性かつメガネの確率 男性のときに,メガネの確率 A A∩B B メガネ 120 メガネなし 80 男性 200 メガネ 40 メガネなし 110 女性 150
確率の乗法定理 条件付き確率の公式 より 乗法定理 が導出できる 条件付き確率の公式 より 乗法定理 が導出できる [例] 100本中10本が当たりのくじがある.引いたくじは戻さない として,Aが当たりを引き,続いてBも当たりを引く確率は? [例] 壺Aの中に,赤玉が3つ,白玉が7つある.壺Bの中に,赤玉 が6つ,白玉が4つある.壺Aと壺Bが選ばれる確率は2:1と して,壺から無作為に1つ取り出すとき,それが壺Aの赤玉 である確率は? だから だから
事象の独立 事象の独立の定義 事象Bの発生は,事象Aの発生に無関係である 独立事象の乗法定理 独立事象の確認には,上の式でなく下の式が用いられる [例] 100本中10本が当たる くじ がある.Aが当たりを引き, 続いてBも当たりを引く確率は? 引いたくじを戻さないなら,事象は従属(独立でない) 引いたくじを戻す場合は,事象は独立 だから で
確率変数 (stochastic variable, random variable) 試行の結果によって,その値をとる確率が定まる変数 あらかじめ決められた,事象の集合と,実数との対応 をとるもの [例] 明日が晴れる確率を求めよ. 数学は「数」を扱う学問なので、「明日が晴れる」という事象は直接は扱えない.そこで,事象と数の対応を確率変数とする. P{天気=晴}=P(晴) を,P{A=t}=f(t) と置き換え,確率変数Aを, 晴れたらA=1 曇りならA=2 雨ならA=3 雪ならA=4 となる変数と決めてしまう.これで,事象から数への変換可能. P{A=t}の t は t∈実数 実数を適当にひとつ事象に割り当てたのが t P{A=t} = f(t)は、事象の集合を確率変数Aで実数に置換したときの値が t である確率が, f(t) という値と等しいという意味
確率分布(probability distribution) 確率変数とその値をとる確率との 対応 を示す. 確率変数が整数値などの離散値(とびとびの値)をとるときは,確率分布は次のような一覧表で示される. すべての場合の確率の和は p1 + p2 + … + pn = 1 となる.
平均,分散,標準偏差 いままでは全事象は等確率 1/n で発生と仮定 各事象が異なる確率で発生するように拡張 平均 分散 標準偏差 平均 分散 標準偏差 [例] サイコロを1回投げたとき 平均 分散 標準偏差
ベイズの定理 確率の乗法定理より AとBは入れ替えても同じ 左辺が等しいので P(B)が0でないとして [例]ジョーカー以外のトランプから1枚のカードを抜くとする.ベイズの定理を利用して「抜いたカードが絵札のとき、それがハートである」確率は?
原因と結果の確率として見直す データDが得られたときに,それが原因(もしくは仮説)Hによる確率 [例] ある町が4月1日が雲りの確率は0.6, 4月2日が雨の確率は0.4, また,1日が曇りの時に2日が雨である確率は0.5である.今年,2日が 雨だったが,その原因と思われる1日の天気が曇りである確率は? H: 1日が曇り D: 2日が雨
ベイズ理論をイメージさせる図の表現 ベン図を確率がイメージしやすいように修正 H D D H D∩H D H D∩H D H D∩H 色の薄い部分で,色の濃い部分を割る D H D∩H D H D∩H P(H|D)は縦の割り算 P(D|H)は横の割り算 ベイズの定理は, 縦の割り算を横の割り算に変換 ベイズの 定理
四角にした最大のメリット 原因が複数ある場合に見やすい! 例えばデータDの原因としてH1,H2,H3が考えられるとき D データD 𝑯 𝟏 原因 𝑯 𝟏 原因 𝑯 𝟐 原因 𝑯 𝟑 𝑃(𝐷|𝐻 1 ) 𝑃(𝐷|𝐻 2 ) 𝑃(𝐷|𝐻 3 ) D D∩ 𝑯 𝟏 D∩ 𝑯 𝟐 D∩ 𝑯 𝟑 データD 互いに重なりがない(排反)と仮定! 𝑯 𝟏 𝑯 𝟐 𝑯 𝟑
の分母 𝑷( 𝑯 𝟏 |𝑫)= 𝑷 𝑫 𝑯 𝟏 𝑷( 𝑯 𝟏 ) 𝑷(𝑫) D D∩ 𝑯 𝟏 D∩ 𝑯 𝟐 D∩ 𝑯 𝟑 原因に重複がないときDは D∩ 𝐻 1 ,𝐷∩ 𝐻 2 ,𝐷∩ 𝐻 3 の3つの和で表現可能 さらに確率の乗法定理を適用 𝑃 𝐷 =𝑃 𝐷 𝐻 1 𝑃 𝐻 1 +𝑃 𝐷 𝐻 2 𝑃 𝐻 2 +𝑃 𝐷 𝐻 3 𝑃 𝐻 3 よって, 𝑯 𝟏 𝑯 𝟐 𝑯 𝟑 𝑃 𝐷 =𝑃 𝐷∩ 𝐻 1 +𝑃 𝐷∩ 𝐻 2 +𝑃 𝐷∩ 𝐻 3 𝑃( 𝐻 1 |𝐷)= 𝑃 𝐷 𝐻 1 𝑃( 𝐻 1 ) 𝑃 𝐷 𝐻 1 𝑃 𝐻 1 +𝑃 𝐷 𝐻 2 𝑃 𝐻 2 +𝑃 𝐷 𝐻 3 𝑃 𝐻 3
ベイズの展開公式 データDが得られたときに,その原因の可能性があるHiが起こっている確率は 原因 𝑯 𝟏 原因 𝑯 𝟐 原因 𝑯 𝒊 … 原因 𝑯 𝒏 … データD データDが得られたときに,その原因の可能性があるHiが起こっている確率は 原因Hiが起こる確率 と, HiのもとでDが起こる 確率 があれば分子も分母も計算可能
3つのキーワード 事後確率 データDが起こったあとのHiの確率 尤度 原因HiのもとでDが起こる確率 事前確率 データDが起こる前の原因Hiの確からしさ
壺の例でベイズ理論による計算 赤玉と白玉が合計3個入った壺が3つある.壺1には赤玉が1個,壺2には赤玉が2個,壺3には赤玉が3個はいっている.壺を1つ選んで玉を取り出すと赤だった.この壺が壺3である確率を求めよ.ただし,壺は3:2:1の割合で選ぶ. ベイズ理論の計算方法 モデル化し 尤度 を算出 事前確率 を設定 ベイズの展開公式を用いて 事後確率 を算出 D 壺1 壺2 壺3 ●○○ ●●○ ●が出た ●●●
理由不十分の原則 先の例で,それぞれの壺を選ぶ確率が不明のときはどうする? 従来の確率論では,計算不能 ベイズ理論では「情報がなければ確率は 同等 」とする 理由不十分の原則 ベイズ理論の計算方法 モデル化し尤度を算出 事前確率を設定(理由不十分の原則より) ベイズの展開公式を用いて事後確率を算出
データの並びが得られる場合 真珠とガラス玉が3:1で入ったA社の宝箱と 真珠とガラス玉が1:3で入ったB社の宝箱がある. ともに多くの玉が入っているが,見分けはつかない. A社製かB社製かわからない箱から玉を取り出すと,真珠,真珠,ガラス玉の順に出た.この宝箱がA社製である確率を求めよ. 問題の整理 尤度の算出
ベイズ理論では1つずつ結果を処理 まずは,1つ目が真珠であった. 理由不十分の原則から,事前確率は ベイズの展開公式より,1つ目の事後確率は ベイズ更新 2つ目の事前確率は,1つ目の 事後確率 1回目の 事前確率 ベイズ 展開公式 1回目の 事後確率 2回目の 事前確率 ベイズ 展開公式 2回目の 事後確率 =
2つ目も真珠だった. 2つ目の事前確率は ベイズの展開公式より,2つ目の事後確率は 3つ目はガラス玉だった. 3つ目の事前確率は 連続して真珠なので, 箱Aの確率が 高い ガラス玉が出て, 箱Aの確率が 下がった
ベイズ理論は人間の「信念」と一致 グラフにしてみると, 真珠が続くと,信念が高まり ガラス玉が出ると信念が揺らぐ のをよく表現している.
ベイズ理論の特徴を表わす例題 [例] ある病気の検査Tは, 病気にかかっている人を98%の確率で陽性と判定 病気にかかっていない人を5%の確率で陽性と判定 この病気には,全体で3%の人がかかっている. 無作為に1人を選んで検査すると陽性だった.この人が,この病気にかかっている確率は? 原因を 𝐻 1 , 𝐻 2 結果を𝐷 と定義すると 𝐻 1 𝐻 2 D 「この病気にかかっている」 「この病気にかかっていない」 「検査でこの病気にかかっていると判定される」
ベイズの展開公式を適用 いまは,H1, H2 だけ 尤度 P(D | H1) = 「病人が陽性と判断される」確率= 0.98 事前確率 P(H1) = 「病人である」確率= 0.03 P(H2) = 「健康な人である」確率= 0.97
計算結果と直感的解の対比 陽性と診断されたのは 294 + 485 = 779人 病人 300人 陰性 9215人 陽性 98% 294人 H1 6人 陽性(3%) 485人 H2 病人 300人 受検者 1万人 健康 9700人 陽性と診断されたのは 294 + 485 = 779人 病人 健康 病人である確率( 𝐻 1 |𝐷)は 𝐻 1 𝐷 = 294 294+485 = 294 779 = 37.7%
事後確率は尤度と事前確率の積に比例 : すべての原因H1,H2, …, Hnで分母は 共通 ベイズ理論では,左辺の事後確率は右辺の分子に比例 事後確率 尤度 事前確率 分母は正規化しているだけ