決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
0/1 表現型と 個別化医療における決断 多要素を勘案した末に 白黒つけること 京都大学 ( 医 ) 統計遺伝学分野 山田 亮.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
ヒストグラム 考え方と作り方 産業統計論 2004 年. 量的変数で区分された相対度数 相対度数 下位集団の大きさを全集団に占める割合として示したもの 質的変数と量的変数 たとえば、男女別集計のような場合は、あるかないかどちらかである。 (どちらでも内を含めてもよい) これに対し、身長や体重、テストの点数、資産、所得などは、本来連.
Rコマンダーで反復測定ANOVA.
第4章 統計的検定 統計学 2007年度.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
数当てゲーム (「誤り訂正符号」に関連した話題)
いろいろな確率を求めてみよう。.
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
重回帰分析入門 経済データ解析 2009年度.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
実証分析の手順 経済データ解析 2011年度.
Pattern Recognition and Machine Learning 1.5 決定理論
統計学 12/3(月).
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
経済統計 第三回 5/1 Business Statistics
統計学 11/30(木).
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
Bias2 - Variance - Noise 分解
A班 ランダム選択に一言加えたら・・・ 成田幸弘 橋本剛 嶌村都.
確率・統計Ⅱ 第7回.
 Combinations(2)        古川 勇輔.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
クロス集計とχ2検定 P.144.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
疫学概論 標本抽出法 Lesson 10. 標本抽出 §B. 標本抽出法 S.Harano,MD,PhD,MPH.
日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
資料の活用.
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
尤度の比較と仮説検定とを比較する ~P値のことなど~
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
経営学研究科 M1年 学籍番号 speedster
クロス表とχ2検定.
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
親子鑑定に見る尤度比を 角度を変えて眺めてみる
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
重回帰分析入門 (第5章補足) 統計学 2007年度.
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
岡圭吾(東京大学) 稲葉直貴(タイムインターメディア) 飯野玲(日本評論社)
※別途 メリットカード&デメリットカードを印刷して準備してください。
混合試料の構成人数 Nuisance パラメタ
混合ガウスモデル Gaussian Mixture Model GMM
アルゴリズム ~すべてのプログラムの基礎~.
Presentation transcript:

決断のための分布合算 京大(医)統計遺伝学分野 山田 亮

わからなくても決断する あなたは冒険旅行中 分かれ道があって、電光掲示板がある 11例目のあなたは、どちらの道を選ぶか 『右の道を選んだ者、7名あり。4名は幸福に、3名は不幸になった』 『左の道を選んだ者、3名あり。2名は幸福に、1名は不幸になった』 11例目のあなたは、どちらの道を選ぶか 我を過ぐれば憂ひの都あり、 我を過ぐれば永遠の苦患あり、 我を過ぐれば滅亡の民あり

○ × 和 X 4 3 7 Y 2 1 ○率をベータ分布で推定 (4+1)/(7+2) 4/7 道X 道Y 期待値 最頻値 2/3 ○率 p <- seq(from=0,to=1,length=100) X <- c(4,3) Y <- c(2,1) dx <- dbeta(p,X[1]+1,X[2]+1) dy <- dbeta(p,Y[1]+1,Y[2]+1) Mean.x <- (X[1]+1)/(sum(X)+2) Mean.y <- (Y[1]+1)/(sum(Y)+2) Mode.x <- X[1]/sum(X) Mode.y <- Y[1]/sum(Y) Mean.x Mean.y Mode.x Mode.y matplot(p,cbind(dx,dy),type="l") abline(v=Mean.x,col=1) abline(v=Mean.y,col=2) abline(v=Mode.x,col=1,lty=2) abline(v=Mode.y,col=2,lty=2) 最頻値 2/3 ○率 (2+1)/(3+2)

期待値で選択することは「悪くない」 方針 「期待値」が大きい方を選ぶ 「期待値」が同じなら、どちらかを選ぶ

X Y X期待値 Y期待値 ○ × 0.5 1 0.333333 2 0.4 3 4 0.285714 0.25 5 0.2 6 0.222222 7 0.272727 8 0.307692 9 0.375 10 0.352941 11

Y × Y ○ X × X ○

本当にYばかりが 選ばれるようになるか

Sele

確率的な決断 Multi-armed bandit 問題 複数のスロットマシンがあって、それぞれのマシンには「当たり」の確率が決まっているが、その確率が不明であるという マシンを1つずつ選んでは、勝負をして、各マシンの当否結果を記録しながら、勝負を繰り返すことにする どんなルールで選ぶと、儲けが最大になりやすいか、という問題

確率的な決断 Multi-armed bandit 問題 その状況でのThomson samplingとかの方が良い結果が得られることが知られている。 ごく大雑把に言うと、 データを見ても、「100%、どのアームがよいとは言い切れない」から、データから見て、「得策らしくないアームも、ある程度(確率的に)は選ぼう」 いったん、悪い方を選び勝ちになっても、判断を修正するポテンシャルが「確率的な決断」によってもたらされる

わからなくても決断する 分かれ道があって、電光掲示板がある 11例目のあなたは、どうするか 『確率的な決断が大事である』 『従って、この分かれ道に奇数回目に来た者には、電光掲示板は点灯せず、偶数回目に来た者には、点灯することとする』 11例目のあなたは、どうするか 1.適当に選ぶ 2.出直す

何を比較する? 「どちらの道を選ぶと○になる確率が高いのか」 「どちらの道が『○率が高い』のか」 これは○の期待値 「どちらの道の『○の期待値』が高いのか」 「どちらの道が『○率が高い』のか」

○ × 和 X 4 3 7 Y 2 1 期待値 (4+1)/(7+2) 期待値(2+1)/(3+2)

「どちらの道の『○の期待値』が高いのか」 × 和 X 4 3 7 Y 2 1 期待値 (4+1)/(7+2) 期待値(2+1)/(3+2) 「どちらの道の『○の期待値』が高いのか」

○ × 和 X 4 3 7 Y 2 1 (4+1)/(7+2) (2+1)/(3+2) 「どちらの道が『○率が高い』のか」

計算できる(式の導出は省略)

○率が高い確率応じて X,Yを「確率的に」選択してみよう

『右の道を選んだ者、7名あり。4名は幸福に、3名は不幸になった』 その内訳は 男 5名。2名は幸福に、3名は不幸に 女 2名。2名とも幸福に 『左の道を選んだ者、3名あり。2名は幸福に、1名は不幸になった』 男 3名。2名は幸福に、1名は不幸に 女 は左の道を選んでおらぬ

男女合算 と 女のみ 女のみ 男女合算 女のみ 男女合算 p <- seq(from=0,to=1,length=100) 男女合算 と 女のみ 女のみ 男女合算 女のみ p <- seq(from=0,to=1,length=100) #y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,3+1),dbeta(p,2+1,0+1),dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,0+1),dbeta(p,0+1,0+1)) y1 <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,0+1)) y2 <- cbind(dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) par(mfcol=c(1,2)) matplot(p,y1,type="l",ylab="X",ylim=c(0,3)) matplot(p,y2,type="l",ylab="Y",ylim=c(0,3)) par(mfcol=c(1,1)) 男女合算

「男女に違いなし」なら 「男女に違いあり」なら 男女合算の情報を使った方が正確 男女合算の情報に基づいて集計した方が、早く、収束する 男女別々の情報を使った方が正確

0.58 0.25 0.42 0.75 女のみ 男女合算 p <- seq(from=0,to=1,length=100) #y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,3+1),dbeta(p,2+1,0+1),dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,0+1),dbeta(p,0+1,0+1)) y1 <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,0+1)) y2 <- cbind(dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) yall <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1)) yfemale <- cbind(dbeta(p,2+1,0+1),dbeta(p,0+1,0+1)) par(mfcol=c(1,2)) matplot(p,y1,type="l",ylab="X",ylim=c(0,3)) matplot(p,y2,type="l",ylab="Y",ylim=c(0,3)) par(mfcol=c(1,1)) dx <- dbeta(p,4+1,3+1) dy <- dbeta(p,2+1,1+1) dxy <- outer(dx,dy,"*") dx.female <- dbeta(p,2+1,0+1) dy.female <- dbeta(p,0+1,0+1) dxy.female <- outer(dx.female,dy.female,"*") par(mfcol=c(2,2)) matplot(p,yall,type="l",ylab="X",ylim=c(0,3)) image(dxy,xlim=c(0,1),ylim=c(0,1),xlab="X",ylab="Y") contour(dxy,add=TRUE) abline(0,1) matplot(p,yfemale,type="l",ylab="Y",ylim=c(0,3)) image(dxy.female,xlim=c(0,1),ylim=c(0,1),xlab="X",ylab="Y") contour(dxy.female,add=TRUE) Decision_beta.2(c(4,3,2,1)+1) Decision_beta.2(c(2,0,0,0)+1) > Decision_beta.2(c(4,3,2,1)+1) [1] 0.4242424 > Decision_beta.2(c(2,0,0,0)+1) [1] 0.75 0.42 0.75

男女合算 女のみ 道の選択確率が異なる 『道 X vs. 道 Y、どちらにしよう?』 『男女合算 vs. 女のみ、どちらにしよう?』 男女合算 女のみ 道の選択確率が異なる 『道 X vs. 道 Y、どちらにしよう?』 確率的に選んだ 『男女合算 vs. 女のみ、どちらにしよう?』 確率的に選んでみる

(p_m,p_f) 『男女に違いがあってもよい』という立場 (p_m=p, p_f=p) 『男女に違いがない』という場合 女 X 男

X ○ × 和 男 2 3 5 女 女 X 男

『男女に差あり』 の同時分布 正方形部分の積分は こちらも1 『男女に差あり』 の同時分布 正方形部分の積分は1 X ○ × 和 男 女 X 女 X ○ × 和 男 2 3 5 女 『男女に差あり』 の同時分布 正方形部分の積分は こちらも1 『男女に差あり』 の同時分布 正方形部分の積分は1

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差なし』 部分

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差なし』 部分

1 1 1

0.5 1/(1+r) 事前確率 事後確率 0.5 r/(1+r) =r

仮説の比率が決まれば 2つのベータ分布の 重みづけ混合分布 1/(1+r) Beta(a+c+1,b+d+1) + r/(1+r) Beta(c+1,d+1)

女 男 800 200 1→1000人 8割男、2割女 男 X:0.2, Y:0.4 女 X:0.4, Y:0.2 0.2 vs. 0.25 10000人 女 model.1 <- my.make.model(1,1) model.2 <- my.make.model(1,2) model.3 <- my.make.model(1,0) n.pt <- 1000 X <- matrix(sample(1:2,n.pt,replace=TRUE,prob=c(0.8,0.2)),ncol=1) Prob.Vec <- list() tmp.Pr <- (X-1)*0.2+0.2 Prob.Vec[[1]] <- cbind(tmp.Pr,1-tmp.Pr) tmp.Pr <- (X-1)*(-0.2)+0.4 Prob.Vec[[2]] <-cbind(tmp.Pr,1-tmp.Pr) better.1 <- which(Prob.Vec[[1]][,1]>Prob.Vec[[2]][,1]) better.2 <- which(Prob.Vec[[1]][,1]<Prob.Vec[[2]][,1]) n.iter <- 10 out.mat.1 <- matrix(0,n.iter,length(better.1)) out.mat.2 <- matrix(0,n.iter,length(better.2)) for(i in 1:n.iter){ model.2.out <- my.simulate.model.2(model.2,X,Prob.Vec,n.iter=n.pt) better.1.selection <- (-1)*(model.2.out$selection[better.1]-2) better.2.selection <- model.2.out$selection[better.2]-1 out.mat.1[i,] <- cumsum(better.1.selection)/(1:length(better.1)) out.mat.2[i,] <- cumsum(better.2.selection)/(1:length(better.2)) } matplot(t(out.mat.1),type="l") matplot(t(out.mat.2),type="l") 男 800 200

『右の道を選んだ者、7名あり。4名は幸福に、3名は不幸になった』 幸福になった者の体重は67,53,86,71kg、不幸になった者の体重は48,52,51kgであった 『左の道を選んだ者、3名あり。2名は幸福に、1名は不幸になった』 幸福になった者の体重は41,53,49kg、不幸になった者の体重は88,68,64kgであった

帰結ごとにカーネル推定 説明変数(体重)における「みなし観測度数」を推定 「みなし観測度数」に基づく「みなしベータ分布」 「みなしベータ分布」をX,Y道間で比較

全250人 Xが良いはずの人 Yが良いはずの人

いくつかのこと 量的変数・多次元 多名義尺度における「仮説数」のハンドリング 帰結のカーネル分布推定が効かなくなる k-NN (k-nearest Neighbors)で代用できる?? 多名義尺度における「仮説数」のハンドリング 2^k : k=10くらいまでは力技でも??