決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
0/1 表現型と 個別化医療における決断 多要素を勘案した末に 白黒つけること 京都大学 ( 医 ) 統計遺伝学分野 山田 亮.
ヒストグラム 考え方と作り方 産業統計論 2004 年. 量的変数で区分された相対度数 相対度数 下位集団の大きさを全集団に占める割合として示したもの 質的変数と量的変数 たとえば、男女別集計のような場合は、あるかないかどちらかである。 (どちらでも内を含めてもよい) これに対し、身長や体重、テストの点数、資産、所得などは、本来連.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
Rコマンダーで反復測定ANOVA.
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第4章 統計的検定 統計学 2007年度.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
数当てゲーム (「誤り訂正符号」に関連した話題)
統計解析 第7回 第6章 離散確率分布.
検定 P.137.
Pattern Recognition and Machine Learning 1.5 決定理論
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的推定と検定 推定: 統計的に標本の統計量から母集団の母数(母平均・母標準偏差など)を推測することを統計的推定という 検定:
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
クイズ 「インターネットを使う前に」 ネチケット(情報モラル)について学ぼう.
A班 ランダム選択に一言加えたら・・・ 成田幸弘 橋本剛 嶌村都.
確率・統計Ⅱ 第7回.
 Combinations(2)        古川 勇輔.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
クロス集計とχ2検定 P.144.
© Yukiko Abe 2014 All rights reserved
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
社会統計学Ic・統計科学I 第六回 ~仮説検証~
analysis of survey data 第2回 堀 啓造
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
教育工学を始めよう ~研究テーマの選び方から論文の書き方まで~ (第1章)
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
資料の活用.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
analysis of survey data 堀 啓造
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
尤度の比較と仮説検定とを比較する ~P値のことなど~
中3数 三平方の定理の計算 三平方の定理の逆 中学校 3年数学 三平方の定理 授業第2時に実施する。
第4章 統計的検定 (その2) 統計学 2006年度.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
クロス表とχ2検定.
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
親子鑑定に見る尤度比を 角度を変えて眺めてみる
統計学  第9回 西 山.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
問題 あなたはポケモンGOをやっています. これから5か所のポケモンの巣(ポケモンがよく出る場所)を回って レアポケモンを捕まえに行こうと思っています. しかし,持ち物を見たらハイパーボール1つしかありませんでした. なるべくCPが高い(強い)レアポケモンを 捕まえたいのですが, 何か所目で捕まえれば.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
Hit&Blow 足立 俊介 岩田 雅弘 川延 直美 新田 修平.
重回帰分析入門 (第5章補足) 統計学 2007年度.
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
Hit & Blow 出口研究室 足立 豊  國井 貴雄  高井 信秀   辻 嘉治  村田 和行.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
混合試料の構成人数 Nuisance パラメタ
混合ガウスモデル Gaussian Mixture Model GMM
アルゴリズム ~すべてのプログラムの基礎~.
Presentation transcript:

決断のための分布合算 京大(医)統計遺伝学分野 山田 亮

小児~若年発症 ループス 血栓リスクが高そうに思うが… 大急ぎで電子カルテDBを検索した:かき集めても血栓例は10例 N Engl J Med 2011; 365:1758-1759November 10, 2011DOI: 10.1056/NEJMp1108726

わからなくても決断する あなたは冒険旅行中 分かれ道があって、電光掲示板がある 11例目のあなたは、どちらの道を選ぶか 『右の道を選んだ者、7名あり。4名は幸福に、3名は不幸になった』 『左の道を選んだ者、3名あり。2名は幸福に、1名は不幸になった』 11例目のあなたは、どちらの道を選ぶか 我を過ぐれば憂ひの都あり、 我を過ぐれば永遠の苦患あり、 我を過ぐれば滅亡の民あり

○ × 和 X 4 3 7 Y 2 1 ○率をベータ分布で推定 (4+1)/(7+2) 4/7 道X 道Y 期待値 最頻値 2/3 ○率 p <- seq(from=0,to=1,length=100) X <- c(4,3) Y <- c(2,1) dx <- dbeta(p,X[1]+1,X[2]+1) dy <- dbeta(p,Y[1]+1,Y[2]+1) Mean.x <- (X[1]+1)/(sum(X)+2) Mean.y <- (Y[1]+1)/(sum(Y)+2) Mode.x <- X[1]/sum(X) Mode.y <- Y[1]/sum(Y) Mean.x Mean.y Mode.x Mode.y matplot(p,cbind(dx,dy),type="l") abline(v=Mean.x,col=1) abline(v=Mean.y,col=2) abline(v=Mode.x,col=1,lty=2) abline(v=Mode.y,col=2,lty=2) 最頻値 2/3 ○率 (2+1)/(3+2)

期待値で選択することは「悪くない」 方針 「期待値」が大きい方を選ぶ 「期待値」が同じなら、どちらかを選ぶ

ゼロからのスタート Xの○率 0.2 Yの○率 0.25 n.iter <- 20 N <- 1000 res <- list() Suc.x <- Suc.y <- Select.X <- matrix(0,n.iter,N) ps <- c(0.6,0.65) for(i in 1:n.iter){ res[[i]] <- matrix(0,N,4) for(j in 2:N){ m1 <- (res[[i]][j-1,1]+1)/(res[[i]][j-1,1]+res[[i]][j-1,2]+1) m2 <- (res[[i]][j-1,3]+1)/(res[[i]][j-1,3]+res[[i]][j-1,4]+1) if(m1==m2){ s <- sample(1:2,1) }else if(m1>m2){ s <- 1 }else{ s <- 2 } res[[i]][j,] <- res[[i]][j-1,] x <- sample(1:0,1,prob=c(1-ps[s],ps[s])) tmp <- 2*(s-1)+x+1 res[[i]][j,tmp] <- res[[i]][j,tmp] +1 Suc.x[i,] <- res[[i]][,2]/(res[[i]][,1]+res[[i]][,2]) Suc.y[i,] <- res[[i]][,4]/(res[[i]][,3]+res[[i]][,4]) Select.X[i,] <- res[[i]][,1]+res[[i]][,2] matplot(2:N,t(Select.X[,2:N])/(2:N),type="l",xlab="No.samples",main="Fraction of X")

X Y X期待値 Y期待値 ○ × 0.5 1 0.333333 2 0.4 3 4 0.285714 0.25 5 0.2 6 0.222222 7 0.272727 8 0.307692 9 0.375 10 0.352941 11

Y × Y ○ X × X ○

Y × Y ○ X × X ○

○率の高いYばかりが選ばれるようになった … and they lived happily ever after  めでたし、めでたし Y × Y ○ X × X ○

○率の高いYばかりが選ばれるようになった … and they lived happily ever after  めでたし、めでたし Y × Y ○ X × X ○

本当にYばかりが 選ばれるようになるか

Sele

Yに落ち着くか Xに落ち着くか Y X

確率的な決断 Multi-armed bandit 問題 複数のスロットマシンがあって、それぞれのマシンには「当たり」の確率が決まっているが、その確率が不明であるという マシンを1つずつ選んでは、勝負をして、各マシンの当否結果を記録しながら、勝負を繰り返すことにする どんなルールで選ぶと、儲けが最大になりやすいか、という問題

確率的な決断 Multi-armed bandit 問題 その状況でのThomson samplingとかの方が良い結果が得られることが知られている。 ごく大雑把に言うと、 データを見ても、「100%、どのアームがよいとは言い切れない」から、データから見て、「得策らしくないアームも、ある程度(確率的に)は選ぼう」 いったん、悪い方を選び勝ちになっても、判断を修正するポテンシャルが「確率的な決断」によってもたらされる

『確率的な決断にする!』

わからなくても決断する 分かれ道があって、電光掲示板がある 11例目のあなたは、どうするか 『確率的な決断が大事である』 『従って、この分かれ道に奇数回目に来た者には、電光掲示板は点灯せず、偶数回目に来た者には、点灯することとする』 11例目のあなたは、どうするか 1.適当に選ぶ 2.出直す

わからなくても決断する 分かれ道があって、電光掲示板がある 11例目のあなたは、どうするか 『確率的な決断が大事である』 『従って、この分かれ道に奇数回目に来た者には、電光掲示板は点灯せず、偶数回目に来た者には、点灯することとする』 11例目のあなたは、どうするか (1) 適当に選ぶ→こうすればある程度の「確率的決断」が起きる 2.出直す

わからなくても決断する 分かれ道があって、電光掲示板がある 11例目のあなたは、どうするか 『確率的な決断が大事である』 『従って、この分かれ道に奇数回目に来た者には、電光掲示板は点灯せず、偶数回目に来た者には、点灯することとする』 11例目のあなたは、どうするか (1) 適当に選ぶ→こうすればある程度の「確率的決断」が起きる (2) 出直す

何が問題か 偶数・奇数で不平等

何が問題か 偶数・奇数で不平等 平等な何かを作ってみる

何を比較する? 「どちらの道を選ぶと○になる確率が高いのか」 「どちらの道が『○率が高い』のか」 これは○の期待値 「どちらの道の『○の期待値』が高いのか」 「どちらの道が『○率が高い』のか」

何を比較する? 「どちらの道を選ぶと○になる確率が高いのか」 「どちらの道が『○率が高い』のか」 これは○の期待値 「どちらの道の『○の期待値』が高いのか」 「どちらの道が『○率が高い』のか」 違う設問だから答えも違う

何を比較する? 「どちらの道を選ぶと○になる確率が高いのか」 「どちらの道が『○率が高い』のか」 これは○の期待値 「どちらの道の『○の期待値』が高いのか」 「どちらの道が『○率が高い』のか」 違う設問だから答えも違う Xの方が高いかもしれないし、Yの方が高いかもしれない

○ × 和 X 4 3 7 Y 2 1 ○率をベータ分布で推定 (4+1)/(7+2) 4/7 道X 道Y 期待値 最頻値 2/3 ○率 p <- seq(from=0,to=1,length=100) X <- c(4,3) Y <- c(2,1) dx <- dbeta(p,X[1]+1,X[2]+1) dy <- dbeta(p,Y[1]+1,Y[2]+1) Mean.x <- (X[1]+1)/(sum(X)+2) Mean.y <- (Y[1]+1)/(sum(Y)+2) Mode.x <- X[1]/sum(X) Mode.y <- Y[1]/sum(Y) Mean.x Mean.y Mode.x Mode.y matplot(p,cbind(dx,dy),type="l") abline(v=Mean.x,col=1) abline(v=Mean.y,col=2) abline(v=Mode.x,col=1,lty=2) abline(v=Mode.y,col=2,lty=2) 最頻値 2/3 ○率 (2+1)/(3+2)

○ × 和 X 4 3 7 Y 2 1 期待値 (4+1)/(7+2) 期待値(2+1)/(3+2)

「どちらの道の『○の期待値』が高いのか」 × 和 X 4 3 7 Y 2 1 期待値 (4+1)/(7+2) 期待値(2+1)/(3+2) 「どちらの道の『○の期待値』が高いのか」

○ × 和 X 4 3 7 Y 2 1 (4+1)/(7+2) 「どちらの道が『○率が高い』のか」

○ × 和 X 4 3 7 Y 2 1 (4+1)/(7+2) (2+1)/(3+2) 「どちらの道が『○率が高い』のか」

計算できる(式の導出は省略)

○率が高い確率応じて X,Yを「確率的に」選択してみよう

○率の高いYばかりが選ばれるようになった … and they lived happily ever after  めでたし、めでたし Y × Y ○ X × X ○

『いいことを教えてやろう』

『右の道を選んだ者、7名あり。4名は幸福に、3名は不幸になった』 その内訳は 男 5名。2名は幸福に、3名は不幸に 女 2名。2名とも幸福に 『左の道を選んだ者、3名あり。2名は幸福に、1名は不幸になった』 男 3名。2名は幸福に、1名は不幸に 女 は左の道を選んでおらぬ

男女合算 と 女のみ 女のみ 男女合算 女のみ 男女合算 p <- seq(from=0,to=1,length=100) 男女合算 と 女のみ 女のみ 男女合算 女のみ p <- seq(from=0,to=1,length=100) #y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,3+1),dbeta(p,2+1,0+1),dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,0+1),dbeta(p,0+1,0+1)) y1 <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,0+1)) y2 <- cbind(dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) par(mfcol=c(1,2)) matplot(p,y1,type="l",ylab="X",ylim=c(0,3)) matplot(p,y2,type="l",ylab="Y",ylim=c(0,3)) par(mfcol=c(1,1)) 男女合算

「男女に違いなし」なら 「男女に違いあり」なら 男女合算の情報を使った方が正確 男女合算の情報に基づいて集計した方が、早く、収束する 男女別々の情報を使った方が正確

0.58 0.25 0.42 0.75 女のみ 男女合算 p <- seq(from=0,to=1,length=100) #y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,3+1),dbeta(p,2+1,0+1),dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) y <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1),dbeta(p,2+1,0+1),dbeta(p,0+1,0+1)) y1 <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,0+1)) y2 <- cbind(dbeta(p,2+1,1+1),dbeta(p,0+1,0+1)) yall <- cbind(dbeta(p,4+1,3+1),dbeta(p,2+1,1+1)) yfemale <- cbind(dbeta(p,2+1,0+1),dbeta(p,0+1,0+1)) par(mfcol=c(1,2)) matplot(p,y1,type="l",ylab="X",ylim=c(0,3)) matplot(p,y2,type="l",ylab="Y",ylim=c(0,3)) par(mfcol=c(1,1)) dx <- dbeta(p,4+1,3+1) dy <- dbeta(p,2+1,1+1) dxy <- outer(dx,dy,"*") dx.female <- dbeta(p,2+1,0+1) dy.female <- dbeta(p,0+1,0+1) dxy.female <- outer(dx.female,dy.female,"*") par(mfcol=c(2,2)) matplot(p,yall,type="l",ylab="X",ylim=c(0,3)) image(dxy,xlim=c(0,1),ylim=c(0,1),xlab="X",ylab="Y") contour(dxy,add=TRUE) abline(0,1) matplot(p,yfemale,type="l",ylab="Y",ylim=c(0,3)) image(dxy.female,xlim=c(0,1),ylim=c(0,1),xlab="X",ylab="Y") contour(dxy.female,add=TRUE) Decision_beta.2(c(4,3,2,1)+1) Decision_beta.2(c(2,0,0,0)+1) > Decision_beta.2(c(4,3,2,1)+1) [1] 0.4242424 > Decision_beta.2(c(2,0,0,0)+1) [1] 0.75 0.42 0.75

男女合算 女のみ 道の選択確率が異なる 『道 X、道 Y、どちらにしよう?』 『男女合算、女のみ、どちらにしよう?』 確率的に選んだ 男女合算 女のみ 道の選択確率が異なる 『道 X、道 Y、どちらにしよう?』 確率的に選んだ 『男女合算、女のみ、どちらにしよう?』 確率的に選んでみる

男女合算 女のみ 道の選択確率が異なる 『道 X vs. 道 Y、どちらにしよう?』 『男女合算 vs. 女のみ、どちらにしよう?』 男女合算 女のみ 道の選択確率が異なる 『道 X vs. 道 Y、どちらにしよう?』 確率的に選んだ 『男女合算 vs. 女のみ、どちらにしよう?』 確率的に選んでみる

男女合算 道X,道Yのベータ分布 Y X X

男女合算→道X 道X→男,道Y→女のベータ分布

X ○ × 和 男 2 3 5 女 道X 男,女のベータ分布 女 X 男

X ○ × 和 男 2 3 5 女 道X 男,女のベータ分布 (p_m=p, p_f=p) 女 X 男

X ○ × 和 男 2 3 5 女 道X 男, 女のベータ分布 (p_m,p_f) (p_m=p, p_f=p) 女 X 男

(p_m,p_f) 『男女に違いがあってもよい』という立場 (p_m=p, p_f=p) 『男女に違いがない』という場合 女 X 男

X ○ × 和 男 2 3 5 女 女 X 男

X ○ × 和 男 2 3 5 女 女 X 男

X ○ × 和 男 2 3 5 女 女 この積分値を活用する X 男

『男女差がある場合』 サンプル数が0:積分値1 サンプル数が増える:小さくなる 『男女差がない場合』より 小さくなる程度は急速

小さくはなるが、対立仮説が作る同時分布のピークが対角線のごく近傍に来るので、小さくなっても困らない 『男女差がない場合』 サンプル数が0:積分値1 サンプル数が増える:小さくなる 小さくはなるが、対立仮説が作る同時分布のピークが対角線のごく近傍に来るので、小さくなっても困らない

X ○ × 和 男 2 3 5 女 どう活用する? X

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差あり』 の同時分布 正方形部分の積分は1

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差あり』 の同時分布 正方形部分の積分は1

『男女に差あり』 の同時分布 正方形部分の積分は こちらも1 『男女に差あり』 の同時分布 正方形部分の積分は1 X ○ × 和 男 女 X 女 X ○ × 和 男 2 3 5 女 『男女に差あり』 の同時分布 正方形部分の積分は こちらも1 『男女に差あり』 の同時分布 正方形部分の積分は1

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差なし』 部分

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差なし』 部分

X ○ × 和 男 女 X ○ × 和 男 2 3 5 女 『男女に差なし』 部分

1 1 1

1 1 積分 1

? ? 事前確率 事後確率 ? ?

0.5 ? 事前確率 事後確率 0.5 ?

1 1 積分 1

0.5 1/(1+r) 事前確率 事後確率 0.5 r/(1+r) =r

仮説の比率が決まれば 2つのベータ分布の 重みづけ混合分布 1/(1+r) Beta(a+c+1,b+d+1) + r/(1+r) Beta(c+1,d+1)

道X、道Y、 それぞれの混合ベータ分布 に基づき 『〇率が高くなる確率』 による確率的選択 モンテカルロに 『○率が高くなる確率』を算出

やってみよう

女 男 200 800 1→1000人 8割男、2割女 男 X:0.2, Y:0.4 女 X:0.2, Y:0.4 0.2 vs. 0.25 10000人 女 n.pt <- 1000 X <- matrix(sample(1:2,n.pt,replace=TRUE,prob=c(0.8,0.2)),ncol=1) Prob.Vec <- list() tmp.Pr <- (X-1)*0.2+0.2 Prob.Vec[[1]] <- cbind(tmp.Pr,1-tmp.Pr) Prob.Vec[[2]] <-cbind(tmp.Pr,1-tmp.Pr) better.1 <- which(X==1) better.2 <- which(X==2) n.iter <- 10 out.mat.1 <- matrix(0,n.iter,length(better.1)) out.mat.2 <- matrix(0,n.iter,length(better.2)) for(i in 1:n.iter){ model.2.out <- my.simulate.model.2(model.2,X,Prob.Vec,n.iter=n.pt) better.1.selection <- (-1)*(model.2.out$selection[better.1]-2) better.2.selection <- model.2.out$selection[better.2]-1 out.mat.1[i,] <- cumsum(better.1.selection)/(1:length(better.1)) out.mat.2[i,] <- cumsum(better.2.selection)/(1:length(better.2)) } matplot(t(out.mat.1),type="l") matplot(t(out.mat.2),type="l") 男 200 800

1→1000人 8割男、2割女 男 X:0.2, Y:0.2 女 X:0.4, Y:0.4 女 n.pt <- 1000 X <- matrix(sample(1:2,n.pt,replace=TRUE,prob=c(0.8,0.2)),ncol=1) Prob.Vec <- list() tmp.Pr <- (X-1)*0.2+0.2 Prob.Vec[[1]] <- cbind(tmp.Pr,1-tmp.Pr) Prob.Vec[[2]] <-cbind(tmp.Pr,1-tmp.Pr) better.1 <- which(X==1) better.2 <- which(X==2) n.iter <- 10 out.mat.1 <- matrix(0,n.iter,length(better.1)) out.mat.2 <- matrix(0,n.iter,length(better.2)) for(i in 1:n.iter){ model.2.out <- my.simulate.model.2(model.2,X,Prob.Vec,n.iter=n.pt) better.1.selection <- (-1)*(model.2.out$selection[better.1]-2) better.2.selection <- model.2.out$selection[better.2]-1 out.mat.1[i,] <- cumsum(better.1.selection)/(1:length(better.1)) out.mat.2[i,] <- cumsum(better.2.selection)/(1:length(better.2)) } matplot(t(out.mat.1),type="l") matplot(t(out.mat.2),type="l") 男 800 200

女 男 800 200 1→1000人 8割男、2割女 男 X:0.2, Y:0.4 女 X:0.4, Y:0.2 0.2 vs. 0.25 10000人 女 model.1 <- my.make.model(1,1) model.2 <- my.make.model(1,2) model.3 <- my.make.model(1,0) n.pt <- 1000 X <- matrix(sample(1:2,n.pt,replace=TRUE,prob=c(0.8,0.2)),ncol=1) Prob.Vec <- list() tmp.Pr <- (X-1)*0.2+0.2 Prob.Vec[[1]] <- cbind(tmp.Pr,1-tmp.Pr) tmp.Pr <- (X-1)*(-0.2)+0.4 Prob.Vec[[2]] <-cbind(tmp.Pr,1-tmp.Pr) better.1 <- which(Prob.Vec[[1]][,1]>Prob.Vec[[2]][,1]) better.2 <- which(Prob.Vec[[1]][,1]<Prob.Vec[[2]][,1]) n.iter <- 10 out.mat.1 <- matrix(0,n.iter,length(better.1)) out.mat.2 <- matrix(0,n.iter,length(better.2)) for(i in 1:n.iter){ model.2.out <- my.simulate.model.2(model.2,X,Prob.Vec,n.iter=n.pt) better.1.selection <- (-1)*(model.2.out$selection[better.1]-2) better.2.selection <- model.2.out$selection[better.2]-1 out.mat.1[i,] <- cumsum(better.1.selection)/(1:length(better.1)) out.mat.2[i,] <- cumsum(better.2.selection)/(1:length(better.2)) } matplot(t(out.mat.1),type="l") matplot(t(out.mat.2),type="l") 男 800 200

1→1000人 8割男、2割女 男 X:0.2, Y:0.2 女 X:0.4, Y:0.2 女 n.pt <- 1000 X <- matrix(sample(1:2,n.pt,replace=TRUE,prob=c(0.8,0.2)),ncol=1) Prob.Vec <- list() tmp.Pr <- (X-1)*0.2+0.2 Prob.Vec[[1]] <- cbind(tmp.Pr,1-tmp.Pr) tmp.Pr <- (X-1)*0+0.2 Prob.Vec[[2]] <-cbind(tmp.Pr,1-tmp.Pr) better.1 <- which(X==1) better.2 <- which(X==2) n.iter <- 10 out.mat.1 <- matrix(0,n.iter,length(better.1)) out.mat.2 <- matrix(0,n.iter,length(better.2)) for(i in 1:n.iter){ model.2.out <- my.simulate.model.2(model.2,X,Prob.Vec,n.iter=n.pt) better.1.selection <- (-1)*(model.2.out$selection[better.1]-2) better.2.selection <- model.2.out$selection[better.2]-1 out.mat.1[i,] <- cumsum(better.1.selection)/(1:length(better.1)) out.mat.2[i,] <- cumsum(better.2.selection)/(1:length(better.2)) } matplot(t(out.mat.1),type="l") matplot(t(out.mat.2),type="l") 男 800 200

悪くない…(?) それ以外の選択戦略との比較が必要 ・・・割愛

やれやれ できた!

○率の高いYばかりが選ばれるようになった … and they lived happily ever after  めでたし、めでたし Y × Y ○ ほんとに よかったのぉ、 おばあさん X × よかったですね、 おじいさん X ○

『いいことを教えてやろう』

『右の道を選んだ者、7名あり。4名は幸福に、3名は不幸になった』 幸福になった者の体重は67,53,86,71kg、不幸になった者の体重は48,52,51kgであった 『左の道を選んだ者、3名あり。2名は幸福に、1名は不幸になった』 幸福になった者の体重は41,53,49kg、不幸になった者の体重は88,68,64kgであった

やってくる人の「体重の分布」

Xが得 X,Yの成功率 Yが得

帰結ごとにカーネル推定 説明変数(体重)における「みなし観測度数」を推定 「みなし観測度数」に基づく「みなしベータ分布」 「みなしベータ分布」をX,Y道間で比較 「めずらしい体重」の人の場合「みなし観測度数」は小さくなり、「ありふれた体重」の人の場合は「みなし度数」が大きくなる

Xが良いはずの人 Yが良いはずの人

全10人 Xが良いはずの人 Yが良いはずの人

全50人 Xが良いはずの人 Yが良いはずの人

全125人 Xが良いはずの人 Yが良いはずの人

全250人 Xが良いはずの人 Yが良いはずの人

全500人 Xが良いはずの人 Yが良いはずの人

全1000人 Xが良いはずの人 Yが良いはずの人

Xが良いはずの人 Yが良いはずの人

悪くない…(?)

0.5 1/(1+r) 事前確率 事後確率 0.5 r/(1+r) 今回は「帰無仮説」は入れていない… 検討中

『いいことを教えてやろう』

『いいことを教えてやろう』 もう、いい!

『いいことを教えてやろう』 もう、いい! というわけにもいかず

帰無・対立の事前・事後確率 男女 + その他複数の名義尺度 複数の量的変数 名義尺度と量的変数の組合せ

いくつかのこと 量的変数・多次元 多名義尺度における「仮説数」のハンドリング 帰結のカーネル分布推定が効かなくなる k-NN (k-nearest Neighbors)で代用できる?? 多名義尺度における「仮説数」のハンドリング 2^k : k=10くらいまでは力技でも??