法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学 12/3(月).
経済統計 第三回 5/1 Business Statistics
統計学 11/30(木).
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
疫学(Epidemiology) 第4回 標本抽出法 誤差やバイアスの制御 中澤 港(内線1453)
確率・統計Ⅱ 第7回.
ベイズ的ロジスティックモデル に関する研究
行動計量分析 Behavioral Analysis
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
遺伝的アルゴリズムへの 統計力学的アプローチ 大阪大学 大学院理学研究科 鈴木譲 CISJ2005 於早稲田大学理工学部
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
第24回日本法科学技術学会 2018/11/08 京都大学 医学研究科 統計遺伝学分野 山田 亮
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
尤度の比較と仮説検定とを比較する ~P値のことなど~
第3章 線形回帰モデル 修士1年 山田 孝太郎.
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
経営学研究科 M1年 学籍番号 speedster
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
親子鑑定に見る尤度比を 角度を変えて眺めてみる
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
HMM音声合成における 変分ベイズ法に基づく線形回帰
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
DNA鑑定を理解するために必要な数学の学び方
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ベイズ音声合成における 事前分布とモデル構造の話者間共有
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
混合試料の構成人数 Nuisance パラメタ
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮 アレル数が不明 ~ディリクレ過程~ 法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮

復習 アレル数がわかっているとき 2アレル(SNPとか) 3アレル kアレル 観測: X本 vs. Y本 アレル頻度 (p, q = 1-p) の尤度: ∝ p^X * q^(1-Y) ベータ分布(k=2のディリクレ分布) 3アレル 観測: X本, Y本, Z本 アレル頻度 (p, q, r; p + q + r = 1) の尤度: ∝ p^X * q^Y * r^Z ) k=2のディリクレ分布 kアレル 観測: X1,….,Xk (Xi = 0 を含む) アレル頻度 (p1, …, pk; p1 + … + pk = 1) の尤度: ∝ p1^X1 * … * pk ^Xk k=kのディリクレ分布

復習2 観察:X1 = 4, X2 = 3 のとき k = 2 ならk = 2 のディリクレ分布を使う k = 3 なら、 X1 = 4, X2 = 3, X3 = 0 と考えて、k = 3 のディリクレ分布を 使う k = 4 なら、X1 = 4, X2 = 3, X3 = 0 , X4 = 0 と考えて、k=4 のディリクレ分 布を使う … k の想定によって、各アレルの頻度の期待値が変わる

母集団にアレル数が無限にある 無限にあるアレルのそれぞれが、0.000000001の割合だったら… 0.000000001 の∞倍 > 1 となりおかしなことになる 無限にあるアレルのいくつかは有限な頻度を持っているが、大多数 は、頻度が”0”だけど、「存在はしている」、と考える これによって、実質的なアレル数は色々な数にできて、どんどん多く もできる

遺伝学では・・・ 「生物採集をして、新種が見つかるかどうか」問題 “Probability of discovering new species” 全部でK種いるのだろう(Kは不明) N匹、採集したら、 k (<= K) 種、観察された。 n1 + n2 + … + nk = N 引き続き M 匹、採集したら、新種が s 種、発見される。その確率は? Bayesian nonparametric estimation of the probability of discovering new species. Antonio Lijoi et al. Biometrika(2007) 94,4, 769-786

何も仮定せずに「解ける」わけではないが… 種数(アレル数)無限の事前分布を何かしらモデル設定できれば そのモデルという仮定の下で 「生物採集をして、新種が見つかる確率」が 正確に計算できる 式を立てて解く モンテカルロ・ベイズで推定できる 「仮定」に基づいて事前分布を発生し、その尤度を計算できれば、モンテカルロ・ベイズ でぐるぐる回せる クラスタリング・分布推定などで使われる。「ノンパラメトリック・ベイズ」手法として括られ ていることもある

どんな仮定・どんなモデルか? 無限の種類数・アレル数を仮定しなければならない 大きく分けて、2つの考え方 サンプリングしたら、有限個数の多項分布が生じる これなら有限個の標本観察の発生を無限種類数から発生させられる 有限標本の生成に重きを置いている 長さ1を分割する・無限分割することに関するもの 母集団の種類比率は「足し合わせて1」を満足する必要がある 母集団比率に重きを置いている http://d.hatena.ne.jp/ryamada22/20180315

サンプリングしたら、有限個数の多項分布が生じる 中華料理店過程 https://ja.wikipedia.org/wiki/中華料理店過程

中華料理店過程 テーブルを選ぶ確率の 総和が1になることを確 認しよう 人数の多いテーブルが 選ばれる確率が高いこ とを、式で確認しよう http://blog.datumbox.com/the-dirichlet-process-the-chinese-restaurant-process-and-other-representations/ 中華料理店過程 テーブルを選ぶ確率の 総和が1になることを確 認しよう 人数の多いテーブルが 選ばれる確率が高いこ とを、式で確認しよう 未着席テーブルが選ば れる確率は、客の到着 順とどのような関係にあ るか考えよう http://d.hatena.ne.jp/ryamada22/20180320

中華料理店過程での「座り方」 https://ja.wikipedia.org/wiki/中華料理店過程

長さ1を分割する・無限分割する 無限に分割を繰り返す方法 有限回の分割で、無限分割をしたのと同じことにする方法

無限に分割を繰り返す方法 ポアソン・ディリクレ過程 長さ1の線分の分割を繰り返す (Stick-breaking 過程) (0,1) に一様乱数を発生する ((一様)ポアソン・ディリクレ過程) (0,1) に粗密を定めて、粗密に応じて乱数を発生する (非一様ポアソン・ディ リクレ過程) 長さ1の線分の分割を繰り返す (Stick-breaking 過程) 分割後の左側の線分はそのままにして、右側を分割し続ける (だんだん細 かい線分が生じる) 2分割の相対的位置はベータ乱数にする

有限回の分割で、無限分割をしたのと同じことにする方法 Kingmanのpaintbox 何かしらの「無限分割法」を有限回行う 1分割線分を「無限小」のタイプ数の束とみなす 「有限回処理」だけれど、「無限の種類数」が得られる

式で表せる場合

Ewens’s distribution n標本観察したら、k種類が観察された。biは第 i 番種類の観測標本 数 Θは、ある集団遺伝学的パラメタ

ちょっと背景があって、Ewens の式は別の表現が標準・・・

The Ubiquitous Ewens Sampling Formula. Statist. Sci. Volume 31, Number 1 (2016), 1-19. https://projecteuclid.org/euclid.ss/1455115906

my.Ewens.prob <- function(ms,theta,log=FALSE){ n <- sum(1:length(ms)*ms) if(length(ms) < n){ ms <- c(ms,rep(0,n-length(ms))) } tmp <- lfactorial(n) -sum(log((0:(n-1))+theta)) + sum(ms * log(theta))-sum(ms*log(1:n))-sum(lfactorial(ms)) if(log){ return(tmp) }else{ return(exp(tmp)) } } my.Ewens.prob(c(0,1),1) my.Ewens.prob(c(2,0),1) library(partitions) n <- 6 theta <- 0.1 prts <- parts(n) prbs <- rep(0,length(prts[1,])) for(i in 1:length(prts[1,])){ prt <- prts[,i] print(prt) tab <- tabulate(prt) prbs[i] <- my.Ewens.prob(tab,theta) } sum(prbs) http://d.hatena.ne.jp/ryamada22/20180321

Rでやってみる…

パッケージ等が見つかりませんでした… すみません クラスタリング等のディリクレ過程仕様のパッケージは複数あるので すが 『新種の観測確率 ~ Y染色体』に使えるものは見つかりませんで した

で、ディリクレ過程ってなんだったの? 「確率分布」を確率的に生成する過程 中華料理店過程は、テーブルを使って、多項分布を作り、極限として、 母集団の無限種類分布を作った 分割法も、無限回分割で無限種類分布を作った 無限種類の分布を作れるので、それを事前分布として使ったベイズ 推定ができる

参考資料等 http://d.hatena.ne.jp/ryamada22/20180321 の前後 http://d.hatena.ne.jp/ryamada22/20180321 の前後 http://d.hatena.ne.jp/ryamada22/20180315  http://d.hatena.ne.jp/ryamada22/20180320  http://didattica.unibocconi.it/mypage/dwload.php?nomefile=Bka_20072017021 0163749.pdf 新種発見確率のノンパラベイズ推定  http://d.hatena.ne.jp/n_shuyo/20150626/dirichlet_process  https://en.wikipedia.org/wiki/Dirichlet_process  https://www.r-bloggers.com/dirichlet-process-infinite-mixture-models-and- clustering/  http://statchiraura.blog.fc2.com/blog-entry-26.html  http://www.stats.ox.ac.uk/~griff/pd.pdf  http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1240-7.pdf