ゲノム・オミクス分野の統計解析 近畿化学協会 コンピュータ化学部会公開講演会 2016/10/18 京都大学(医) 統計遺伝学分野 山田 亮

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
グラフィカル多変量解析 ----目で見る共分散構造分析----
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
H25年5月22日(水) 中央水研 「水産資源のデータ解析入門」 Terrapub
第3章 重回帰分析 ー 計量経済学 ー.
3章 Analysing averages and frequencies (前半 p )
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
データ分析入門(13) 第13章 主成分分析 廣野元久.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
4章までのまとめ ー 計量経済学 ー.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
細胞の形と変形のための データ駆動型解析手法
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
独立成分分析 (ICA:Independent Component Analysis )
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
部分的最小二乗回帰 Partial Least Squares Regression PLS
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
尤度の比較と仮説検定とを比較する ~P値のことなど~
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合試料の構成人数 Nuisance パラメタ
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

ゲノム・オミクス分野の統計解析 近畿化学協会 コンピュータ化学部会公開講演会 2016/10/18 京都大学(医) 統計遺伝学分野 山田 亮 京都大学(医) 統計遺伝学分野 山田 亮 ryamada@genome.med.kyoto-u.ac.jp

ジェノタイプとフェノタイプ 時空間的に一意 時空間的に多様

個体に現れるフェノタイプ Genotype Phenotype Intermediate phenotype Terminal phenotype

個体の時空間

代表値 vs. 分布 温度 独立試行の多数回測定 1標本が多観測からなるとき 気体分子集団の代表値 きれいな分布→代表値→パラ きれいでない分布→分布そのものを→ノン・パラ 1標本が多観測からなるとき 1標本が分布→代表値で大丈夫か? ThermoFisher Scientific社

相互に独立なもの多数 vs. 相互に依存しているもの多数 相互に相関が強い複数の観測変数 時系列データ(時間軸連続) 形データ(空間軸連続) 運動データ(時空間連続) パターンデータ(情報軸連続) 横河電機 Nature 465, 918–921 (17 June 2010) https://ja.wikipedia.org/wiki/胚

まとめ:ジェノタイプ・フェノタイプという値 データ解析するために 「値」として取り出す 「値」にも色々 いわゆる「値」とは、「数」 「数」とは 自然数・整数・有理数・実数・複素数・ベクトル・行列… いわゆる「値」ではない、データ解析用の「値」とは 数理モデル 特に、生物現象では、ばらつきがあることが基本なので 確率モデル・統計モデル ただし、モデルは(広義の)パラメタで構成するので パラメタの「値」を扱うと言う意味では、「数」に戻る 「いわゆる値」は単純な数理・確率モデルでのパラメタ値 より複雑な「タイプ」は複雑なモデルでのパラメタ値

ゲノム・オミクス研究における 統計・データサイエンスの役割 ノイズのあるハイスループットデータのデータQC 検定・推定・分類 多次元・高次元データ 乱数を使ったアプローチ その他:実験デザイン

ノイズのあるハイスループットデータのデータQC 系統的な誤差/バイアス;サンプル,試薬/実行日/機器/担当者の影響 ノイズを補正する・コントロールする 外れ値 変換する、1関数で 「場所的効果」について正規化する “コントロール用サンプル”

外れ値

変換する、1関数で GWASの ジェノミックコントロール 中央値を使ったマイクロアレイデータの変換 対数変換

「場所的効果」について正規化する 「くせ」を取り入れる 単なる「場所」だけでなく、バッチエ フェクト全般にも使える データそのものを使わず、事前情報 で補正 データとその分布を利用して補正

検定・推定・分類 検定 有意、エラーのコントロール、多重検定 推定 区間推定、モデル推定、ベイズ 分類 教師アリ、教師ナシ

多重検定 p 値とq 値

多重検定 ほぼすべての帰無仮説が真の場合

たくさんの検定をすると、小さなp値がたくさん得られる 1個の検定: 一様分布(0-1) 10個の検定 : 最小p値は0に近くなる、0.1くらい 100個の検定 : 最小p値はもっと0に近くなる、0.01くらい …

最小p値はどのように分布するか 平均 最小p値が 平均値よりかなり大きな値 となることもあるが、 多くの場合は、平均値より 小さくなる。 2^10 最小p値が 平均値よりかなり大きな値 となることもあるが、 多くの場合は、平均値より 小さくなる。 そのような小さなp値は 珍しくない。

最小p値の分布 1,2,4,8,… 10^6 1,2,4,8,… 10^6

帰無が真でないとき, FDR (False Discovery Rate) 多数の仮説で帰無仮説が真でないとき、ほぼすべての仮説で帰無 仮説が真でないとき

二つの分布を併せた分布 一様p値分布 小さ目のp値の分布

小さいものを拾う 閾値を何番目に小さいかで加減する “本当は帰無”なものの混入割合をコントロールする

Large-scale inference たくさんのものを一度に測定したら、その分布には意味がある 分布を活用すると、個々の対象の推定値は、単独での推定値と変 わってくる FDRのQ値もそんな枠組み 「一度に観測した多数が作る分布」を使う~経験ベイズ~

推定 頻度主義 vs.  ベイジアン 頻度主義(である有意性検定)の理論体系は、その利用者に不自然な思考を強いるからです。また数学的に高度であり、文科系の学生には理解ではなく、暗記を強いるからです。 対して研究仮説が正しい確率を直接計算するベイズ流の推論は考え方がとても自然です。

推定 ベイジアン モデルにはパラメタ データ + モデル → パラメタの値の推定 推定には尤度。最尤推定。尤度に基づく区間推定

まとめ:ジェノタイプ・フェノタイプという値 データ + モデル  ↓  パラメタの値の推定 データ解析するために 「値」として取り出す 「値」にも色々 いわゆる「値」とは、「数」 「数」とは 自然数・整数・有理数・実数・複素数・ベクトル・行列… いわゆる「値」ではない、データ解析用の「値」とは 数理モデル 特に、自然現象では、ばらつきがあることが基本なので 確率モデル・統計モデル ただし、モデルは(広義の)パラメタで構成するので パラメタの「値」を扱うと言う意味では、「数」に戻る 「いわゆる値」は単純な数理・確率モデルでのパラメタ値 より複雑な「タイプ」は複雑なモデルでのパラメタ値

Estimation/Inference ノイズのあるハイスループットデータのデータQC 検定・推定・分類 多次元・高次元データ 乱数を使ったアプローチ その他:実験デザイン Estimation/Inference 頻度主義 vs.  ベイジアン どちらか片方ではなく、両方使うのが、「今風」 ベイジアンが目立つ理由 込み入っているから・・・必然的事情 計算機が使えるようになったから・・・複雑な分布でもシミュレーションで対処 データが大規模になったから・・・経験ベイズ

推定 頻度主義 vs.  ベイジアン 「事前分布」がないと使えない 「正しい事前分布」とは何か…

成功率:その、情報なしのときの事前確率 難易度も平均合格率も一切不明な、「変な資格試験」を、あなたが全 く知らない「だれか」が受験すると言う。この人が合格する確率はいく つだと思うか?

成功率:その、情報なしのときの事前確率 難易度も平均合格率も一切不明な、「変な資格試験」を、あなたが全 く知らない「だれか」が受験すると言う。この人が合格する確率はいく つだと思うか? Jeffreys prior 非主観的事前分布の1つの取り方

多次元・高次元データ 次元を下げる 理解・視覚化可能な、重要な2,3の次元のみで 切り取る PCA (主成分分析) そもそも、重要なのは、少次元なのであって、そ れ以外はノイズなので、切り取る

多次元・高次元データ 次元を下げる理解・視覚化可能な、重要な2,3の 次元のみで切り取る そもそも、重要なのは、少次元なので、切り取る PCA (主成分分析) そもそも、重要なのは、少次元なので、切り取る LASSO, 圧縮センシング

多次元・高次元データ 空間は高次元だが、データは低次元 多様体学習 高次元空間に投げ上げて、低次元に戻 す

多次元・高次元データ たくさんの遺伝子 たくさんのマーカー たくさんの観察項目

多次元・高次元データ Ethnic diversity FACS ライフサイエンスデータ は、高次元空間データ として観察されるが 観察項目が膨大だから 項目間の類似・制約も 大きく、思ったよりも低 次元と、思われている Ethnic diversity FACS

多次元・高次元データ 高次元空間の低次元オブジェクト~多様体~ トポロジーを問題にする

多次元・高次元データ 高次元間の低次元オブジェクト~多様体~ トポロジーを問題にする グラフ・ネットワークとトポロジー

多次元・高次元データ グラフ:隣り合っていれば結ぶ 多要素のペア関係だけを考慮した単 純化

多次元・高次元データ グラフ:隣り合っていれば結ぶ 多要素のペア関係だけを考慮した単 純化 トリオ以上の組み合わせを無視した 評価系

多次元・高次元データ グラフと線形解析

多次元・高次元データ グラフと線形解析 グラフと疎解析

多次元・高次元データ 2つの大事なこと 「普通」がいない すかすか

多次元・高次元データ 「普通」はいない 中央付近: 立方体の中にある球 3.14 / 4 = 0.785

多次元・高次元データ Sparse 疎 密度を計算するには、単位体積あたりのサンプル数が、そこそこな いとうまく行かない。 Dim = 1 : 0.1 Dim = 2 : 0.01 Dim = 3 : 0.001 …. Dime = 6 : 0.000001

多次元・高次元データ 広すぎる空間、それなりに「密度」がある 高次元空間に低次元多様体として存在している

高次元空間にある低次元多様体 その局所密度 普通の方法では密度の計算がうまく行かない 狭い範囲に区切っても、高次元だと広々しているから 密度計算にも工夫 K近傍法(k-nearest neighbor法) グラフでも似た発想 最小全域木 「近いかどうかだけ」はわかる

高次元だけれど、思ったより、すかすか その、すかすかな加減が 1次元多様体の点在 ただし、ばらつきが大きい クラスタリング

クラスタリングの方法、2タイプ 階層的 非階層的

階層的 木構造 ~ グラフ、再び 構造が持つ情報 構造が持つ次元 木の上に定義された距離 木構造 ~ グラフ、再び 構造が持つ情報 構造が持つ次元 木の上に定義された距離 そもそも、木構造をとるべき対象には階層的クラスタリングが向いて いる

分類 分けにくい広がりを分ける J. Med. Imag. 1(3), 034501 (Oct 09, 2014). doi:10.1117/1.JMI.1.3.034501

分類 教師なし学習 教師あり学習 答えはないけれど、「当たる方法かどうか」を知りたい クロス-バリデーション:リサンプリング法

ゲノム・オミクス研究における 統計・データサイエンスの役割 ノイズのあるハイスループットデータのデータQC 検定・推定・分類 多次元・高次元データ 乱数を使ったアプローチ その他:実験デザイン

Small n Large p サンプルサイズ 100 ある一つの遺伝子の発現量とある表現型との関係を検定する N = 100, p = 1 Large n Small p たくさんの遺伝子の発現量とある表現型との関係を検定する N = 100, p = 25000 Small n Large p

n << p ある変数セットで、完璧な回帰ができる 別の変数セットでも完璧な回帰ができる どのセットがよいかわからない 完璧な回帰ができるのがよいわけでもない AIC ~ Simpler model is better LASSO, Sparse k << n 個の変数で説明できるはず…事前予想~ベイズ

リサンプリング 標本から統計量を推定する 統計的有意差 クロス-バリデーション 乱数を使う~計算機による疑似乱数列 ジャックナイフ(サブセット)、ブートストラップ(Replacement) 統計的有意差 パーミュテーション(順列)~正確確率 クロス-バリデーション 乱数を使う~計算機による疑似乱数列

疑似乱数列 一様分布から 既存の分布から 任意の分布から Gibbs sampling Gibbs sampling を利用して 確率モデルを構成して、その確率分布を推定しながら BUGS (Bayesian inference using Gibbs Sampling) MCMC(マルコフ連鎖モンテカルロ)でシミュレーション それにStan (ベイズ推定ソフトウェア)をかぶせる

個別も大変、合わせるのはもっと大変 モデル・合わせるための仮定 を立てて合わせる 個々の解析アプローチに違いが大きいので合わせにくい 合わせ方の構造も色々なやり方がある データ自体を統合して使う 個々の解析の結果を統合する(いわゆるメタ解析) 同じフォーマットからの結果の統合が本来のメタ解析 個々の解析アプローチに違いが大きいので合わせにくい 解析アプローチ固有の要素を排除して、個別解析自体を「統合しやすいも の」に置き換える

資料など 本講義のスライドが http://statgenet-kyotouniv.wikidot.com/genome-omics-statistics か らアクセスできます