日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
logistic regression をしたい場合の STATISTICA2000のアプリケーションの使い方について
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
統計学 12/13(木).
計算値が表の値より小さいので「異なるとは言えない」。
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
クロス集計とχ2検定 P.144.
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
4章までのまとめ ー 計量経済学 ー.
分割表 Contingency table.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
対立仮説下でのみ存在する 遺伝形式という母数を持つ 2x3分割表検定に関する考察 ~SNPによるケース・コントロール関連検定~
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
統計学 西 山.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
数理統計学 西 山.
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
遺伝統計学 集中講義 (4) SNPによる領域の評価
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
統計処理2  t検定・分散分析.
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
川口 喬久 川上 弘人 山田 亮 関根 章博 中村 祐輔 山本 一彦 角田 達彦 理化学研究所 遺伝子多型研究センター
尤度の比較と仮説検定とを比較する ~P値のことなど~
母分散の検定 母分散の比の検定 カイ2乗分布の応用
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
親子鑑定に見る尤度比を 角度を変えて眺めてみる
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
「カテゴリ変数2つの解析」 中澤 港 統計学第7回 「カテゴリ変数2つの解析」 中澤 港
数理統計学  第12回 西 山.
分割表 Contingency table.
感受性遺伝子解析の データ処理 平成18年11月29日 山田.
Presentation transcript:

日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮 P値から考えるゲノム疫学解析 日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮

SNPを用いたGWASなどのスタディに関わっている・かかわろうとしている大学院修士の学生さん、くらいを主なターゲットとします ご参加のみなさんには、 SNPって何? 検定とp値? そもそもたくさん検定をするって何? という方や あそこの分割表の検定は、厳密には、●●しないといけないのでは という方が混ざっている・・・と思いますが、せっかくですので、何かしら得るものがありますように 今日のスライドの大部分のデータ処理はフリーソフトRで実施しています。そのコードを含めた資料は、分野facebookから入手可能です。聴講しながら、叩いていただいても結構です。

2x2分割表で確認する、p値、オッズ比とその信頼区間

2x2分割表で確認する、p値、オッズ比とその信頼区間 あり なし コントロール 20 27 47 ケース 28 25 53 48 52 100

検定する・推定する

検定する・推定する カイ二乗統計量 0.6825 自由度 1 p-値 0.4087

検定 p値 棄却するべきかどうかの情報 p値が小さいほど、無関係という仮説(帰無仮説)を棄却する

あり なし コ 20 27 47 ケ 28 25 53 48 52 100 推定 オッズ比 0.6614 95%信頼区間 0.3 ~1.458

推定 オッズ比を計算する。 オッズ比は、相対危険度の推定値 オッズ比~相対危険度が1であるときが、「無関係」に相当する 推定値は 点推定値 信頼区間 「だいたいこのくらいの範囲」の中に、「無関係の相対危険度~1」が入っているかどうかで、およその帰無仮説を棄却するかどうかのめども立つ

p値と CIが1をまたぐか の関係 緩く正しく 微妙に違う OR 95% CI 1.0 p値

p値はなんのため? 一様分布 小さいp値も大きいp値も同じくらい出やすい 0.5が出やすいわけではない 1が出やすいわけではない

p値はなんのため? 一様分布 小さいp値も大きいp値も同じくらい出やすい 0.5が出やすいわけではない 1が出やすいわけではない

一様分布のヒストグラム 1 p値

順番に並べてプロットすると 直線になる 1番 1万番 小さい順

小さい順に並べて 対角線を描くのは QQプロット 対数を取ってもOK p値だけではなく カイ二乗値でもOK Lanktree M B et al. Stroke. 2010;41:825-832 Copyright © American Heart Association, Inc. All rights reserved.

QQプロット 理論に合っているかを確認する 観測値 1 期待値・理論値

p値の基礎、終了 ぴーち

SNV解析の基本、2x3分割表 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

コントロールに比べて、ケースが: 0.5、2、3倍 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

さっそく「関連検定」しよう

さっそく「関連検定」しよう 面倒くささの元は

さっそく「関連検定」しよう 面倒くささの元は いくつも検定法があること

2x3分割表の検定法 2つ トレンド検定とロジスティック回帰検定

トレンド検定する p 値 0.007476 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85 オッズ比は? p 値 0.007476, (10x20)/(10x5) = 4 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85 オッズ比その2 p 値 0.007476, (10x30)/(10x5) = 6 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

トレンド検定する p 値 0.007476, オッズ比 4 (Mm vs. MM) 6 (mm vs. MM)

トレンド検定のオッズ比… トレンド検定をするというのは、線形回帰をしているのと同じです。 線形回帰では、ジェノタイプごとのケースの割合が直線に乗るように推定します この『トレンド検定をするという気持ち』に照らすと、このオッズ比はちょっと違います どう違う?

トレンド検定という線形回帰 フェノタイプの現れる確率 1.0 0.0 ジェノタイプ

線形回帰は「傾き」が大事 フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 ジェノタイプ

線形回帰は「傾き」が大事 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) ジェノタイプ

線形回帰は「傾き」が大事 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) ジェノタイプ

ロジスティック回帰する p 値 0.007476 (トレンド検定) p 値 0.009525 (ロジスティック回帰検定) 大差ない

ロジスティック回帰する フェノタイプの現れる確率 1.0 0.0 ジェノタイプ

ロジスティック回帰する オッズ比 2.1 → 2.3 (Mm vs. MM) 5.1 → 5.2 (mm vs. MM) フェノタイプの現れる確率 1-p2 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 → 2.3 (Mm vs. MM) 5.1 → 5.2 (mm vs. MM) ジェノタイプ

ロジスティック回帰する オッズ比 2.1 → 2.3 5.1 → 5.2 = 2.3 x 2.3 フェノタイプの現れる確率 1-p2 1.0 0.0 オッズ比 2.1 → 2.3 5.1 → 5.2 = 2.3 x 2.3 ジェノタイプ

トレンド検定とロジスティック回帰

トレンド検定とロジスティック回帰 直線と曲線の 違いはあるけれど 大差ない

大差がない ロジスティック log10(p) トレンド log10(p)

違いは トレンド検定は ロジスティック回帰検定は 相加モデルに相当する 計算が簡単 正確検定もできる(低アレル頻度・少サンプル数の場合の対処法がある) 個人別のデータが不要 「線形回帰」に基づくオッズ比が結果に付いていないことが多い 共変量を組み込めない(線形回帰にすればよいが、それならロジスティック回帰をすればよい) ロジスティック回帰検定は 相乗モデルに相当する 計算が面倒ではある(けれど計算機がやってくれるので問題はないが、検定個数が大量になるとそれなりに影響してくる) オッズ比が結果についてくることが多い(ただし、係数は対数で返ってくることが通例) 年齢・性別などの共変量を組み込みやすい

遺伝形式 相加 相乗 優性 劣性 面倒くささの元は いくつも検定法があること

優性

優性

劣性

優性・劣性形式の検定 するのか、しないか することのメリットとデメリット しないことのメリットとデメリット 優性・劣性形式に照らした結果がわかる 1つの2x3表に複数の検定をすると、複数のp値が得られる。複数のp値が出たら、そのp値はには「補正」をしないといけない しないことのメリットとデメリット 1つのp値しか出ていなければ、複数のp値の補正について悩む必要はない 優性・劣性形式に照らしての判断になっていない

優性・劣性形式の検定をしなかったら 本当は「優性、または、劣性」な影響があるとすると、偽陰性が増える。 では、「優性形式が真」のときに、「相加モデルだけ」で検定すると、どれくらい偽陰性になるのかを見てみることにする。

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 相加モデルlog10(p)

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 30% 相加モデルlog10(p)

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 30% 24% 相加モデルlog10(p)

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 偽陰性 30% 24% 相加モデルlog10(p)

優性モデルでは拾えずに相加モデルで「たまたま拾う」こともある アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 偽陰性 相加モデルlog10(p)

優性モデルlog10(p) 相加 優性 両方を併せると パワーが上がる 相加モデルlog10(p)

パワーが上がるのはよいことだ

相加・優性どちらも『あり』にしたら 偽陽性が1.8倍になった 真の優性座位 無関係の座位

パワーが上がると 偽陽性が増える いいことがあると 悪いこともある パワーが上がると 偽陽性が増える いいことがあると 悪いこともある

パワーを上げつつ、偽陽性を増やさない 0.01より小さい『新たなp値基準』を作る 1%

稼ぐ 失う

『新たなp値基準』を探す この図があれば、できる けれど、この図はない(すぐには手に入らない) 1%

素朴なマルチプルテスティング対策

素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率がわかれば、 『新たなp値基準』はわかる

素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率がわかれば、 『新たなp値基準』はわかる

素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率がわかれば、 『新たなp値基準』はわかる

素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率は  わかる    一様分布なら

1辺の長さが1の正方形 ?の長さを求めなさい 0.99 ? ?

1辺の長さが1の正方形 ?の長さを求めなさい 0.99 Sidak法 ? ?

細長い白枠長方形2個の面積が0.01になるとき ? の長さはいくつか? 0.99より大きくする ボンフェリニ法 ? ?

問題は、偏りがあること 優性・相加のp値には相関がある

分布がわからないので、どうするか 分布がわからないままに、補正する わからない分布を調べてから、それに基づいて補正する

分布がわからないままに、補正する

分布が違うのに、それでよいのか? ボンフェロニ・Sidakを使うと 偽陽性が少なくなる パワーが弱くなる ~ストイックであれば大丈夫~ ~保守的であれば大丈夫~

分布がわからなければ 分布を調べればよい 正確確率法 ランダマイゼーション・ パーミュテーション法

本当に知りたいこと 本当は「関連がない」ときに 相互に相関のある複数の検定を実施したときに 最も小さいp値は、どれくらい小さければ0.01並みに珍しいか

本当に知りたいこと 本当は「関連がない」ときに 相互に相関のある複数の検定を実施したときに 最も小さいp値は、どれくらい小さければ0.01並みに珍しいか これは、ちょっと面倒なので、少し変えます

本当に知りたいこと 本当は「関連がない」ときに 相互に相関のある複数の検定を実施したときに 『今、観測された分割表』の周辺度数を満足する場合のすべてを考慮して 最も小さいp値は、どれくらい小さければ0.01並みに珍しいか

『今、観測された分割表』の周辺度数を満足する場合のすべてを考慮する 2つの方法 本当に「すべての場合」を考慮する 正確確率法 乱数を使って「一部の場合」を考慮して代用する モンテカルロ・ランダマイゼーション法、パーミュテーション法

正確確率法とランダマイゼーション法 の違い 『正確』 すべての場合を扱えるのは、自由度2くらいまで。それは、2x3表が1個ある場合。 ランダマイゼーション法 『推定値』 試行ごとに少し違う 1000の場合をやれば、最小p値は0.001、10000回やれば、最小p値は0.0001

GWAS基準の有意p値はとても小さいけれど、 それはどうするの? 正確確率法 『正確』 すべての場合を扱えるのは、自由度2くらいまで。それは、2x3表が1個ある場合。 ランダマイゼーション法 『推定値』 試行ごとに少し違う 1000の場合をやれば、最小p値は0.001、10000回やれば、最小p値は0.0001

GWAS基準は「デフォルト推奨値」

正確確率法って?

正確確率法って? サンプル数が少ないときにカイ二乗検定の代わりに使う方法 サンプル数が少ない、というより、分割表のセルの値が小さいとき… 分割表のセルの値が小さいとき、というより、セルの期待値が小さいとき…

どうしてか? セルの期待値が小さめのときには、カイ二乗検定のp値は『不正確』だから 正確確率検定の方が『保守的』だから 『保守的』なことは、『よいこと』だから

たくさんのp値を正確法で得ると… 正確確率検定 カイ二乗検定

たくさんのp値を正確法で得ると… 正確検定は、「保守的」なので、その結果をたくさん集めると、一様分布からは随分ずれる

連鎖不平衡とp値

連鎖不平衡とマルチプルテスティング 1つのSNP 複数の遺伝的モデル 複数の検定 1つの遺伝子 複数のSNP 個々のSNPに1つの検定

相互に独立ではない 複数の検定 1つのSNP 複数のSNP 相互に連鎖不平衡にある 相加・優性・劣性の3検定は、相互に独立ではない

相互に独立ではない 複数の検定 1つのSNP 複数のSNP 相互に連鎖不平衡にある 相加・優性・劣性の3検定は、相互に独立ではない マルチプルテスティング補正が必要

連鎖不平衡領域 SNPごとに相加検定 20個のp値

ケース・コントロールスタディを実施 有意水準0.01で関連ありとするには、どれくらい小さいp値が適当?

クイズ、1-6のどれ? 0.01/20 = 0.0005 0.000502 = 1-(1-0.01)^(1/2) 0.00045 0.000502 = 1-(1-0.01)^(1/2) 0.00045 0.00054 0.00064 0.00087

クイズ、1-6のどれ? 0.01/20 = 0.0005 ボンフェロニ 0.000502 = 1-(1-0.01)^(1/2) Sidak 0.00045 0.00054 0.00064 0.00087

クイズ、1-6のどれ? 0.01/20 = 0.0005 ボンフェロニ 0.000502 = 1-(1-0.01)^(1/2) Sidak 0.00045 0.00054 0.00064 0.00087

ボンフェロニやSidakより小さいわけがない クイズ、1-6のどれ? 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087 ボンフェロニやSidakより小さいわけがない

3つの数字、3つのLD図 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087

強 弱 中 中 弱 強 3つの数字、3つのLD図 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087 強 弱 中 中 弱 強

GWAS基準は「デフォルト推奨値」

SNPの数を十倍の 一千万個に増やしたら?

連鎖不平衡にあるマーカーで 代用する LDマッピングの原理そのもの SNP 1 : A / a の2アレル SNP 2 : B / b の2アレル ハプロタイプは4種類 AB Ab aB

2SNPの4ハプロタイプは 2x2 分割表 B b A 0.78 0.02 0.8 a 0.18 0.2 1

2x2 分割表なら カイ二乗検定しよう カイ二乗値 = 0.81 = r2 B b A 0.78 0.02 0.8 a 0.18 0.2 1

LD関係にある 2 SNPのカイ二乗値の相関の良さとLDインデックス r2 カイ二乗値の相関係数 LDのr2

LD関係にあるSNPで 代用したときのパワー (r2 = 0.81) 本体 代用

LD関係にあるSNPによるパワー 代用SNPの場合 真のリスクSNPの場合

p値の高低、どちらが小さい? 代用SNPの場合 代用SNPのp値の方が小さい 真のリスクSNPの場合

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 r2 =1 0.9

p値の高低、どちらが「本物」? 代用SNPの場合 代用SNPのp値の方が小さい 真のリスクSNPの場合

p値の高低、どちらが「本物」? 1 代用のp値が本物以下の割合 LDのr2 0.1 1

アレルで、ハプロタイプで 検定する MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

アレル本数で考える 2x3表の相加モデル(トレンド)検定 2x2表を作って普通にカイ二乗検定(独立性検定)

MM Mm mm 10 30 5 20 55 15 40 85 M m 30 60 80 110 170

MM Mm mm 10 30 5 20 55 15 40 85 M m 30 60 80 110 170

20 24 6 50 29 18 3 49 42 9 100 クイズ 3つの分割表 相加と2x2とが同じ表が2個ある。どれ? 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

20 24 6 50 29 18 3 49 42 9 100 クイズ 3つの分割表 相加と2x2とが同じ表が2個ある。どれ? 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

20 24 6 50 29 18 3 49 42 9 100 クイズ 3つの分割表 相加と2x2とが同じ表が2個ある。どれ? 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

20 24 6 50 29 18 3 49 42 9 100 ハーディ・ワインバーグ平衡かどうか 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

SNPのアレル単位でかんがえるのも ハプロタイプで考えるのも 基本は同じ SNPのアレルの場合は2x3表の相加モデル(トレンド)検定がある ハプロタイプの方は、ディプロタイプがわからないことが多く、やりようがないかもしれない

ハーディ・ワインバーグ平衡のp値

HWE検定p値が小さいとき 『サンプルは集団構造化がある母集団を代表している』 『母集団を代表していない』 『実験がうまく行っていない』

HWE検定p値が小さいとき 『サンプルは集団構造化がある母集団を代表している』 『母集団を代表していない』 『実験がうまく行っていない』 GWASならば補正方法がある 『母集団を代表していない』 GWASならば個々のHWE検定を問題にする必要はない 『実験がうまく行っていない』 GWASにおいて、個々のHWE検定p値を利用するべきは、これ

HWE検定で実験の失敗を疑う HWE検定p値が小さいとき 『サンプルは集団構造化がある母集団を代表している』 『母集団を代表していない』 『実験がうまく行っていない』

「ずれ」を見るなら、QQプロット

p値が一様じゃない p値は、一様分布に従っているから、その値を0.01と聞けば、「あー、0.01的に珍しいことなんだ」とわかるわけですから、p値の本領は一様分布になっていることです。 しかしながら、実際にGWASを実施して、数十万個のp値を算出して、その分布を見てやると、一様分布になっていない。

2つのアプローチ 「本当は一様分布」なはず。「一様分布」になるように修正してしまおう、という作戦。 一様分布になるわけがない。個々の検定結果のp値を見て、対立仮説が真なのか、帰無仮説が真なのかを選別する情報が得られればよい、という作戦

一様分布に修正する作戦 ジェノミック・コントロール

単純な1要因 集団が完全には均一でないときに、帰無仮説の検定結果(カイ二乗値、p値)が理論的分布から外れる その外れ方は、「うまく混ざっていない」という単純な要因で説明できると仮定すると 観測されたカイ二乗値の中央値が理論的な中央値になるように、割り算補正すると解決することが知られている じゃあ、そうしてしまおう、というのがジェノミックコントロール法

中央値が揃うように補正

たくさんの本物がある場合~FDR~

「合否」の基準を 一律にせず 何番目に小さいかで 手加減する

色々方法はあるが、基礎的なFDRは 直線に照らして「合否判定」 0.05

まとめ 京大 統計遺伝学 p値は、判断するための値 パワーと偽陽性とは、お互い様 たくさんのp値があったら、その特性に応じて補正する 0 から 1 、一様分布 一様分布であることを使って判断したい パワーと偽陽性とは、お互い様 たくさんのp値があったら、その特性に応じて補正する マルチプルテスティング補正 相互に関連しあう検定があったら補正は少し甘くする FDRを使うことも 京大 統計遺伝学