日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮 P値から考えるゲノム疫学解析 日本人類遺伝学会 2014/11/20 京都大学 医学研究科 統計遺伝学分野 山田 亮
SNPを用いたGWASなどのスタディに関わっている・かかわろうとしている大学院修士の学生さん、くらいを主なターゲットとします ご参加のみなさんには、 SNPって何? 検定とp値? そもそもたくさん検定をするって何? という方や あそこの分割表の検定は、厳密には、●●しないといけないのでは という方が混ざっている・・・と思いますが、せっかくですので、何かしら得るものがありますように 今日のスライドの大部分のデータ処理はフリーソフトRで実施しています。そのコードを含めた資料は、分野facebookから入手可能です。聴講しながら、叩いていただいても結構です。
2x2分割表で確認する、p値、オッズ比とその信頼区間
2x2分割表で確認する、p値、オッズ比とその信頼区間 あり なし コントロール 20 27 47 ケース 28 25 53 48 52 100
検定する・推定する
検定する・推定する カイ二乗統計量 0.6825 自由度 1 p-値 0.4087
検定 p値 棄却するべきかどうかの情報 p値が小さいほど、無関係という仮説(帰無仮説)を棄却する
あり なし コ 20 27 47 ケ 28 25 53 48 52 100 推定 オッズ比 0.6614 95%信頼区間 0.3 ~1.458
推定 オッズ比を計算する。 オッズ比は、相対危険度の推定値 オッズ比~相対危険度が1であるときが、「無関係」に相当する 推定値は 点推定値 信頼区間 「だいたいこのくらいの範囲」の中に、「無関係の相対危険度~1」が入っているかどうかで、およその帰無仮説を棄却するかどうかのめども立つ
p値と CIが1をまたぐか の関係 緩く正しく 微妙に違う OR 95% CI 1.0 p値
p値はなんのため? 一様分布 小さいp値も大きいp値も同じくらい出やすい 0.5が出やすいわけではない 1が出やすいわけではない
p値はなんのため? 一様分布 小さいp値も大きいp値も同じくらい出やすい 0.5が出やすいわけではない 1が出やすいわけではない
一様分布のヒストグラム 1 p値
順番に並べてプロットすると 直線になる 1番 1万番 小さい順
小さい順に並べて 対角線を描くのは QQプロット 対数を取ってもOK p値だけではなく カイ二乗値でもOK Lanktree M B et al. Stroke. 2010;41:825-832 Copyright © American Heart Association, Inc. All rights reserved.
QQプロット 理論に合っているかを確認する 観測値 1 期待値・理論値
p値の基礎、終了 ぴーち
SNV解析の基本、2x3分割表 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85
コントロールに比べて、ケースが: 0.5、2、3倍 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85
さっそく「関連検定」しよう
さっそく「関連検定」しよう 面倒くささの元は
さっそく「関連検定」しよう 面倒くささの元は いくつも検定法があること
2x3分割表の検定法 2つ トレンド検定とロジスティック回帰検定
トレンド検定する p 値 0.007476 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85
MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85 オッズ比は? p 値 0.007476, (10x20)/(10x5) = 4 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85
MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85 オッズ比その2 p 値 0.007476, (10x30)/(10x5) = 6 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85
トレンド検定する p 値 0.007476, オッズ比 4 (Mm vs. MM) 6 (mm vs. MM)
トレンド検定のオッズ比… トレンド検定をするというのは、線形回帰をしているのと同じです。 線形回帰では、ジェノタイプごとのケースの割合が直線に乗るように推定します この『トレンド検定をするという気持ち』に照らすと、このオッズ比はちょっと違います どう違う?
トレンド検定という線形回帰 フェノタイプの現れる確率 1.0 0.0 ジェノタイプ
線形回帰は「傾き」が大事 フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 ジェノタイプ
線形回帰は「傾き」が大事 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) ジェノタイプ
線形回帰は「傾き」が大事 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) ジェノタイプ
ロジスティック回帰する p 値 0.007476 (トレンド検定) p 値 0.009525 (ロジスティック回帰検定) 大差ない
ロジスティック回帰する フェノタイプの現れる確率 1.0 0.0 ジェノタイプ
ロジスティック回帰する オッズ比 2.1 → 2.3 (Mm vs. MM) 5.1 → 5.2 (mm vs. MM) フェノタイプの現れる確率 1-p2 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 → 2.3 (Mm vs. MM) 5.1 → 5.2 (mm vs. MM) ジェノタイプ
ロジスティック回帰する オッズ比 2.1 → 2.3 5.1 → 5.2 = 2.3 x 2.3 フェノタイプの現れる確率 1-p2 1.0 0.0 オッズ比 2.1 → 2.3 5.1 → 5.2 = 2.3 x 2.3 ジェノタイプ
トレンド検定とロジスティック回帰
トレンド検定とロジスティック回帰 直線と曲線の 違いはあるけれど 大差ない
大差がない ロジスティック log10(p) トレンド log10(p)
違いは トレンド検定は ロジスティック回帰検定は 相加モデルに相当する 計算が簡単 正確検定もできる(低アレル頻度・少サンプル数の場合の対処法がある) 個人別のデータが不要 「線形回帰」に基づくオッズ比が結果に付いていないことが多い 共変量を組み込めない(線形回帰にすればよいが、それならロジスティック回帰をすればよい) ロジスティック回帰検定は 相乗モデルに相当する 計算が面倒ではある(けれど計算機がやってくれるので問題はないが、検定個数が大量になるとそれなりに影響してくる) オッズ比が結果についてくることが多い(ただし、係数は対数で返ってくることが通例) 年齢・性別などの共変量を組み込みやすい
遺伝形式 相加 相乗 優性 劣性 面倒くささの元は いくつも検定法があること
優性
優性
劣性
優性・劣性形式の検定 するのか、しないか することのメリットとデメリット しないことのメリットとデメリット 優性・劣性形式に照らした結果がわかる 1つの2x3表に複数の検定をすると、複数のp値が得られる。複数のp値が出たら、そのp値はには「補正」をしないといけない しないことのメリットとデメリット 1つのp値しか出ていなければ、複数のp値の補正について悩む必要はない 優性・劣性形式に照らしての判断になっていない
優性・劣性形式の検定をしなかったら 本当は「優性、または、劣性」な影響があるとすると、偽陰性が増える。 では、「優性形式が真」のときに、「相加モデルだけ」で検定すると、どれくらい偽陰性になるのかを見てみることにする。
アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 相加モデルlog10(p)
アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 30% 相加モデルlog10(p)
アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 30% 24% 相加モデルlog10(p)
アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 偽陰性 30% 24% 相加モデルlog10(p)
優性モデルでは拾えずに相加モデルで「たまたま拾う」こともある アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人 優性モデルlog10(p) 偽陰性 相加モデルlog10(p)
優性モデルlog10(p) 相加 優性 両方を併せると パワーが上がる 相加モデルlog10(p)
パワーが上がるのはよいことだ
相加・優性どちらも『あり』にしたら 偽陽性が1.8倍になった 真の優性座位 無関係の座位
パワーが上がると 偽陽性が増える いいことがあると 悪いこともある パワーが上がると 偽陽性が増える いいことがあると 悪いこともある
パワーを上げつつ、偽陽性を増やさない 0.01より小さい『新たなp値基準』を作る 1%
稼ぐ 失う
『新たなp値基準』を探す この図があれば、できる けれど、この図はない(すぐには手に入らない) 1%
素朴なマルチプルテスティング対策
素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率がわかれば、 『新たなp値基準』はわかる
素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率がわかれば、 『新たなp値基準』はわかる
素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率がわかれば、 『新たなp値基準』はわかる
素朴なマルチプルテスティング対策 黒、赤、緑、青、の比率は わかる 一様分布なら
1辺の長さが1の正方形 ?の長さを求めなさい 0.99 ? ?
1辺の長さが1の正方形 ?の長さを求めなさい 0.99 Sidak法 ? ?
細長い白枠長方形2個の面積が0.01になるとき ? の長さはいくつか? 0.99より大きくする ボンフェリニ法 ? ?
問題は、偏りがあること 優性・相加のp値には相関がある
分布がわからないので、どうするか 分布がわからないままに、補正する わからない分布を調べてから、それに基づいて補正する
分布がわからないままに、補正する
分布が違うのに、それでよいのか? ボンフェロニ・Sidakを使うと 偽陽性が少なくなる パワーが弱くなる ~ストイックであれば大丈夫~ ~保守的であれば大丈夫~
分布がわからなければ 分布を調べればよい 正確確率法 ランダマイゼーション・ パーミュテーション法
本当に知りたいこと 本当は「関連がない」ときに 相互に相関のある複数の検定を実施したときに 最も小さいp値は、どれくらい小さければ0.01並みに珍しいか
本当に知りたいこと 本当は「関連がない」ときに 相互に相関のある複数の検定を実施したときに 最も小さいp値は、どれくらい小さければ0.01並みに珍しいか これは、ちょっと面倒なので、少し変えます
本当に知りたいこと 本当は「関連がない」ときに 相互に相関のある複数の検定を実施したときに 『今、観測された分割表』の周辺度数を満足する場合のすべてを考慮して 最も小さいp値は、どれくらい小さければ0.01並みに珍しいか
『今、観測された分割表』の周辺度数を満足する場合のすべてを考慮する 2つの方法 本当に「すべての場合」を考慮する 正確確率法 乱数を使って「一部の場合」を考慮して代用する モンテカルロ・ランダマイゼーション法、パーミュテーション法
正確確率法とランダマイゼーション法 の違い 『正確』 すべての場合を扱えるのは、自由度2くらいまで。それは、2x3表が1個ある場合。 ランダマイゼーション法 『推定値』 試行ごとに少し違う 1000の場合をやれば、最小p値は0.001、10000回やれば、最小p値は0.0001
GWAS基準の有意p値はとても小さいけれど、 それはどうするの? 正確確率法 『正確』 すべての場合を扱えるのは、自由度2くらいまで。それは、2x3表が1個ある場合。 ランダマイゼーション法 『推定値』 試行ごとに少し違う 1000の場合をやれば、最小p値は0.001、10000回やれば、最小p値は0.0001
GWAS基準は「デフォルト推奨値」
正確確率法って?
正確確率法って? サンプル数が少ないときにカイ二乗検定の代わりに使う方法 サンプル数が少ない、というより、分割表のセルの値が小さいとき… 分割表のセルの値が小さいとき、というより、セルの期待値が小さいとき…
どうしてか? セルの期待値が小さめのときには、カイ二乗検定のp値は『不正確』だから 正確確率検定の方が『保守的』だから 『保守的』なことは、『よいこと』だから
たくさんのp値を正確法で得ると… 正確確率検定 カイ二乗検定
たくさんのp値を正確法で得ると… 正確検定は、「保守的」なので、その結果をたくさん集めると、一様分布からは随分ずれる
連鎖不平衡とp値
連鎖不平衡とマルチプルテスティング 1つのSNP 複数の遺伝的モデル 複数の検定 1つの遺伝子 複数のSNP 個々のSNPに1つの検定
相互に独立ではない 複数の検定 1つのSNP 複数のSNP 相互に連鎖不平衡にある 相加・優性・劣性の3検定は、相互に独立ではない
相互に独立ではない 複数の検定 1つのSNP 複数のSNP 相互に連鎖不平衡にある 相加・優性・劣性の3検定は、相互に独立ではない マルチプルテスティング補正が必要
連鎖不平衡領域 SNPごとに相加検定 20個のp値
ケース・コントロールスタディを実施 有意水準0.01で関連ありとするには、どれくらい小さいp値が適当?
クイズ、1-6のどれ? 0.01/20 = 0.0005 0.000502 = 1-(1-0.01)^(1/2) 0.00045 0.000502 = 1-(1-0.01)^(1/2) 0.00045 0.00054 0.00064 0.00087
クイズ、1-6のどれ? 0.01/20 = 0.0005 ボンフェロニ 0.000502 = 1-(1-0.01)^(1/2) Sidak 0.00045 0.00054 0.00064 0.00087
クイズ、1-6のどれ? 0.01/20 = 0.0005 ボンフェロニ 0.000502 = 1-(1-0.01)^(1/2) Sidak 0.00045 0.00054 0.00064 0.00087
ボンフェロニやSidakより小さいわけがない クイズ、1-6のどれ? 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087 ボンフェロニやSidakより小さいわけがない
3つの数字、3つのLD図 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087
強 弱 中 中 弱 強 3つの数字、3つのLD図 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087 強 弱 中 中 弱 強
GWAS基準は「デフォルト推奨値」
SNPの数を十倍の 一千万個に増やしたら?
連鎖不平衡にあるマーカーで 代用する LDマッピングの原理そのもの SNP 1 : A / a の2アレル SNP 2 : B / b の2アレル ハプロタイプは4種類 AB Ab aB
2SNPの4ハプロタイプは 2x2 分割表 B b A 0.78 0.02 0.8 a 0.18 0.2 1
2x2 分割表なら カイ二乗検定しよう カイ二乗値 = 0.81 = r2 B b A 0.78 0.02 0.8 a 0.18 0.2 1
LD関係にある 2 SNPのカイ二乗値の相関の良さとLDインデックス r2 カイ二乗値の相関係数 LDのr2
LD関係にあるSNPで 代用したときのパワー (r2 = 0.81) 本体 代用
LD関係にあるSNPによるパワー 代用SNPの場合 真のリスクSNPの場合
p値の高低、どちらが小さい? 代用SNPの場合 代用SNPのp値の方が小さい 真のリスクSNPの場合
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 r2 =1 0.9
p値の高低、どちらが「本物」? 代用SNPの場合 代用SNPのp値の方が小さい 真のリスクSNPの場合
p値の高低、どちらが「本物」? 1 代用のp値が本物以下の割合 LDのr2 0.1 1
アレルで、ハプロタイプで 検定する MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85
アレル本数で考える 2x3表の相加モデル(トレンド)検定 2x2表を作って普通にカイ二乗検定(独立性検定)
MM Mm mm 10 30 5 20 55 15 40 85 M m 30 60 80 110 170
MM Mm mm 10 30 5 20 55 15 40 85 M m 30 60 80 110 170
20 24 6 50 29 18 3 49 42 9 100 クイズ 3つの分割表 相加と2x2とが同じ表が2個ある。どれ? 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100
20 24 6 50 29 18 3 49 42 9 100 クイズ 3つの分割表 相加と2x2とが同じ表が2個ある。どれ? 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100
20 24 6 50 29 18 3 49 42 9 100 クイズ 3つの分割表 相加と2x2とが同じ表が2個ある。どれ? 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100
20 24 6 50 29 18 3 49 42 9 100 ハーディ・ワインバーグ平衡かどうか 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100
SNPのアレル単位でかんがえるのも ハプロタイプで考えるのも 基本は同じ SNPのアレルの場合は2x3表の相加モデル(トレンド)検定がある ハプロタイプの方は、ディプロタイプがわからないことが多く、やりようがないかもしれない
ハーディ・ワインバーグ平衡のp値
HWE検定p値が小さいとき 『サンプルは集団構造化がある母集団を代表している』 『母集団を代表していない』 『実験がうまく行っていない』
HWE検定p値が小さいとき 『サンプルは集団構造化がある母集団を代表している』 『母集団を代表していない』 『実験がうまく行っていない』 GWASならば補正方法がある 『母集団を代表していない』 GWASならば個々のHWE検定を問題にする必要はない 『実験がうまく行っていない』 GWASにおいて、個々のHWE検定p値を利用するべきは、これ
HWE検定で実験の失敗を疑う HWE検定p値が小さいとき 『サンプルは集団構造化がある母集団を代表している』 『母集団を代表していない』 『実験がうまく行っていない』
「ずれ」を見るなら、QQプロット
p値が一様じゃない p値は、一様分布に従っているから、その値を0.01と聞けば、「あー、0.01的に珍しいことなんだ」とわかるわけですから、p値の本領は一様分布になっていることです。 しかしながら、実際にGWASを実施して、数十万個のp値を算出して、その分布を見てやると、一様分布になっていない。
2つのアプローチ 「本当は一様分布」なはず。「一様分布」になるように修正してしまおう、という作戦。 一様分布になるわけがない。個々の検定結果のp値を見て、対立仮説が真なのか、帰無仮説が真なのかを選別する情報が得られればよい、という作戦
一様分布に修正する作戦 ジェノミック・コントロール
単純な1要因 集団が完全には均一でないときに、帰無仮説の検定結果(カイ二乗値、p値)が理論的分布から外れる その外れ方は、「うまく混ざっていない」という単純な要因で説明できると仮定すると 観測されたカイ二乗値の中央値が理論的な中央値になるように、割り算補正すると解決することが知られている じゃあ、そうしてしまおう、というのがジェノミックコントロール法
中央値が揃うように補正
たくさんの本物がある場合~FDR~
「合否」の基準を 一律にせず 何番目に小さいかで 手加減する
色々方法はあるが、基礎的なFDRは 直線に照らして「合否判定」 0.05
まとめ 京大 統計遺伝学 p値は、判断するための値 パワーと偽陽性とは、お互い様 たくさんのp値があったら、その特性に応じて補正する 0 から 1 、一様分布 一様分布であることを使って判断したい パワーと偽陽性とは、お互い様 たくさんのp値があったら、その特性に応じて補正する マルチプルテスティング補正 相互に関連しあう検定があったら補正は少し甘くする FDRを使うことも 京大 統計遺伝学