日本人類遺伝学会 2014/11/20 京都大学医学研究科統計遺伝学分野山田亮

Slides:

Advertisements

Similar presentations

統計学勉強会～カイ二乗検定～地理生態学研究室 3 年髙田裕之. カイ二乗検定とは期待値・理論値が存在するときに用いる。一般的にはピアソンのカイ二乗検定のことを指す。ノンパラメトリックな検定である。適合度検定と独立性検定がある。

Advertisements

橋本. 階級値が棒の中央！階級値図での値階級下限階級上限

１標本のｔ検定 3 年地理生態学研究室脇海道卓. ｔ検定とは・帰無仮説が正しいと仮定した場合に、統計量が t 分布に従うことを利用する統計学的検定法の総称である。

第６回適合度の検定問題例１サイコロを 60 回振って、各目の出た度数は次の通りであった。目の出方は一様と考えてよいか。サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説：サイコロの目は一様に出る＝＞それぞれの目の出る確率 p.

計量的手法入門人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日奥西好夫

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

統計学西山. 標本分布と推定標準誤差【例題】 ○○ 率の推定ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体では、何％程度の人がこのドラマを見ただろうか。信頼係数は９５％で答えてください。

数理統計学西山. 前回の問題ある高校の 1 年生からランダムに 5 名を選んで 50 メートル走の記録をとると、、、、、だった。学年全体の平均を推定しなさい．信頼係数は９０％とする。当分、は元の分散と一致していると仮定する.

Wilcoxon の順位和検定理論生態学研究室山田歩. 使用場面 2 標本離散型分布連続型分布（母集団が正規分布でない時など効果的）ただパラメトリックな手法が使える条件がそろっている時に、ノンパラメトリックな手法を用いると検出力（対立仮説が正しいときに帰無仮説を棄却できる確率）が低下するとい.

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

エクセルと SPSS によるデータ分析の方法社会調査法・実習資料. 仮説の分析に使う代表的なモデル１クロス表２ｔ検定（平均値の差の検定）３相関係数.

logistic regression をしたい場合の STATISTICA2000のアプリケーションの使い方について

看護学部中澤港統計学第５回看護学部　中澤　港

データ分析入門（12）第12章　単回帰分析廣野元久.

様々な仮説検定の場面 ① １標本の検定 ② ２標本の検定 ③ ３標本以上の検定 ④ ２変数間の関連の強さに関する検定

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

検定Ｐ．１３７.

統計的仮説検定基本的な考え方母集団における母数（母平均、母比率）に関する仮説の真偽を、得られた標本統計量を用いて判定すること。

土木計画学第５回（１１月２日）調査データの統計処理と分析３担当：榊原　弘之.

統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える

統計的仮説検定治験データから判断する際の過誤検定結果真実仮説Hoを採用仮説Hoを棄却第一種の過誤（α）（アワテモノの誤り）

確率･統計Ⅱ 第7回.

統計学勉強会対応のあるｔ検定理論生態学研究室３年　新藤　茜.

統計学 12/13（木）.

計算値が表の値より小さいので「異なるとは言えない」。

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

対応のあるデータの時のｔ検定重さの測定値（g）例：

クロス集計とχ２検定Ｐ．１４４.

？？？？？？？？多変量解析とは？問題となっている現象 ●問題の発生原因がわからない（因果関係）

土木計画学第６回（１１月９日）調査データの統計処理と分析４担当：榊原　弘之.

analysis of survey data 第３回香川大学経済学部堀啓造

早稲田大学大学院商学研究科２０１６年１月１３日大塚忠義

看護研究における統計の活用法 Part １京都府立医科大学　浅野　弘明 2012年11月10日.

4章までのまとめｰ計量経済学ｰ.

分割表 Contingency table.

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

対立仮説下でのみ存在する遺伝形式という母数を持つ２ｘ３分割表検定に関する考察～SNPによるケース・コントロール関連検定～

第８回授業（5/29日）の学習目標検定と推定は、１つの関係式の見方の違いであることを学ぶ。第３章のWEB宿題の説明

統計学西　山.

標本分散の標本分布標本分散の統計量　　　の定義　　　の性質分布表の使い方　　　分布の信頼区間　

ゲノム科学概論～ゲノム科学における統計学の役割～ (遺伝統計学)

法数学勉強会 2016年4月会京都大学(医)統計遺伝学分野山田亮

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

数理統計学西　山.

法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野山田亮

遺伝統計学集中講義（４） SNPによる領域の評価

東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのＤＮＡ鑑定

統計処理２　ｔ検定・分散分析.

2011/05/28 京都大学大学院附属ゲノム医学センター統計遺伝学分野山田亮

母分散の検定母分散の比の検定カイ2乗分布の応用

早稲田大学大学院商学研究科２０１４年１２月１０日大塚忠義

疫学初級者研修　～２×２表～平成１２年２月１４日（月）１３：００～岡山理科大学情報処理センター.

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

川口喬久川上弘人山田亮関根章博中村祐輔山本一彦角田達彦理化学研究所遺伝子多型研究センター

尤度の比較と仮説検定とを比較する～Ｐ値のことなど～

母分散の検定母分散の比の検定カイ2乗分布の応用

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

決断のための分布合算京大(医)統計遺伝学分野山田　亮.

クロス表とχ2検定.

母集団と標本抽出の関係母集団標本母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p ：

親子鑑定に見る尤度比を角度を変えて眺めてみる

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

第３日目第４時限の学習目標第１日目第３時限のスライドによる、名義尺度２変数間の連関のカイ２乗統計量についての復習

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

「カテゴリ変数２つの解析」中澤港統計学第７回「カテゴリ変数２つの解析」中澤　港

数理統計学　　第１２回西　山.

分割表 Contingency table.

感受性遺伝子解析のデータ処理平成18年11月29日山田.

Presentation transcript:

日本人類遺伝学会 2014/11/20 京都大学医学研究科統計遺伝学分野山田亮 P値から考えるゲノム疫学解析日本人類遺伝学会 2014/11/20 京都大学　医学研究科　統計遺伝学分野山田　亮

SNPを用いたGWASなどのスタディに関わっている・かかわろうとしている大学院修士の学生さん、くらいを主なターゲットとしますご参加のみなさんには、 SNPって何？　検定とp値？　そもそもたくさん検定をするって何？　という方やあそこの分割表の検定は、厳密には、●●しないといけないのではという方が混ざっている・・・と思いますが、せっかくですので、何かしら得るものがありますように今日のスライドの大部分のデータ処理はフリーソフトRで実施しています。そのコードを含めた資料は、分野facebookから入手可能です。聴講しながら、叩いていただいても結構です。

2x2分割表で確認する、p値、オッズ比とその信頼区間

2x2分割表で確認する、p値、オッズ比とその信頼区間ありなしコントロール 20 27 47 ケース 28 25 53 48 52 100

検定する・推定する

検定する・推定するカイ二乗統計量 0.6825 自由度 1 p-値 0.4087

検定 p値棄却するべきかどうかの情報 p値が小さいほど、無関係という仮説（帰無仮説）を棄却する

ありなしコ 20 27 47 ケ 28 25 53 48 52 100 推定オッズ比　0.6614 95%信頼区間　0.3 ～1.458

推定オッズ比を計算する。オッズ比は、相対危険度の推定値オッズ比～相対危険度が１であるときが、「無関係」に相当する推定値は点推定値信頼区間「だいたいこのくらいの範囲」の中に、「無関係の相対危険度～１」が入っているかどうかで、およその帰無仮説を棄却するかどうかのめども立つ

p値と CIが1をまたぐかの関係緩く正しく微妙に違う OR 95% CI 1.0 p値

p値はなんのため？一様分布小さいp値も大きいp値も同じくらい出やすい 0.5が出やすいわけではない 1が出やすいわけではない

p値はなんのため？一様分布小さいp値も大きいp値も同じくらい出やすい 0.5が出やすいわけではない 1が出やすいわけではない

一様分布のヒストグラム 1 p値

順番に並べてプロットすると直線になる１番１万番小さい順

小さい順に並べて対角線を描くのは QQプロット対数を取ってもOK p値だけではなくカイ二乗値でもＯＫ Lanktree M B et al. Stroke. 2010;41:825-832 Copyright © American Heart Association, Inc. All rights reserved.

QQプロット理論に合っているかを確認する観測値 1 期待値・理論値

p値の基礎、終了ぴーち

SNV解析の基本、2x3分割表 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

コントロールに比べて、ケースが： 0.5、2、3倍 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

さっそく「関連検定」しよう

さっそく「関連検定」しよう面倒くささの元は

さっそく「関連検定」しよう面倒くささの元はいくつも検定法があること

2x3分割表の検定法２つトレンド検定とロジスティック回帰検定

トレンド検定する p 値 0.007476 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85 オッズ比は？ p 値 0.007476, (10x20)/(10x5) = 4 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85 オッズ比その２ p 値 0.007476, (10x30)/(10x5) = 6 MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

トレンド検定する p 値 0.007476, オッズ比 4 (Mm vs. MM) 6 (mm vs. MM)

トレンド検定のオッズ比… トレンド検定をするというのは、線形回帰をしているのと同じです。線形回帰では、ジェノタイプごとのケースの割合が直線に乗るように推定しますこの『トレンド検定をするという気持ち』に照らすと、このオッズ比はちょっと違いますどう違う？

トレンド検定という線形回帰フェノタイプの現れる確率 1.0 0.0 ジェノタイプ

線形回帰は「傾き」が大事フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 ジェノタイプ

線形回帰は「傾き」が大事オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) ジェノタイプ

線形回帰は「傾き」が大事オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) フェノタイプの現れる確率 (p2/1-p2) 1-p2 (p1/1-p1) 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 4 (Mm vs. MM) 5.1 6 (mm vs. MM) ジェノタイプ

ロジスティック回帰する p 値 0.007476 (トレンド検定) p 値 0.009525 (ロジスティック回帰検定) 大差ない

ロジスティック回帰するフェノタイプの現れる確率 1.0 0.0 ジェノタイプ

ロジスティック回帰するオッズ比 2.1 → 2.3 (Mm vs. MM) 5.1 → 5.2 (mm vs. MM) フェノタイプの現れる確率 1-p2 1.0 1-p1 p2 p1 0.0 オッズ比 2.1 → 2.3 (Mm vs. MM) 5.1 → 5.2 (mm vs. MM) ジェノタイプ

ロジスティック回帰するオッズ比 2.1 → 2.3 5.1 → 5.2 = 2.3 x 2.3 フェノタイプの現れる確率 1-p2 1.0 0.0 オッズ比 2.1 → 2.3 5.1 → 5.2 = 2.3 x 2.3 ジェノタイプ

トレンド検定とロジスティック回帰

トレンド検定とロジスティック回帰直線と曲線の違いはあるけれど大差ない

大差がないロジスティック　log10(p) トレンド　log10(p)

違いはトレンド検定はロジスティック回帰検定は相加モデルに相当する計算が簡単正確検定もできる(低アレル頻度・少サンプル数の場合の対処法がある) 個人別のデータが不要「線形回帰」に基づくオッズ比が結果に付いていないことが多い共変量を組み込めない(線形回帰にすればよいが、それならロジスティック回帰をすればよい) ロジスティック回帰検定は相乗モデルに相当する計算が面倒ではある(けれど計算機がやってくれるので問題はないが、検定個数が大量になるとそれなりに影響してくる) オッズ比が結果についてくることが多い(ただし、係数は対数で返ってくることが通例) 年齢・性別などの共変量を組み込みやすい

遺伝形式相加　相乗　優性　劣性面倒くささの元はいくつも検定法があること

優性

優性

劣性

優性・劣性形式の検定するのか、しないかすることのメリットとデメリットしないことのメリットとデメリット優性・劣性形式に照らした結果がわかる 1つの2x3表に複数の検定をすると、複数のp値が得られる。複数のp値が出たら、そのp値はには「補正」をしないといけないしないことのメリットとデメリット 1つのp値しか出ていなければ、複数のp値の補正について悩む必要はない優性・劣性形式に照らしての判断になっていない

優性・劣性形式の検定をしなかったら本当は「優性、または、劣性」な影響があるとすると、偽陰性が増える。では、「優性形式が真」のときに、「相加モデルだけ」で検定すると、どれくらい偽陰性になるのかを見てみることにする。

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人優性モデルlog10(p) 相加モデルlog10(p)

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人優性モデルlog10(p) 30% 相加モデルlog10(p)

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人優性モデルlog10(p) 30% 24% 相加モデルlog10(p)

アレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人優性モデルlog10(p) 偽陰性 30% 24% 相加モデルlog10(p)

優性モデルでは拾えずに相加モデルで「たまたま拾う」こともあるアレル頻度 0.3 RR(優性) RR=1.2 1000人 vs. 1000人優性モデルlog10(p) 偽陰性相加モデルlog10(p)

優性モデルlog10(p) 相加　優性　両方を併せるとパワーが上がる相加モデルlog10(p)

パワーが上がるのはよいことだ

相加・優性どちらも『あり』にしたら偽陽性が1.8倍になった真の優性座位無関係の座位

パワーが上がると偽陽性が増えるいいことがあると悪いこともあるパワーが上がると偽陽性が増えるいいことがあると悪いこともある

パワーを上げつつ、偽陽性を増やさない 0.01より小さい『新たなp値基準』を作る 1%

稼ぐ失う

『新たなp値基準』を探すこの図があれば、できるけれど、この図はない(すぐには手に入らない) 1%

素朴なマルチプルテスティング対策

素朴なマルチプルテスティング対策黒、赤、緑、青、の比率がわかれば、『新たなp値基準』はわかる

素朴なマルチプルテスティング対策黒、赤、緑、青、の比率がわかれば、『新たなp値基準』はわかる

素朴なマルチプルテスティング対策黒、赤、緑、青、の比率がわかれば、『新たなp値基準』はわかる

素朴なマルチプルテスティング対策黒、赤、緑、青、の比率は　わかる　　　　一様分布なら

１辺の長さが１の正方形 ?の長さを求めなさい 0.99 ? ?

１辺の長さが１の正方形 ?の長さを求めなさい 0.99 Sidak法 ? ?

細長い白枠長方形2個の面積が0.01になるとき ? の長さはいくつか？ 0.99より大きくするボンフェリニ法 ? ?

問題は、偏りがあること優性・相加のp値には相関がある

分布がわからないので、どうするか分布がわからないままに、補正するわからない分布を調べてから、それに基づいて補正する

分布がわからないままに、補正する

分布が違うのに、それでよいのか？ボンフェロニ・Sidakを使うと偽陽性が少なくなるパワーが弱くなる～ストイックであれば大丈夫～～保守的であれば大丈夫～

分布がわからなければ分布を調べればよい正確確率法ランダマイゼーション・パーミュテーション法

本当に知りたいこと本当は「関連がない」ときに相互に相関のある複数の検定を実施したときに最も小さいp値は、どれくらい小さければ0.01並みに珍しいか

本当に知りたいこと本当は「関連がない」ときに相互に相関のある複数の検定を実施したときに最も小さいp値は、どれくらい小さければ0.01並みに珍しいかこれは、ちょっと面倒なので、少し変えます

本当に知りたいこと本当は「関連がない」ときに相互に相関のある複数の検定を実施したときに『今、観測された分割表』の周辺度数を満足する場合のすべてを考慮して最も小さいp値は、どれくらい小さければ0.01並みに珍しいか

『今、観測された分割表』の周辺度数を満足する場合のすべてを考慮する２つの方法本当に「すべての場合」を考慮する正確確率法乱数を使って「一部の場合」を考慮して代用するモンテカルロ・ランダマイゼーション法、パーミュテーション法

正確確率法とランダマイゼーション法の違い『正確』すべての場合を扱えるのは、自由度2くらいまで。それは、2x3表が１個ある場合。ランダマイゼーション法『推定値』試行ごとに少し違う 1000の場合をやれば、最小p値は0.001、10000回やれば、最小p値は0.0001

GWAS基準の有意p値はとても小さいけれど、それはどうするの？正確確率法『正確』すべての場合を扱えるのは、自由度2くらいまで。それは、2x3表が１個ある場合。ランダマイゼーション法『推定値』試行ごとに少し違う 1000の場合をやれば、最小p値は0.001、10000回やれば、最小p値は0.0001

GWAS基準は「デフォルト推奨値」

正確確率法って？

正確確率法って？サンプル数が少ないときにカイ二乗検定の代わりに使う方法サンプル数が少ない、というより、分割表のセルの値が小さいとき… 分割表のセルの値が小さいとき、というより、セルの期待値が小さいとき…

どうしてか？セルの期待値が小さめのときには、カイ二乗検定のp値は『不正確』だから正確確率検定の方が『保守的』だから『保守的』なことは、『よいこと』だから

たくさんのp値を正確法で得ると… 正確確率検定カイ二乗検定

たくさんのp値を正確法で得ると… 正確検定は、「保守的」なので、その結果をたくさん集めると、一様分布からは随分ずれる

連鎖不平衡とp値

連鎖不平衡とマルチプルテスティング 1つのSNP 複数の遺伝的モデル複数の検定 1つの遺伝子複数のSNP 個々のSNPに１つの検定

相互に独立ではない複数の検定１つのSNP 複数のSNP 相互に連鎖不平衡にある相加・優性・劣性の３検定は、相互に独立ではない

相互に独立ではない複数の検定１つのSNP 複数のSNP 相互に連鎖不平衡にある相加・優性・劣性の３検定は、相互に独立ではないマルチプルテスティング補正が必要

連鎖不平衡領域 SNPごとに相加検定 20個のp値

ケース・コントロールスタディを実施有意水準0.01で関連ありとするには、どれくらい小さいp値が適当？

クイズ、1-6のどれ？ 0.01/20 = 0.0005 0.000502 = 1-(1-0.01)^(1/2) 0.00045 0.000502 = 1-(1-0.01)^(1/2) 0.00045 0.00054 0.00064 0.00087

クイズ、1-6のどれ？ 0.01/20 = 0.0005 ボンフェロニ 0.000502 = 1-(1-0.01)^(1/2) Sidak 0.00045 0.00054 0.00064 0.00087

クイズ、1-6のどれ？ 0.01/20 = 0.0005 ボンフェロニ 0.000502 = 1-(1-0.01)^(1/2) Sidak 0.00045 0.00054 0.00064 0.00087

ボンフェロニやSidakより小さいわけがないクイズ、1-6のどれ？ 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087 ボンフェロニやSidakより小さいわけがない

３つの数字、３つのLD図 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087

強弱中中弱強３つの数字、３つのLD図 0.01/20 = 0.0005 ボンフェロニ 0.0005023906 Sidak 0.00045 0.00054 0.00064 0.00087 強弱中中弱強

GWAS基準は「デフォルト推奨値」

SNPの数を十倍の一千万個に増やしたら？

連鎖不平衡にあるマーカーで代用する LDマッピングの原理そのもの SNP 1 : A / a の２アレル SNP 2 : B / b の２アレルハプロタイプは４種類 AB Ab aB

2SNPの4ハプロタイプは 2x2 分割表 B b A 0.78 0.02 0.8 a 0.18 0.2 1

2x2 分割表ならカイ二乗検定しようカイ二乗値 = 0.81 = r2 B b A 0.78 0.02 0.8 a 0.18 0.2 1

LD関係にある 2 SNPのカイ二乗値の相関の良さとLDインデックス r2 カイ二乗値の相関係数 LDのr2

LD関係にあるSNPで代用したときのパワー (r2 = 0.81) 本体代用

LD関係にあるSNPによるパワー代用SNPの場合真のリスクSNPの場合

p値の高低、どちらが小さい？代用SNPの場合代用SNPのp値の方が小さい真のリスクSNPの場合

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 r2 =1 0.9

p値の高低、どちらが「本物」？代用SNPの場合代用SNPのp値の方が小さい真のリスクSNPの場合

p値の高低、どちらが「本物」？ 1 代用のp値が本物以下の割合 LDのr2 0.1 1

アレルで、ハプロタイプで検定する MM Mm mm コントロール 10 30 ケース 5 20 55 15 40 85

アレル本数で考える 2x3表の相加モデル(トレンド)検定 2x2表を作って普通にカイ二乗検定(独立性検定)

MM Mm mm 10 30 5 20 55 15 40 85 M m 30 60 80 110 170

MM Mm mm 10 30 5 20 55 15 40 85 M m 30 60 80 110 170

20 24 6 50 29 18 3 49 42 9 100 クイズ３つの分割表相加と2x2とが同じ表が2個ある。どれ？ 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

20 24 6 50 29 18 3 49 42 9 100 クイズ３つの分割表相加と2x2とが同じ表が2個ある。どれ？ 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

20 24 6 50 29 18 3 49 42 9 100 クイズ３つの分割表相加と2x2とが同じ表が2個ある。どれ？ 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

20 24 6 50 29 18 3 49 42 9 100 ハーディ・ワインバーグ平衡かどうか 23 24 6 50 26 18 3 49 42 9 100 25 22 6 50 26 18 3 51 9 100

SNPのアレル単位でかんがえるのもハプロタイプで考えるのも基本は同じ SNPのアレルの場合は2x3表の相加モデル(トレンド)検定があるハプロタイプの方は、ディプロタイプがわからないことが多く、やりようがないかもしれない

ハーディ・ワインバーグ平衡のp値

HWE検定p値が小さいとき『サンプルは集団構造化がある母集団を代表している』『母集団を代表していない』『実験がうまく行っていない』

HWE検定p値が小さいとき『サンプルは集団構造化がある母集団を代表している』『母集団を代表していない』『実験がうまく行っていない』 GWASならば補正方法がある『母集団を代表していない』 GWASならば個々のHWE検定を問題にする必要はない『実験がうまく行っていない』 GWASにおいて、個々のHWE検定p値を利用するべきは、これ

HWE検定で実験の失敗を疑う HWE検定p値が小さいとき『サンプルは集団構造化がある母集団を代表している』『母集団を代表していない』『実験がうまく行っていない』

「ずれ」を見るなら、QQプロット

p値が一様じゃない p値は、一様分布に従っているから、その値を0.01と聞けば、「あー、0.01的に珍しいことなんだ」とわかるわけですから、p値の本領は一様分布になっていることです。しかしながら、実際にGWASを実施して、数十万個のp値を算出して、その分布を見てやると、一様分布になっていない。

２つのアプローチ「本当は一様分布」なはず。「一様分布」になるように修正してしまおう、という作戦。一様分布になるわけがない。個々の検定結果のp値を見て、対立仮説が真なのか、帰無仮説が真なのかを選別する情報が得られればよい、という作戦

一様分布に修正する作戦ジェノミック・コントロール

単純な１要因集団が完全には均一でないときに、帰無仮説の検定結果(カイ二乗値、p値)が理論的分布から外れるその外れ方は、「うまく混ざっていない」という単純な要因で説明できると仮定すると観測されたカイ二乗値の中央値が理論的な中央値になるように、割り算補正すると解決することが知られているじゃあ、そうしてしまおう、というのがジェノミックコントロール法

中央値が揃うように補正

たくさんの本物がある場合～FDR～

「合否」の基準を一律にせず何番目に小さいかで手加減する

色々方法はあるが、基礎的なFDRは直線に照らして「合否判定」 0.05

まとめ京大統計遺伝学 p値は、判断するための値パワーと偽陽性とは、お互い様たくさんのp値があったら、その特性に応じて補正する 0 から 1 、一様分布一様分布であることを使って判断したいパワーと偽陽性とは、お互い様たくさんのp値があったら、その特性に応じて補正するマルチプルテスティング補正相互に関連しあう検定があったら補正は少し甘くする FDRを使うことも京大統計遺伝学