感受性遺伝子解析のデータ処理平成18年11月29日山田.

Slides:

Advertisements

Similar presentations

5 章標本と統計量の分布湯浅直弘. 5-1 母集団と標本 ■ 母集合今までは確率的なことこれからは，確率や割合がわかっていないときに，推定することが目標．個体：実験や観測を行う 1 つの対象母集団：個体全部の集合  ・有限な場合：有限母集合 → １つの箱に入っているねじ．  ・無限な場合：無限母集合.

Advertisements

１標本のｔ検定 3 年地理生態学研究室脇海道卓. ｔ検定とは・帰無仮説が正しいと仮定した場合に、統計量が t 分布に従うことを利用する統計学的検定法の総称である。

生物統計学・第 5 回比べる準備をする標準偏差、標準誤差、標準化 2013 年 11 月 7 日生命環境科学域応用生命科学類尾形善之.

第６回適合度の検定問題例１サイコロを 60 回振って、各目の出た度数は次の通りであった。目の出方は一様と考えてよいか。サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説：サイコロの目は一様に出る＝＞それぞれの目の出る確率 p.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

配偶者選択によるグッピー (Poecilia reticulata) のカラーパターンの進化：野外集団を用いた研究生物多様性進化分野 A1BM3035 吉田卓司.

エクセルと SPSS によるデータ分析の方法社会調査法・実習資料. 仮説の分析に使う代表的なモデル１クロス表２ｔ検定（平均値の差の検定）３相関係数.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

看護学部中澤港統計学第５回看護学部　中澤　港

第4章補足分散分析法入門統計学　2010年度.

様々な仮説検定の場面 ① １標本の検定 ② ２標本の検定 ③ ３標本以上の検定 ④ ２変数間の関連の強さに関する検定

統計学第９回「２群の差に関するノンパラメトリックな検定」中澤港

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

検定Ｐ．１３７.

統計的仮説検定基本的な考え方母集団における母数（母平均、母比率）に関する仮説の真偽を、得られた標本統計量を用いて判定すること。

土木計画学第５回（１１月２日）調査データの統計処理と分析３担当：榊原　弘之.

統計的推定と検定推定：統計的に標本の統計量から母集団の母数（母平均・母標準偏差など）を推測することを統計的推定という検定：

統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える

統計的仮説検定治験データから判断する際の過誤検定結果真実仮説Hoを採用仮説Hoを棄却第一種の過誤（α）（アワテモノの誤り）

心理統計学 II 第７回 (11/13) 授業の学習目標相関係数のまとめと具体的な計算例の復習相関係数の実習.

第6章２つの平均値を比較する２つの平均値を比較する方法の説明　　　独立な2群の平均値差の検定　　対応のある2群の平均値差の検定.

疫学(Epidemiology) 第4回標本抽出法誤差やバイアスの制御中澤　港（内線1453）

確率･統計Ⅱ 第7回.

カイ二乗検定の応用カイ二乗検定はメンデル遺伝の分離比や計数（比率）データの標本（群）の差の検定にも利用できる自由度

統計学 12/13（木）.

計算値が表の値より小さいので「異なるとは言えない」。

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

対応のあるデータの時のｔ検定重さの測定値（g）例：

土木計画学第６回（１１月９日）調査データの統計処理と分析４担当：榊原　弘之.

analysis of survey data 第３回香川大学経済学部堀啓造

早稲田大学大学院商学研究科２０１６年１月１３日大塚忠義

母集団と標本：基本概念母集団パラメーターと標本統計量標本比率の標本分布

第２日目第４時限の学習目標平均値の差の検定について学ぶ。（１）平均値の差の検定の具体例を知る。

対立仮説下でのみ存在する遺伝形式という母数を持つ２ｘ３分割表検定に関する考察～SNPによるケース・コントロール関連検定～

第８回授業（5/29日）の学習目標検定と推定は、１つの関係式の見方の違いであることを学ぶ。第３章のWEB宿題の説明

日本人類遺伝学会 2014/11/20 京都大学医学研究科統計遺伝学分野山田亮

第3章統計的推定（その1）統計学　2006年度.

食中毒と疫学調査の統計～２×２表～岡山理科大学山本英二 2002/02/20.

多母集団の同時分析豊本満喜子大阪大学人間科学部.

統計学西　山.

標本分散の標本分布標本分散の統計量　　　の定義　　　の性質分布表の使い方　　　分布の信頼区間　

ゲノム科学概論～ゲノム科学における統計学の役割～ (遺伝統計学)

配偶者選択によるグッピー(Poecilia reticulata)のカラーパターンの進化：野外集団を用いた研究

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

第１日目第３時限の学習目標２変量データを手にした時の分布の特徴の記述方法（前回からの続き）について学ぶ。基本的な２変量統計量ー１

法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野山田亮

遺伝統計学集中講義（４） SNPによる領域の評価

母分散の信頼区間 F分布母分散の比の信頼区間

母分散の検定母分散の比の検定カイ2乗分布の応用

疫学初級者研修　～２×２表～平成１２年２月１４日（月）１３：００～岡山理科大学情報処理センター.

統計的検定　　１．検定の考え方２．母集団平均の検定.

川口喬久川上弘人山田亮関根章博中村祐輔山本一彦角田達彦理化学研究所遺伝子多型研究センター

尤度の比較と仮説検定とを比較する～Ｐ値のことなど～

母分散の検定母分散の比の検定カイ2乗分布の応用

第4章統計的検定（その2）統計学　2006年度.

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

森美賀子山田亮小林香子川井田礼美山本一彦

クロス表とχ2検定.

母集団と標本抽出の関係母集団標本母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p ：

親子鑑定に見る尤度比を角度を変えて眺めてみる

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

法数学勉強会 2015/09/26 京都大学統計遺伝学分野山田亮

第３日目第４時限の学習目標第１日目第３時限のスライドによる、名義尺度２変数間の連関のカイ２乗統計量についての復習

遺伝統計学集中講義（２）連鎖不平衡・連鎖不平衡マッピング

配偶者選択によるグッピー(Poecilia reticulata)のカラーパターンの進化：野外集団を用いた研究

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

「カテゴリ変数２つの解析」中澤港統計学第７回「カテゴリ変数２つの解析」中澤　港

確率と統計2007（最終回）平成20年1月17日(木) 東京工科大学亀田弘之.

Presentation transcript:

感受性遺伝子解析のデータ処理平成18年11月29日山田

遺伝子と疾患との関係どんな関係を調べたいのか

遺伝子と疾患との関係どんな関係を調べたいのか？対象は何か？関係の性質は遺伝子の何との関係が調べたいのか？疾患の何との関係が調べたいのか？関係の性質は因果関係か？相関関係か？

関係を調べる基本は・・・遺伝子側１要素　対　疾患側１要素認められる関係は相関関係因果関係は介入実験・経時観測実験で

遺伝子の何との関係

遺伝子の何との関係遺伝子産物の機能遺伝子の発現量遺伝子配列の個人差

疾患の何との関係

疾患の何との関係疾患の病理疾患の発病罹患後の疾患活動性疾患の予後治療反応性

遺伝子の何対疾患の何疾患の病理疾患の発病疾患活動性疾患の予後治療反応性遺伝子産物の機能遺伝子の発現量遺伝子の個人差

調べる対象は遺伝子側要素　対　疾患側要素１　対　１複数　対　１１　対　複数複数　対　複数それらの組合せ

調べたいこと

調べたいこと『ある遺伝子Gは疾患Xの発病促進リスク遺伝子であるかどうか』

調べたいこと『ある遺伝子Gは疾患Xの発病促進リスク遺伝子であるかどうか』これでデータの収集(実験)が開始できるでしょうか？

調べたいこと『ある遺伝子Gは疾患Xの発病促進リスク遺伝子であるかどうか』『ある遺伝子G』に個人差がないと先に進めないと分解すれば先に進めます

調べたいこと『ある遺伝子Gは疾患Xの発病促進リスク遺伝子であるかどうか』『ある遺伝子G』に個人差がないと先に進めないと分解すれば先に進めます

『ある遺伝子Gに個人差があって』変異・多型変異と多型の組合せ同一種の塩基配列はところどころ違う、それが変異・多型アレル(アリル) Diploidとしての組合せ：ジェノタイプ Haploidとしての組合せ：ハプロタイプ両方の組合せ：ハプロタイプが作る複合ジェノタイプ

『その個人差と疾患Xの発病とが関係するかどうか』『その個人差』アレル SNPなら２種類ｘ多型の数ジェノタイプ SNPなら３種類 x 多型の数ハプロタイプ SNPなら 2^多型の数『疾患Xの発病』ケースかコントロールか

『遺伝子G1とG2と・・・と疾患Xの臨床マーカーM1とM2と・・・とが関係するかどうか』疾患P1 遺伝子G1 疾患P2 遺伝子G2 遺伝子G3 疾患P3 遺伝子G5 遺伝子4 疾患P4 遺伝子G6 疾患P5

複数の関係について考えなくてはならないが・・・まずは１つの『関係』について考える『関連解析』という手法分割表検定から２つのことをする『関連があるか、ないか』帰無仮説『関連がない』とその棄却検定 →P値『関連を数値で表すといくつか』『関連がある』として、それを数字で表すといくつか →オッズ比

検定をする前にデータのチェックアッセイの成功率極論すれば、成功率が悪くても、「ランダム」な失敗であれば大丈夫成功率に偏りがないかただし、普通は成功率が悪ければ、サンプリングバイアスに加えたバイアスが混入しているものとして立ち止まる成功率に偏りがないかケースばかりの失敗、コントロールばかりの失敗・・・それに万一、疾患関連遺伝因子が絡んでいないか？たくさんの遺伝マーカーのデータがあれば、それらを総合して判断することも可能→細かい話しになるので省略

検定をする前にデータのチェックサンプリングバイアスの有無の情報が得られないか？『ランダムメイティングの仮定できる、均一集団からのランダムサンプル』であると、余計なことを考えなくてよいので、それに関する情報をとる Hardy-Weinberg平衡検定疾患と無関係な因子についてはケースコントロール両群でHWEが成立する疾患と関係する因子については、有病率が高くない疾患では、ケース群については必ずしもHWEが成立しないランダムメイティングが仮定できない集団の場合にはHWEが成立しないこともあり、その場合には、この方法は使えないたくさんの遺伝因子についての情報があれば、それらを全部総合してランダムメイティング均一集団であるかの情報を得ることができる・・・少し細かい話しになるので、省略(ウェブテキストなど参照)

分割表検定遺伝因子あり遺伝因子なし計ケース集団 A B E コントロール集団 C D F G H N

HWE検定２法カイ自乗検定正確確率検定 HWEの場合は２つの検定のP値は大きく異なる。カイ自乗検定の方が保守的(P値が低く出やすい)。

カイ自乗検定・Fisherの正確確率検定遺伝因子あり遺伝因子なし計ケース標本 A B E コントロール標本 C D F G H N カイ自乗検定・Fisherの正確確率検定『もしもケース標本とコントロール標本とが、同じ集団からの標本』で、集団の分布のとおりにサンプリングされたとすると、AD/BC=1 観測されたAD/BCが１からはずれているとして、ランダムに標本を採ってきたときに、そのはずれの程度が観測値の場合よりもずれる確率はいくつかを求める。カイ自乗値の計算は簡単(だから、使用制限がある) Fisherの正確確率検定は面倒(だけど、最近の計算機環境では痛痒なし)

オッズ比と棄却検定『もしもケース標本とコントロール標本とが、同じ集団からの標本』で、集団の分布のとおりにサンプリングされたとすると、AD/BC=1 オッズ比はAD/BCである。オッズ比は遺伝因子が疾患の有無への影響力の代表値である『影響力』は『相対危険度』とみなせることが多く、『相対危険度』分割表から推定される。『相対危険度の推定値』はオッズ比と中心に、ある信頼区間を持った範囲に分布すると考える。『相対危険度の推定値』の信頼区間の下限が１を上回るとき、帰無仮説(相対危険度が１であるとする仮説)は、その信頼区間に対応する棄却水準で棄却されたということと、ほとんど同じである(使用する検定その他により少しずれが出る)

カイ自乗検定の使用制約カイ自乗値の計算は簡単(だから、使用制限がある) Fisherの正確確率検定は面倒(だけど、最近の計算機環境では痛痒なし) Fisherの正確確率検定は『正確』なP値を返すカイ自乗検定は、Fisherの正確確率検定P値の近似値を与える。カイ自乗検定のP値は、分割表のセルの数値が小さくなってくると、Fisherのそれとのずれが大きくなる。次の基準は1950年代から言われている基準である・・・(Cochran, W. G.: Some methods for strengthening the common χ2 tests. Biometrics, 10, 417-451, 1954）期待値が 1 未満のセルが 1 つでもある。期待値が 5 未満のセルが全体のセルの数の 20 % 以上ある

分割表の作り方分割表ができたら、帰無仮説棄却検定とオッズ比による因子の強さについての情報が取れることがわかった SNPのタイピングはジェノタイプ(3種類) ケース・コントロール関連解析では2x3分割表ができる１１１２２２計ケース A B C G コントロール D E F H I J K N

2x3分割表そのものについて関連(独立性)検定アレル本数2x2分割表１１１２２２計ケース A B C G コントロール D E F H I J K N 2x3分割表そのものについて関連(独立性)検定アレル本数2x2分割表染色体本数についてアレルの数を数える総標本数は２ｘN ジェノタイプをプールして2x2分割表１１＋１２　対　２２１１　　　　対　１２＋２２１１＋２２　対　１２　・・・はやってもよいけど、何を調べたいかの仮説が立てにくいのでやらないことが多い

１つのSNPで複数の検定４つの分割表ができた複数の分割表のそれぞれからP値を算出すると、そのP値の意味を再解釈する必要が必ず出るひとつの実験データから、いくつもの分割表で検定すればするほど、『うまいこと』統計的に有意な結果を得られそうだが、必ずしもそうとはいえない。その『うまいこと』行かないように『平等』に、『ずる』がないようにするのが『Multiple testing補正』

アレル別検定 N人の標本＝２ｘN本の染色体の標本ケース群・コントロール群とでアレルの比率が同じか違うかを検定する２ｘ２分割表検定標本数が多い(ジェノタイプ別の2倍)ので、検出力が大きいオッズ比は２群のアレル頻度の違いの強さの指標であり、個人の発症しやすさ(相対危険度)としての意味づけはない→集団としての特性を示すもし１SNPあたり１検定だけを選ぶなら、これ

ジェノタイプ２Ｘ３分割表検定 3ジェノタイプの分布の具合がケースコントロール間で同一かどうかを検定する２ｘ３分割表検定１１、１２、２２の３ジェノタイプにリスク上の序列をつけたいときには、それなりの手法があるが、一般的にはそれを実施する必要はないオッズ比を求めるのであれば、基準となるジェノタイプを設定し、それに対するオッズ比をジェノタイプ別に求める

ジェノタイプ２Ｘ２分割表検定リスクアレルを1本以上もっている場合と１本も持っていない場合(優性遺伝形式に似る) リスクアレルを2本もつ場合と1本以下の場合(劣性遺伝形式に似る) ２ｘ２分割表検定オッズ比はそれぞれの設定されたジェノタイプグループにおける相対危険度の近似値を与える

複数SNPの組合せ(ハプロタイプ) 物理的に並んでいるSNP ハプロタイプを推定するケース・コントロール集団ごとにハプロタイプ頻度の推定値が計算されるハプロタイプアレルによる2xNサンプルの検定となるそれをもとに2xN分割表ができる 2xN分割表検定を行う場合と N通りの２ｘ２分割表を作成してそれぞれについて検定する場合があるここまでは、比較的ルーチンに行われるいくつかのハプロタイプをプールしたり、ハプロタイプが作る推定ジェノタイプを用いたりする検定は特別な事情のある場合に実施することがある

複数SNPの組合せ(機能組合せ) 物理的に並んでいないSNP ハプロタイプは存在しない複数のSNPが作る複合ジェノタイプ N SNPで３＾Nジェノタイプこれらの分布がケース・コントロール間で均一かどうかを検定する 2x3^N 分割表検定それを個別にくくったりすることはよほどの理由がなければ行わない

Multiple testing P値とは分割表の観測値からP値が算出されたとするもし関連がない母集団からたくさんのサンプリングを繰り返すと・・・ P<=0.01が得られる確率は0.01 P<=0.05が得られる確率は0.05 P<=0.5が得られる確率は0.5 P<=0.05が得られる確率と0.05<P<=0.1が得られる確率は等しくて、0.05

１に近いp値も0に近いp値も同じ頻度で現れる帰無仮説がなりたつとき P値で度数分布をとると・・・ p 1 比率１に近いp値も0に近いp値も同じ頻度で現れる

１マーカーでの関連解析形質(疾患) マーカー形質とマーカーとに強い関連がある

１マーカーでの関連解析形質(疾患) マーカー形質とマーカーとに強い関連がある

多マーカーでの関連解析形質(疾患) マーカー２つ

多マーカーでの関連解析形質(疾患) マーカー形質と第1マーカーとに強い関連がある？

多マーカーでの関連解析形質(疾患) マーカー形質と第1マーカーとに強い関連がある？？？？？？？

多マーカーでの関連解析

多マーカーでの関連解析 ←同じ→

多マーカーでの関連解析

多マーカーでの関連解析

多マーカーでの関連解析どのマーカーとは言わないがマーカーと形質には関係があるマーカー同士は独立でない相互に近いマーカーでは個人のジェノタイプが似ている →連鎖不平衡にあるマーカー同士は独立である

多マーカーでの関連解析 ←同じ→

多マーカーでの関連解析

多マーカーでの関連解析

多マーカーでの関連解析個人のジェノタイプが似ているのではなく、集団のジェノタイプが似ているどのマーカーとは言わないがマーカーと形質には関係があるマーカー同士は独立でない個人のジェノタイプが似ているのではなく、集団のジェノタイプが似ている →集団の遺伝的バックグラウンドが異なるマーカー同士は独立でない相互に近いマーカーでは個人のジェノタイプが似ている →連鎖不平衡にある

実際には、ケースとコントロールとがそれぞれへテロな集団の混合で、その混合比が異なり、また、異集団間の差も大きくないので・・・集団構造化の影響実際には、ケースとコントロールとがそれぞれへテロな集団の混合で、その混合比が異なり、また、異集団間の差も大きくないので・・・

複数の仮説が独立であること、そうでないこと２つの仮説が独立であるときそれぞれの仮説から得られるP値の間に相関がない２つの仮説が独立でないときそれぞれの仮説から得られるP値の間に相関がある片方が「たまたま」低いP値をとるようなとき、なんらかの理由があって、もう片方も低いP値をとる

互いに独立でない仮説あるSNPについて作成した４個の分割表検定は互いに独立ではないあるSNPとそのSNPを含むハプロタイプとでは、それぞれに行う関連検定は互いに独立ではない相互に遠位にあるSNP同士でも、集団の構造化などが原因で関係が生じることがあるが、そのようなとき、そのSNPにおける関連検定同士は独立ではない疾患とそのバイオマーカーとに対して行う関連検定は互いに独立ではない。。。。

２つの独立な仮説でのP値 B A D C どちらかの仮説でP<=0.05となる確率はB+C+D=0.0975～0.1 = 0.95 x 0.95 = 1-0.0975 = 0.9025 B A 仮説２どちらかの仮説でP<=0.05となる確率はB+C+D=0.0975～0.1 ０．０５ D C 0.05 －D=0.0475 0.05x0.05=0.0025 ０．０５仮説１

K個の独立な仮説検定をして個々の仮説の棄却水準a(たとえばa=0.05) K個の仮説のすべてが棄却されない確率はこれは得られたP値をK倍してやればいいことを示しているこのようにP値を補正するのをBonferroniの補正と言って、もっとも保守的な補正である K=20でa=0.05だと、この値は1 １個の仮説はP<=0.05をとる確率が１(＝あたりまえ）

２つの独立な仮説でのP値 B A D C どちらかの仮説でP<=0.05となる確率はB+C+D=0.0975～0.1 = 0.95 x 0.95 = 1-0.0975 = 0.9025 B A 仮説２どちらかの仮説でP<=0.05となる確率はB+C+D=0.0975～0.1 ０．０５ D C 0.05 －D=0.0475 0.05x0.05=0.0025 ０．０５仮説１

B+D=0.05であれば、正方形のどこに置いても問題ないから、移動する 2個の仮説が独立ならば、A,B,C,Dの面積は変わらない仮説同士が独立でないと・・・ B+D=0.05であれば、正方形のどこに置いても問題ないから、移動する 2個の仮説が独立ならば、A,B,C,Dの面積は変わらない 1-B-C-D = 0.95 x 0.95 = 1-0.0975 = 0.9025 A B ０．０５仮説２ D C 0.05 －D=0.0475 ０．０５仮説１

B+D=0.05であれば、正方形のどこに置いても問題ないから、移動する 2個の仮説が独立ならば、A,B,C,Dの面積は変わらない０．０５仮説２ D C C=0.05 －D ０．０５仮説１

仮説同士が独立でないと・・・ B+D=C+D=0.05で変わらないが、Dの占める割合がだんだん大きくなり、BとCが小さくなる。したがって、B+C+Dは小さくなりAが大きくなる。 A=1-B-C-D 2個の仮説が完全に同じだとB=C=0、D=0.05、A=0.95 ～1個の仮説の検定と同じ A B 仮説２０．０５ D C C=0.05 －D ０．０５仮説１

相互に独立でない仮説の場合 Bonferroniの補正をして有意であれば、絶対に有意であるが、保守的すぎて、有意な結果が出るとは思えない別の方法がいるパーミュテーションテストという方法どのくらい割り引いていいかわからないので、ケースとコントロールのわりつけをいろいろ代えてみて、観測データがどれくらい珍しい値かを値踏みする方法

多数のマーカーのデータの場合多数のマーカーの場合には、多数のものが独立に振舞うべきであるという前提から、いくつかの情報をとることができるケース群とコントロール群とが、ランダムメイティング集団か階層化しているかの判定(階層化検定) ケース群とコントロール群とが、ランダムメイティングしていても、若干の遺伝的背景差がある場合、および、ランダムメイティングしていなくても、均等な階層化であれば、検定上の大きな問題は出ないが、階層化の仕方に若干の差がある場合その情報を組み込む工夫をする(Genomic controlなど)

性染色体の事情 X染色体は女２本、男１本という事情がある X染色体にはPseudoautosomal regionといわれる領域があり、その領域はY染色体に相同領域があり、男も２アレル持つ Pseudoautosomal regionは常染色体と同様の扱い、それ以外のX染色体領域は、アレル本数の計算、ジェノタイプの扱いについて男女別に行う必要がある