(被)影響遺伝子の同定 濱野 鉄太郎 北里大学大学院 薬学研究科 臨床統計部門 バイオスタティスティックスの数理的基礎

Slides:



Advertisements
Similar presentations
東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
Q 1. ある工場で直径1インチの軸棒を標準偏差 0.03 の 管理水準で製造している。 ある日の製造品の中から 10 本の標本をとって直径を測定 したところ、平均値が インチであった。品質管理上、 軸棒の直径が短すぎるだろうか、それとも、異常なしと判断 して、製造を続けてもよいであろうか。
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
データ分析入門(12) 第12章 単回帰分析 廣野元久.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
第7回 独立多群の差の検定 問題例1 出産までの週数によって新生児を3群に分け、新生児期黄疸の
Gene Constellator SystemTM
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計学 12/13(木).
統計学  西 山.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
マーケティング戦略.
第8回 関連多群の差の検定 問題例1 健常人3名につき、血中物質Xの濃度を季節ごとの調べた。 個体 春 夏 秋 冬 a
寺尾 敦 青山学院大学社会情報学部 社会統計 第8回:多重比較 寺尾 敦 青山学院大学社会情報学部
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
相関分析.
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
4章までのまとめ ー 計量経済学 ー.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
顧客維持に関するモデル.
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
統計学 西 山.
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
Anja von Heydebreck et al. 発表:上嶋裕樹
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
(昨年度のオープンコースウェア) 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
尺度化について 狩野 裕 大阪大学人間科学部.
統計処理2  t検定・分散分析.
第4章 社会構造概念はどのように豊穣化されるか
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
2015年夏までの成果: 超対称性(SUSY)粒子の探索
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
統計的検定   1.検定の考え方 2.母集団平均の検定.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
母分散の検定 母分散の比の検定 カイ2乗分布の応用
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第4章 統計的検定 (その2) 統計学 2006年度.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロス表とχ2検定.
自己組織化マップ Self-Organizing Map SOM
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
メソッドの同時更新履歴を用いたクラスの機能別分類法
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
2015年夏までの成果: 超対称性(SUSY)粒子の探索
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

(被)影響遺伝子の同定 濱野 鉄太郎 北里大学大学院 薬学研究科 臨床統計部門 バイオスタティスティックスの数理的基礎 チュートリアル「遺伝子発現データ解析概論」 (被)影響遺伝子の同定 濱野 鉄太郎 北里大学大学院 薬学研究科 臨床統計部門  Copyright (C) 2003 Tetsutaro Hamano (Kitasato University). All rights Reserved.

本セクションの目的 遺伝子発現データから(被)影響遺伝子を同定する方法を紹介 (被)影響遺伝子の同定において重要な点を考察

(被)影響遺伝子 影響を与える遺伝子 影響を受ける遺伝子 例:癌遺伝子,癌抑制遺伝子 (Hanahan et al., 2000) 例:熱によるショックに影響される遺伝子 (Schena et al., 1996)

医学における応用 テイラーメイド医療 患者のゲノム情報から個人差を 考慮した医療を提供する ゲノム創薬 ゲノム情報をもとにして 新薬の候補物質を開発する

遺伝子発現解析のキーワード 解析の簡便さ(Lightness) 計算の速さ (Quickness) 結果の正確さ(Exactitude) 結果の見易さ(Visibility) 多重性の考慮(Multiplicity) 結果の再現性(Reproducibility) 参考:Calvino(1993)

遺伝子発現データ 状態1 状態2 状態n 遺伝子1 ・・・ 遺伝子2 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 遺伝子m ・・・ 遺伝子 i の発現プロファイル

データの分布(アレイ毎) 

箱ひげ図(アレイ毎)

Lightness & Quickness 遺伝子発現データは膨大 解析の簡便さと計算機の速さが必要 数~数百サンプル 数百~数万遺伝子 ひとつの遺伝子を解析する時間が一秒でも3600個の遺伝子では一時間かかる

Exactitude 遺伝子発現解析では,遺伝子の発現量を直接測定しているわけではない 蛍光色素や放射性物質によりラベリング シグナルの強度(比)を測定 実験によって生じる偏りや誤差変動に注意しなければならない Garbage in, garbage out

アレイ上で生じるエラー Bubbles Comets Damaged substrate Dilated spots Doughnuts Edge drying Edge fading High background: fluorescence High background: black holes Irregular spot morphology Low signal intensity Particle contamination Pin blockage Scanner problems Day-to-day variation in printing High irregular background Bright patches/streaks Nonspecific signal Chip defects Scratching of feature surface (Bowtell and Sambrook eds., 2003)

Visibility クラスター分析 Eisenマップ 生のアレイ画像 遺伝子発現解析で頻繁に行われている 類似性の指標 相関係数,ユークリッド距離 Eisenマップ Eisen et al. (1998) 生のアレイ画像

主なクラスター分析手法 階層的クラスタリング k平均法 自己組織化マップ Eisen et al. (1998) Tavazoie et al. (1999) 自己組織化マップ Tamayo et al. (1999)

階層型クラスタリング n(m)次元空間上の遺伝子(状態)発現プロファイル

階層型クラスタリング 最も近接した点を結合する

階層型クラスタリング クラスター間の距離 1. 最短距離法 2. 最長距離法 3. 群平均法 1 2 3

階層型クラスタリング 樹形図を作成する 遺伝子1 遺伝子2 ・・・ 遺伝子m 非類似性

k平均法 n(m)次元空間上の遺伝子(状態)発現プロファイル

k平均法 参照点をランダムに配置 (参照点の数=クラスター数は事前に設定)

k平均法 最も近接した参照点に各点を属させる

k平均法 参照点をクラスターの重心に更新する

k平均法 収束条件を満たすまで以上のプロセスを繰り返す

自己組織化マップ 格子点をランダムに配置する (格子点数=クラスター数は事前に設定)

自己組織化マップ ある点をランダムに選択する

自己組織化マップ 格子点を点の方向に近づける

自己組織化マップ 以上のプロセスを繰り返す

初期の論文では 発現比が閾値を超えた遺伝子群を抽出 例: Schena et al. (1996) DeRisi et al. (1997) 発現比が2倍以上または0.5以下のものを抽出 DeRisi et al. (1997) 発現比が3倍以上のものを抽出

問題点 データの確率変動を考慮していない たまたま発現比が2以上だった? ばらつきの大きい方が選択され易い? 発現比の確率分布を考慮して遺伝子を抽出しなければならない

Multiplicity (被)影響遺伝子を仮説検定で同定したい 検定の多重性の問題が生じる 例:癌細胞群と正常細胞群とを比較 有意水準5%で一万個の遺伝子を検定 各遺伝子が互いに独立で,全ての帰無仮説が正しいときに,500個の遺伝子が有意

記号法 U V m0 T S m-m0 m - R R m 棄却しない 棄却した 真の帰無仮説 真の対立仮説 (Benjamini & Hochberg,1995)

False Discovery Rate 棄却された仮説のうちで第一種の過誤が起こる確率 (Benjamini & Hochberg,1995)

Significance Analysis of Microarrays (SAM) 遺伝子毎に検定統計量を計算 検定統計量の順序統計量を導出 完全帰無仮説のもとでサンプルを並べ替え,順序統計量の期待値を推定 統計量と期待値の差を比較して,ある閾値以上(以下)の遺伝子を抽出 帰無分布からFDRを推定 (Tusher et al., 2001)

モデル選択的アプローチ 線形スプライン関数の当てはめにより,特徴的な発現プロファイルの遺伝子群を抽出 AICを用いて定数関数モデルと比較 線形スプラインモデルが選択される遺伝子群を抽出 (DeHoon, Imoto and Minano, 2002)

Reproducibility 遺伝子発現解析は,探索的な段階から検証的な段階へと移行しつつある より高い水準の再現性が必要である 臨床試験 テイラーメイド医療 より高い水準の再現性が必要である 品質管理 実験計画法 データの前処理(正規化など)