2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析 2016年6月17日 機能ゲノム科学 尾形 善之
前回のフォロー・1 考察について ストレス処理区と対照区でのヒット数 Arabidopsis kamchaticaは寒さに強い生態型 寒さのストレスに応答する遺伝子を持っているのでは? シロイヌナズナと共通の遺伝子 発現量が処理区で大きい シロイヌナズナには含まれない遺伝子 シロイヌナズナをデータベースにしているので検出されない
前回のフォロー・2 余力の初級について 「open $OUT」はforeachループの直前まで、「close $IN」はwhileループの直後まで。
前回のフォロー・3 余力の中級について 方法1 方法2 「if($list[0] eq $id){next;}」 「if($list[0] eq $id){「$id=$list[0];}」 「else{」 「$list[1]=~ /^(AT\wG\d{5})/;」 「$hash{$1}++;」 「$id=$list[0];}」
前回のフォロー・4 余力の上級について 「my $number=0;」 「for($number=0;$number<=$#list;$number++){」 「print $OUT “$list[$number]\t$hash{$id}\n”;」 「}」
期末レポートのデータ 36実験の遺伝子発現データ シロイヌナズナ 4系統、時系列3時点、3反復 提供するデータは反復なしの12実験のデータです。 データの概要 次世代シーケンサー(Illumina社HiSeq2000) 塩基長:76塩基 配列数:900,224,946配列(900メガ配列、9億配列)
実験の概要 シロイヌナズナの4系統 菌の感染 時系列データ Col-0とSei-0コントロール(野生種) FcsとFsc:Col-0とSei-0との交雑種 菌感染の耐性が高いとされている(雑種強勢)。 菌の感染 Pseudomonas syringae (Pst DC3000) 感染すると、過敏感細胞死が誘導される。 時系列データ 感染後:1日目、2日目、3日目
研究目的 雑種の菌感染時に特異的に発現する遺伝子を探す。 雑種の実験の負荷量の絶対値が大きい主成分を選ぶ(主成分Aとする)。 これらの遺伝子は菌感染に関係がある可能性がある。
期末レポート 作業手順の概略(次回、手順書を提供します) 「Teacher」の「期末レポート」フォルダ内から12個の「.sra」ファイルをデスクトップにコピー 「fastq-dump」ツールでFASTQ形式に変換 「getseqs.pl」で100万配列を選択 自作のPerlスクリプトでFASTA形式に変換 シロイヌナズナの遺伝子に対してBLASTN解析 Perlスクリプトで遺伝子ごとにヒット数をカウント
実習の大きな流れ RNAクエリーデータ入手~加工する 遺伝子データベースデータを入手する BLAST解析(マッピング)する 遺伝子発現データを得る ストレスで特異的に発現する遺伝子を探す 特異的遺伝子の機能・特徴を調べる
特異的な遺伝子を探す方法 多変量解析を使う 主成分分析 重回帰分析 クラスター分析 相関解析 などなど……
主成分分析 多変量解析の代表格 よく「PCA」と呼ばれます 間違って「PCA解析」とも呼ばれます Principal Component Analysis 「principal component」が「主成分」です
多変量とは… 変量 = 変数 = 今回は「実験」 要素 = 今回は「遺伝子」、こちらが主役 多変量、つまりたくさんの実験データのこと たくさんの実験データから、遺伝子の特徴を調べる
主成分分析とは… ある遺伝子の発現の特徴を知りたくて、79組織のデータを手に入れた。 79個も実験データがあると、どの組織の実験で発現しているかを決めるのが大変。 そこで、実験をいくつかに纏めて考える。 纏めた実験のグループが「主成分」。
主成分とは… 実験(成分)を似ているもので纏めたもの 同じ組織の実験での発現量は似ているはず 例えば、葉の組織 例えば、花の組織 例えば、根の組織
主成分分析の目的 多変量データに対して、遺伝子群(要素)と実験群(変数)との関係を纏めて評価する 遺伝子と実験を繋ぐのが、主成分の役割 他の分析方法では、要素または変数のどちらかの特徴を見ることができる 主成分 実験 遺伝子
主成分分析の基本 3つのグラフ 寄与率:主成分のための指標 負荷量:実験のための指標 得点:遺伝子のための指標 主成分のデータ全体に対する影響力を表す 負荷量:実験のための指標 実験と主成分との関係を表す 得点:遺伝子のための指標 遺伝子と主成分との関係を表す 主成分を通じて、実験と遺伝子が繋がる 寄与率 得点 負荷量
寄与率 主成分はばらつきの大きい方向に選ぶ 主成分の分散の値が、データの特徴を示す指標になる 第1主成分だけでデータ全体の80%の特徴を表していることになる
この辺りも何か役に立つことを表しているかも 寄与率のグラフ データ全体をよく表している この辺りも何か役に立つことを表しているかも 寄与率が高いほど、データの特徴をよく表している 別の主成分は別の特徴を表す
実際の寄与率 79実験(成分)がおもに8つの成分(主成分)に纏められる。 累積で95%を超える主成分までを採用 しかし…… 12120 標準偏差( 分散 ) 分散の累積(%) 第1主成分 12120 61.1 第2主成分 5282 72.8 第3主成分 4912 82.8 第4主成分 3909 89.2 第5主成分 2695 92.2 第6主成分 1924 93.7 第7主成分 1488 94.6 第8主成分 1321 95.4 第9主成分 1111 95.9 … 第79主成分 74 100.0 累積で95%を超える主成分までを採用 しかし……
79実験で考えると… 読み方 元の実験の寄与率は1.3% 第1主成分の寄与率が61.1% 第8主成分で累積95%となる 寄与率の大半を占めている この主成分が表す特徴が大きい 第8主成分で累積95%となる 第8主成分までが有効? ただし、元の1.3%以上を選ぶ この場合は第6主成分まで有効 実験 主成分 累積 成分1 1.3% 61.1% 61.1 成分2 11.6% 72.8 成分3 10.0% 82.8 成分4 6.4% 89.2 成分5 3.0% 92.2 成分6 1.5% 93.7 成分7 0.9% 94.6 成分8 0.7% 95.4 成分9 0.5% 95.9 … 成分79 0.01%
寄与率の纏め 寄与率は主成分のばらつきの割合を表す 有効な主成分の決め方 寄与率が元の実験の寄与率より大きい主成分 今回の場合は、 𝟏 𝟕𝟗 =𝟎.𝟎𝟏𝟑=𝟏.𝟑% 累積寄与率が95%を超える主成分まで
負荷量 絶対値が大きい実験に注目 第2主成分 第2主成分 第1主成分 第1主成分
得点 絶対値が大きいものに注目 負荷量で注目した実験と同じ符号を探す
ランダムなデータの得点 ランダムなデータの場合、原点の周りに方向性なく集まる
さまざまな主成分の得点 ランダムデータの得点に比べて、どの主成分も特徴的である 第2主成分 第4主成分 第1主成分 第3主成分
負荷量グラフの原点…… 第1主成分の軸に原点がない! 第1主成分は発現量の大きさを表している 標準化したデータであれば、原点が出てくる 原点がある 原点がない 負荷量 得点
標準化したことで、より多くの特徴を調べられる 標準化データの主成分分析 標準化すると、発現量の大きさが消える 第48主成分でようやく累積95%に! 寄与率1.3%を超えるのは、第13主成分まで 標準化したことで、より多くの特徴を調べられる
主成分分析の長所と短所 長所 短所 ともかく全体を眺める(森を見る)のに便利 解析ツールが充実している みんなを納得させるのにも使える 主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれてこないことがある
主成分分析(多変量解析)の纏め 「木を見て森を見てまた木を見る」 まず、注目する遺伝子を決める。 注目遺伝子を通して全体を眺める。 主成分分析で、どのように眺めればよいかが分かる。 全体の中から特徴的なものを見つける。 組織特異的に発現する遺伝子を見つける。 もう一度、木を見る。 本当にその遺伝子がその組織で発現しているか?
チェックポイント 主成分分析を思い出しましたか? 主成分分析の疑問点を書いてください。
本日の実習と課題 Rを使って主成分分析の作業を思い出す。 今日はモデルデータを解析する。 3種類のツールを比較して、考察する。