Presentation is loading. Please wait.

Presentation is loading. Please wait.

2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析

Similar presentations


Presentation on theme: "2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析"— Presentation transcript:

1 2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
2016年6月17日 機能ゲノム科学  尾形 善之

2 前回のフォロー・1 考察について ストレス処理区と対照区でのヒット数 Arabidopsis kamchaticaは寒さに強い生態型
寒さのストレスに応答する遺伝子を持っているのでは? シロイヌナズナと共通の遺伝子 発現量が処理区で大きい シロイヌナズナには含まれない遺伝子 シロイヌナズナをデータベースにしているので検出されない

3 前回のフォロー・2 余力の初級について 「open $OUT」はforeachループの直前まで、「close $IN」はwhileループの直後まで。

4 前回のフォロー・3 余力の中級について 方法1 方法2 「if($list[0] eq $id){next;}」
「if($list[0] eq $id){「$id=$list[0];}」 「else{」 「$list[1]=~ /^(AT\wG\d{5})/;」 「$hash{$1}++;」 「$id=$list[0];}」

5 前回のフォロー・4 余力の上級について 「my $number=0;」
「for($number=0;$number<=$#list;$number++){」 「print $OUT “$list[$number]\t$hash{$id}\n”;」 「}」

6 期末レポートのデータ 36実験の遺伝子発現データ シロイヌナズナ 4系統、時系列3時点、3反復
提供するデータは反復なしの12実験のデータです。 データの概要 次世代シーケンサー(Illumina社HiSeq2000) 塩基長:76塩基 配列数:900,224,946配列(900メガ配列、9億配列)

7 実験の概要 シロイヌナズナの4系統 菌の感染 時系列データ Col-0とSei-0コントロール(野生種)
FcsとFsc:Col-0とSei-0との交雑種 菌感染の耐性が高いとされている(雑種強勢)。 菌の感染 Pseudomonas syringae (Pst DC3000) 感染すると、過敏感細胞死が誘導される。 時系列データ 感染後:1日目、2日目、3日目

8 研究目的 雑種の菌感染時に特異的に発現する遺伝子を探す。 雑種の実験の負荷量の絶対値が大きい主成分を選ぶ(主成分Aとする)。
これらの遺伝子は菌感染に関係がある可能性がある。

9 期末レポート 作業手順の概略(次回、手順書を提供します)
「Teacher」の「期末レポート」フォルダ内から12個の「.sra」ファイルをデスクトップにコピー 「fastq-dump」ツールでFASTQ形式に変換 「getseqs.pl」で100万配列を選択 自作のPerlスクリプトでFASTA形式に変換 シロイヌナズナの遺伝子に対してBLASTN解析 Perlスクリプトで遺伝子ごとにヒット数をカウント

10 実習の大きな流れ RNAクエリーデータ入手~加工する 遺伝子データベースデータを入手する BLAST解析(マッピング)する
遺伝子発現データを得る ストレスで特異的に発現する遺伝子を探す 特異的遺伝子の機能・特徴を調べる

11 特異的な遺伝子を探す方法 多変量解析を使う 主成分分析 重回帰分析 クラスター分析 相関解析  などなど……

12 主成分分析 多変量解析の代表格 よく「PCA」と呼ばれます 間違って「PCA解析」とも呼ばれます
Principal Component Analysis 「principal component」が「主成分」です

13 多変量とは… 変量 = 変数 = 今回は「実験」 要素 = 今回は「遺伝子」、こちらが主役 多変量、つまりたくさんの実験データのこと
たくさんの実験データから、遺伝子の特徴を調べる

14 主成分分析とは… ある遺伝子の発現の特徴を知りたくて、79組織のデータを手に入れた。
79個も実験データがあると、どの組織の実験で発現しているかを決めるのが大変。 そこで、実験をいくつかに纏めて考える。 纏めた実験のグループが「主成分」。

15 主成分とは… 実験(成分)を似ているもので纏めたもの 同じ組織の実験での発現量は似ているはず 例えば、葉の組織 例えば、花の組織
例えば、根の組織

16 主成分分析の目的 多変量データに対して、遺伝子群(要素)と実験群(変数)との関係を纏めて評価する 遺伝子と実験を繋ぐのが、主成分の役割
他の分析方法では、要素または変数のどちらかの特徴を見ることができる 主成分 実験 遺伝子

17 主成分分析の基本 3つのグラフ 寄与率:主成分のための指標 負荷量:実験のための指標 得点:遺伝子のための指標
主成分のデータ全体に対する影響力を表す 負荷量:実験のための指標 実験と主成分との関係を表す 得点:遺伝子のための指標 遺伝子と主成分との関係を表す 主成分を通じて、実験と遺伝子が繋がる 寄与率 得点 負荷量

18 寄与率 主成分はばらつきの大きい方向に選ぶ 主成分の分散の値が、データの特徴を示す指標になる
第1主成分だけでデータ全体の80%の特徴を表していることになる

19 この辺りも何か役に立つことを表しているかも
寄与率のグラフ データ全体をよく表している この辺りも何か役に立つことを表しているかも 寄与率が高いほど、データの特徴をよく表している 別の主成分は別の特徴を表す

20 実際の寄与率 79実験(成分)がおもに8つの成分(主成分)に纏められる。 累積で95%を超える主成分までを採用 しかし…… 12120
標準偏差( 分散 ) 分散の累積(%) 第1主成分 12120 61.1 第2主成分 5282 72.8 第3主成分 4912 82.8 第4主成分 3909 89.2 第5主成分 2695 92.2 第6主成分 1924 93.7 第7主成分 1488 94.6 第8主成分 1321 95.4 第9主成分 1111 95.9 第79主成分 74 100.0 累積で95%を超える主成分までを採用 しかし……

21 79実験で考えると… 読み方 元の実験の寄与率は1.3% 第1主成分の寄与率が61.1% 第8主成分で累積95%となる
寄与率の大半を占めている この主成分が表す特徴が大きい 第8主成分で累積95%となる 第8主成分までが有効? ただし、元の1.3%以上を選ぶ この場合は第6主成分まで有効 実験 主成分 累積 成分1 1.3% 61.1% 61.1 成分2 11.6% 72.8 成分3 10.0% 82.8 成分4 6.4% 89.2 成分5 3.0% 92.2 成分6 1.5% 93.7 成分7 0.9% 94.6 成分8 0.7% 95.4 成分9 0.5% 95.9 成分79 0.01%

22 寄与率の纏め 寄与率は主成分のばらつきの割合を表す 有効な主成分の決め方 寄与率が元の実験の寄与率より大きい主成分
今回の場合は、 𝟏 𝟕𝟗 =𝟎.𝟎𝟏𝟑=𝟏.𝟑% 累積寄与率が95%を超える主成分まで

23 負荷量 絶対値が大きい実験に注目 第2主成分 第2主成分 第1主成分 第1主成分

24 得点 絶対値が大きいものに注目 負荷量で注目した実験と同じ符号を探す

25 ランダムなデータの得点 ランダムなデータの場合、原点の周りに方向性なく集まる

26 さまざまな主成分の得点 ランダムデータの得点に比べて、どの主成分も特徴的である 第2主成分 第4主成分 第1主成分 第3主成分

27 負荷量グラフの原点…… 第1主成分の軸に原点がない! 第1主成分は発現量の大きさを表している 標準化したデータであれば、原点が出てくる
原点がある 原点がない 負荷量 得点

28 標準化したことで、より多くの特徴を調べられる
標準化データの主成分分析 標準化すると、発現量の大きさが消える 第48主成分でようやく累積95%に! 寄与率1.3%を超えるのは、第13主成分まで 標準化したことで、より多くの特徴を調べられる

29 主成分分析の長所と短所 長所 短所 ともかく全体を眺める(森を見る)のに便利 解析ツールが充実している みんなを納得させるのにも使える
主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれてこないことがある

30 主成分分析(多変量解析)の纏め 「木を見て森を見てまた木を見る」 まず、注目する遺伝子を決める。 注目遺伝子を通して全体を眺める。
主成分分析で、どのように眺めればよいかが分かる。 全体の中から特徴的なものを見つける。 組織特異的に発現する遺伝子を見つける。 もう一度、木を見る。 本当にその遺伝子がその組織で発現しているか?

31 チェックポイント 主成分分析を思い出しましたか? 主成分分析の疑問点を書いてください。

32 本日の実習と課題 Rを使って主成分分析の作業を思い出す。 今日はモデルデータを解析する。 3種類のツールを比較して、考察する。


Download ppt "2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析"

Similar presentations


Ads by Google