2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析

Slides:



Advertisements
Similar presentations
コンピュータプラクティ スⅠ 比較実験 水野嘉明. 本日の予定 計算量について 「比較実験」  パラメータを変化させての比較 ⇒ 実験1  二つのプログラムの比較 ⇒ 実験2  実験レポート R3として提出 2.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
データ解析
データ分析入門(12) 第12章 単回帰分析 廣野元久.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
植物系統分類学・第13回 分子系統学の基礎と実践
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
実証分析の手順 経済データ解析 2011年度.
第1回 担当: 西山 統計学.
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
回帰分析/多変量分析 1月18日.
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
疫学概論 交絡 Lesson 17. バイアスと交絡 §A. 交絡 S.Harano, MD,PhD,MPH.
2a グラフの用法.
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
データ解析 静岡大学工学部 安藤和敏
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
独立成分分析 (ICA:Independent Component Analysis )
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
植物系統分類学・第14回 分子系統学の基礎と実践
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
データ解析 静岡大学工学部 安藤和敏
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
Googleマップを活用した 生物調査データベースの構築
Locally-Weighted Partial Least Squares LWPLS 局所PLS
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
rd-7. 主成分分析 (Rシステムでデータサイエンス演習)
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析 2016年6月17日 機能ゲノム科学  尾形 善之

前回のフォロー・1 考察について ストレス処理区と対照区でのヒット数 Arabidopsis kamchaticaは寒さに強い生態型 寒さのストレスに応答する遺伝子を持っているのでは? シロイヌナズナと共通の遺伝子 発現量が処理区で大きい シロイヌナズナには含まれない遺伝子 シロイヌナズナをデータベースにしているので検出されない

前回のフォロー・2 余力の初級について 「open $OUT」はforeachループの直前まで、「close $IN」はwhileループの直後まで。

前回のフォロー・3 余力の中級について 方法1 方法2 「if($list[0] eq $id){next;}」 「if($list[0] eq $id){「$id=$list[0];}」 「else{」 「$list[1]=~ /^(AT\wG\d{5})/;」 「$hash{$1}++;」 「$id=$list[0];}」

前回のフォロー・4 余力の上級について 「my $number=0;」 「for($number=0;$number<=$#list;$number++){」 「print $OUT “$list[$number]\t$hash{$id}\n”;」 「}」

期末レポートのデータ 36実験の遺伝子発現データ シロイヌナズナ 4系統、時系列3時点、3反復 提供するデータは反復なしの12実験のデータです。 データの概要 次世代シーケンサー(Illumina社HiSeq2000) 塩基長:76塩基 配列数:900,224,946配列(900メガ配列、9億配列)

実験の概要 シロイヌナズナの4系統 菌の感染 時系列データ Col-0とSei-0コントロール(野生種) FcsとFsc:Col-0とSei-0との交雑種 菌感染の耐性が高いとされている(雑種強勢)。 菌の感染 Pseudomonas syringae (Pst DC3000) 感染すると、過敏感細胞死が誘導される。 時系列データ 感染後:1日目、2日目、3日目

研究目的 雑種の菌感染時に特異的に発現する遺伝子を探す。 雑種の実験の負荷量の絶対値が大きい主成分を選ぶ(主成分Aとする)。 これらの遺伝子は菌感染に関係がある可能性がある。

期末レポート 作業手順の概略(次回、手順書を提供します) 「Teacher」の「期末レポート」フォルダ内から12個の「.sra」ファイルをデスクトップにコピー 「fastq-dump」ツールでFASTQ形式に変換 「getseqs.pl」で100万配列を選択 自作のPerlスクリプトでFASTA形式に変換 シロイヌナズナの遺伝子に対してBLASTN解析 Perlスクリプトで遺伝子ごとにヒット数をカウント

実習の大きな流れ RNAクエリーデータ入手~加工する 遺伝子データベースデータを入手する BLAST解析(マッピング)する 遺伝子発現データを得る ストレスで特異的に発現する遺伝子を探す 特異的遺伝子の機能・特徴を調べる

特異的な遺伝子を探す方法 多変量解析を使う 主成分分析 重回帰分析 クラスター分析 相関解析  などなど……

主成分分析 多変量解析の代表格 よく「PCA」と呼ばれます 間違って「PCA解析」とも呼ばれます Principal Component Analysis 「principal component」が「主成分」です

多変量とは… 変量 = 変数 = 今回は「実験」 要素 = 今回は「遺伝子」、こちらが主役 多変量、つまりたくさんの実験データのこと たくさんの実験データから、遺伝子の特徴を調べる

主成分分析とは… ある遺伝子の発現の特徴を知りたくて、79組織のデータを手に入れた。 79個も実験データがあると、どの組織の実験で発現しているかを決めるのが大変。 そこで、実験をいくつかに纏めて考える。 纏めた実験のグループが「主成分」。

主成分とは… 実験(成分)を似ているもので纏めたもの 同じ組織の実験での発現量は似ているはず 例えば、葉の組織 例えば、花の組織 例えば、根の組織

主成分分析の目的 多変量データに対して、遺伝子群(要素)と実験群(変数)との関係を纏めて評価する 遺伝子と実験を繋ぐのが、主成分の役割 他の分析方法では、要素または変数のどちらかの特徴を見ることができる 主成分 実験 遺伝子

主成分分析の基本 3つのグラフ 寄与率:主成分のための指標 負荷量:実験のための指標 得点:遺伝子のための指標 主成分のデータ全体に対する影響力を表す 負荷量:実験のための指標 実験と主成分との関係を表す 得点:遺伝子のための指標 遺伝子と主成分との関係を表す 主成分を通じて、実験と遺伝子が繋がる 寄与率 得点 負荷量

寄与率 主成分はばらつきの大きい方向に選ぶ 主成分の分散の値が、データの特徴を示す指標になる 第1主成分だけでデータ全体の80%の特徴を表していることになる

この辺りも何か役に立つことを表しているかも 寄与率のグラフ データ全体をよく表している この辺りも何か役に立つことを表しているかも 寄与率が高いほど、データの特徴をよく表している 別の主成分は別の特徴を表す

実際の寄与率 79実験(成分)がおもに8つの成分(主成分)に纏められる。 累積で95%を超える主成分までを採用 しかし…… 12120 標準偏差( 分散 ) 分散の累積(%) 第1主成分 12120 61.1 第2主成分 5282 72.8 第3主成分 4912 82.8 第4主成分 3909 89.2 第5主成分 2695 92.2 第6主成分 1924 93.7 第7主成分 1488 94.6 第8主成分 1321 95.4 第9主成分 1111 95.9 … 第79主成分 74 100.0 累積で95%を超える主成分までを採用 しかし……

79実験で考えると… 読み方 元の実験の寄与率は1.3% 第1主成分の寄与率が61.1% 第8主成分で累積95%となる 寄与率の大半を占めている この主成分が表す特徴が大きい 第8主成分で累積95%となる 第8主成分までが有効? ただし、元の1.3%以上を選ぶ この場合は第6主成分まで有効 実験 主成分 累積 成分1 1.3% 61.1% 61.1 成分2 11.6% 72.8 成分3 10.0% 82.8 成分4 6.4% 89.2 成分5 3.0% 92.2 成分6 1.5% 93.7 成分7 0.9% 94.6 成分8 0.7% 95.4 成分9 0.5% 95.9 … 成分79 0.01%

寄与率の纏め 寄与率は主成分のばらつきの割合を表す 有効な主成分の決め方 寄与率が元の実験の寄与率より大きい主成分 今回の場合は、 𝟏 𝟕𝟗 =𝟎.𝟎𝟏𝟑=𝟏.𝟑% 累積寄与率が95%を超える主成分まで

負荷量 絶対値が大きい実験に注目 第2主成分 第2主成分 第1主成分 第1主成分

得点 絶対値が大きいものに注目 負荷量で注目した実験と同じ符号を探す

ランダムなデータの得点 ランダムなデータの場合、原点の周りに方向性なく集まる

さまざまな主成分の得点 ランダムデータの得点に比べて、どの主成分も特徴的である 第2主成分 第4主成分 第1主成分 第3主成分

負荷量グラフの原点…… 第1主成分の軸に原点がない! 第1主成分は発現量の大きさを表している 標準化したデータであれば、原点が出てくる 原点がある 原点がない 負荷量 得点

標準化したことで、より多くの特徴を調べられる 標準化データの主成分分析 標準化すると、発現量の大きさが消える 第48主成分でようやく累積95%に! 寄与率1.3%を超えるのは、第13主成分まで 標準化したことで、より多くの特徴を調べられる

主成分分析の長所と短所 長所 短所 ともかく全体を眺める(森を見る)のに便利 解析ツールが充実している みんなを納得させるのにも使える 主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれてこないことがある

主成分分析(多変量解析)の纏め 「木を見て森を見てまた木を見る」 まず、注目する遺伝子を決める。 注目遺伝子を通して全体を眺める。 主成分分析で、どのように眺めればよいかが分かる。 全体の中から特徴的なものを見つける。 組織特異的に発現する遺伝子を見つける。 もう一度、木を見る。 本当にその遺伝子がその組織で発現しているか?

チェックポイント 主成分分析を思い出しましたか? 主成分分析の疑問点を書いてください。

本日の実習と課題 Rを使って主成分分析の作業を思い出す。 今日はモデルデータを解析する。 3種類のツールを比較して、考察する。