Presentation is loading. Please wait.

Presentation is loading. Please wait.

生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-

Similar presentations


Presentation on theme: "生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-"— Presentation transcript:

1 生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本- 2016年12月13日 生命環境科学域 応用生命科学類 尾形 善之

2 前回のフォロー ピアソンとスピアマンとの比較 スピアマンの同順位なしとありでの比較 大きさは多少は違います 考察が変わってくるかがポイント
どちらも同じ値か近い値 同順位はないか、ごくわずか → 同順位なしでOK 値がかなり異なる 同順位が多い → 同順位ありでの評価が必要

3 第11~13回の授業 第11回(今回) 第12回 第13回(来年) 主成分分析の目的、原理、基本的な使い方
主成分分析のリマインド、注目遺伝子の考察 第13回(来年) 主成分分析の実用的な使い方

4 多変量解析の種類 多変量解析の種類 主成分分析 重回帰分析 クラスター分析 相関解析  などなど……

5 主成分分析 多変量解析の代表格 よく「PCA」と呼ばれます 間違って「PCA解析」とも呼ばれます
Principal Component Analysis 「principal component」が「主成分」です

6 多変量とは… 変量 = 変数 = 今回は「実験」 要素 = 今回は「遺伝子」、こちらが主役 多変量、つまりたくさんの実験データのこと
たくさんの実験データから、遺伝子の特徴を調べる

7 主成分分析とは… ある遺伝子の発現の特徴を知りたくて、79組織のデータを手に入れた。
79個も実験データがあると、どの組織の実験で発現しているかを決めるのが大変。 そこで、実験をいくつかに纏めて考える。 纏めた実験のグループが「主成分」。

8 主成分とは… 実験(成分)を似ているもので纏めたもの 同じ組織の実験での発現量は似ているはず 例えば、葉の組織 例えば、花の組織
例えば、根の組織

9 主成分の纏め 実験成分を纏めれば、注目遺伝子の発現傾向について、調べる実験数を減らせる 実験の情報があれば、自分でも纏められる
でも、統計的に纏めるには…… 主成分を統計的に計算する!!

10 ばらつきが大きい軸ほど、情報を多く持っていると考える
ここから主成分分析の原理 まずはふたつの実験で考える ばらつきの大きい方向に軸を選ぶ ばらつきが大きい軸ほど、情報を多く持っていると考える 実験(成分)1 実験 (成分)2 発現量 ○は遺伝子 寄与率50% 第1主成分(Z1) 寄与率80% 第2主成分(Z2) 寄与率20% 実験成分 主成分 成分1 50% 80% 成分2 20%

11 言い換えると…… データがばらつく方向に合わせて、新しい軸を作る 第1主成分方向に投影すると… 第1主成分(Z1) 第2主成分(Z2)
第2主成分方向にばらつく

12 寄与率とは… それぞれの主成分が実験全体をどの程度表しているか 分散の値を使う 各主成分の分散/データ全体の分散 後でもう少し詳しく……

13 整理してみると… 元の実験成分は独立していると考える 主成分はばらつきを表す割合で分配される それぞれの寄与率は50%
第1主成分の寄与率は80% 第2主成分の寄与率は20%

14 主成分分析の目的 多変量データに対して、遺伝子群(要素)と実験群(変数)との関係を纏めて評価する
遺伝子と実験を繋ぐのが、それぞれの主成分の役割 他の分析方法では、要素または変数のどちらかの特徴を見ることはできる 主成分 実験 遺伝子

15 チェックポイント・I 主成分分析とは? 主成分分析の原理は? 主成分分析の目的は?

16 主成分分析の基本 3つのグラフ 寄与率:主成分のための指標 負荷量:実験のための指標 得点:遺伝子のための指標
主成分のデータ全体に対する影響力を表す 負荷量:実験のための指標 実験と主成分との関係を表す 得点:遺伝子のための指標 遺伝子と主成分との関係を表す 結果として、主成分を通じて、実験と遺伝子が繋がる 寄与率 負荷量 得点

17 寄与率 主成分はばらつきの大きい方向に選ぶ 主成分の分散の値が、データの特徴をどれだけ表しているかの指標になる
第1主成分だけでデータ全体の80%の特徴を表していることになる

18 この辺りも何か役に立つことが含まれているかも
寄与率のグラフ データ全体の特徴が多く含まれている この辺りも何か役に立つことが含まれているかも 寄与率が高いほど、データの特徴をよく表している 別の主成分は別の特徴を表す

19 寄与率による主成分の選択:1 累計で95%になるところまでを採用する。 79実験(成分)がおもに8つの成分(主成分)に纏められる。
標準偏差( 分散 ) 分散の累積(%) 第1主成分 12120 61.1 第2主成分 5282 72.8 第3主成分 4912 82.8 第4主成分 3909 89.2 第5主成分 2695 92.2 第6主成分 1924 93.7 第7主成分 1488 94.6 第8主成分 1321 95.4 第9主成分 1111 95.9 第79主成分 74 100.0 累積で95%を超える主成分までを採用 (第一次採用)

20 寄与率による主成分の選択:2 元の実験の寄与率よりも大きい主成分を採用する 元の実験の寄与率は1.3%
この場合は第6主成分(寄与率1.5%)まで有効とする 実験 寄与率 累積 成分1 1.3% 61.1% 61.1 成分2 11.6% 72.8 成分3 10.0% 82.8 成分4 6.4% 89.2 成分5 3.0% 92.2 成分6 1.5% 93.7 成分7 0.9% 94.6 成分8 0.7% 95.4 成分9 0.5% 95.9 成分79 0.01%

21 寄与率の纏め・1 寄与率は主成分のばらつきの割合を表す 有効な主成分の決め方 寄与率が元の実験の寄与率より大きい主成分
今回の場合は、 𝟏 𝟕𝟗 =𝟎.𝟎𝟏𝟑=𝟏.𝟑% 累積寄与率が95%を超える主成分まで

22 寄与率の纏め 寄与率は主成分のばらつきの割合 有効な主成分の選び方 今回の場合は、 累積の寄与率が95%を超えるところまでを採用
元の実験の寄与率よりも大きい主成分を採用 今回の場合は、 第8主成分で累積寄与率が95%を超える 第6主成分までが、元の実験よりも寄与率が大きい 最終判断として、第6主成分までを有効とする!!

23 負荷量とは 各実験がどの主成分に纏められたかを表している 各実験がひとつの主成分に丸ごと纏められるのではない
ある程度の割合で複数の主成分に分けられる その割合が負荷量

24 ある実験の負荷量を考える この実験がどの主成分に纏められたのか? 絶対値の大きい(正負問わず)負荷量を表から読み取る。
第1主成分の正の方向の負荷量が大きい。 この実験は第1主成分の正の方向を表していると考えられる。 第9、第10主成分の負荷量も高いが、有効主成分ではない。 ただし、閾値を決めるのは難しい 実験 W100 負荷量 主成分1 0.109 主成分2 0.015 主成分3 -0.029 主成分4 -0.081 主成分5 -0.095 主成分6 -0.025 主成分7 0.029 主成分8 0.096 主成分9 0.133 主成分10 0.114

25 負荷量 グラフで絶対値が大きい実験に注目 他の実験と比べて相対的に大きいことを確認できる 第2主成分 第2主成分 第1主成分 第1主成分

26 得点とは 各遺伝子がどの主成分の影響を強く受けているかを表している
ある遺伝子について、得点の絶対値が大きい主成分ほど、その遺伝子の発現量に関わっている つまり、実験データの代わりに、主成分データを使って遺伝子発現の傾向を調べることになる

27 得点 絶対値が大きいものに注目 負荷量で注目した実験と同じ符号を探す 第2主成分 第2主成分 第1主成分 第1主成分

28 ランダムなデータの得点 ランダムなデータの場合、原点の周りに方向性なく集まる

29 さまざまな主成分の得点 ランダムデータの得点に比べて、どの主成分も特徴的である 第2主成分 第4主成分 第1主成分 第3主成分

30 負荷量グラフの原点…… 第1主成分の軸に原点がない! どうやら第1主成分は発現量の大きさを表している
標準化したデータであれば、原点が出てくる 原点がない 原点がある 負荷量 得点

31 標準化データの主成分分析 標準化すると、発現量の大きさが消える 第48主成分でようやく累積95%に!
でも、寄与率1.3%を超えるのは、第13主成分まで

32 主成分分析の長所と短所 長所 短所 ともかく全体を眺める(森を見る)のに便利 解析ツールが充実している みんなを納得させるのにも使える
主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれないときがある

33 チェックポイント・II 寄与率とは? (主成分)得点とは? (主成分)負荷量とは? ランダムデータの主成分分析の特徴は?
標準化データの主成分分析の特徴は?

34 実習に使うデータの説明 「atgenx4biostatpca.txt」 遺伝子数は変わらず、22,746遺伝子
実験数は繰り返しなしで79実験 中央値を選んでいます 実験名の書き方が変わっています 実験名を主成分分析のラベルで使います ラベルだけで組織が分かるように変えています 次のスライドで説明します 数字は「ATGE_」以下の数字と一致します

35 発現データの組織名の説明 A: apex、頂端分裂組織、つぼみ D: seed、種子 F: flower、花
I: inflorescence、花序、花の組織 L: leaf、葉 O: old leaf (senescing leaf)、枯葉 P: pollen、花粉、雄しべ R: root、根 S: stem、茎 W: whole plant、植物全体

36 本日の実習 主成分分析の操作に慣れる。 それぞれのグラフの意味を理解する。 標準化データで主成分分析する。 寄与率、負荷量、得点
元のデータの主成分分析と比べる。

37 本日の課題 元のデータと標準化したデータの主成分分析を比べて考察しなさい。 主成分分析の感想や疑問点を書いてください。
寄与率、負荷量、得点のグラフを比べる。 主成分分析の感想や疑問点を書いてください。 次回の講義で説明します。


Download ppt "生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-"

Similar presentations


Ads by Google