Presentation is loading. Please wait.

Presentation is loading. Please wait.

生物統計学・第3回 全体を眺める(2) 主成分分析

Similar presentations


Presentation on theme: "生物統計学・第3回 全体を眺める(2) 主成分分析"— Presentation transcript:

1 生物統計学・第3回 全体を眺める(2) 主成分分析
生物統計学・第3回 全体を眺める(2) 主成分分析 2013年10月21日 生命環境科学域 応用生命科学類 尾形 善之

2 まずは先週のリマインド 全体を眺めるための指標 代表値 算術平均、中央値、最頻値 調和平均 いろいろなグラフ 棒、折れ線 ヒートマップ

3 いよいよ本格的な多変量解析 代表格:主成分分析 「主成分」って? よく「PCA」と呼ばれます データ全体の特徴を表す指標です
Principal Component Analysis 「主成分」って? データ全体の特徴を表す指標です 多次元データ → 2次元グラフ 四次元グラフ…… 79次元グラフ……

4 教科書では… 地上部

5 目で見る主成分分析の原理 主成分(Z) 原理(ひとこと) 実験条件の数だけ引ける 優先順位がつく 軸を変えている! 実験2
実験1 実験2 主成分(Z) 実験条件の数だけ引ける 優先順位がつく 原理(ひとこと) 軸を変えている! できるだけばらしている! 第1主成分(Z1) 第2主成分(Z2)

6 チェックポイント・I 主成分分析とは? 主成分とは? 主成分分析の原理?

7 生物データセット シロイヌナズナのマイクロアレイデータ 79実験条件 組織、発達段階 3反復 合計237実験

8 79実験条件 生物データセット (ちょっと改良) 遺伝子 At1g56650

9 実際の主成分分析 Rを使います Rって? いろいろな統計解析ができるツールです 特に生物統計学向きです Rの回で詳しく話します
自習用に今日の作業手順のファイルを置いておきます 「大阪府立大学 植物バイオサイエンス」で検索

10 主成分分析で使う3つのグラフ 寄与率 負荷量(主成分負荷量) 得点(主成分得点)

11 寄与率:どのくらい貢献しているか よくばらつきを表している これなら第1主成分だけ見ればいいんじゃないか、というレベル 実験2
第1主成分(Z1) 第2主成分(Z2) 実験1 実験2 棒グラフを足していって、 全体の95%までは見ていいよ、 という暗黙の了解 分散(ばらつき)

12 負荷量:どの実験が効いているか それぞれの実験を表す 第2主成分 ひとつだけ離れている… 絶対値が大きい方に注目 第1主成分

13 得点:どの遺伝子に関わっているか それぞれの遺伝子を表す

14 ランダムデータと比べると……

15 発現量が大きい遺伝子ほど、第一主成分は「負」になっている
得点:At1g56650は… 発現量が大きい遺伝子ほど、第一主成分は「負」になっている 第一主成分が「負」の大きい実験が多い 11.5 3.2 5.6 4.3 5.3 9.4 7.7 4.1 9.6 発現量 3.5 得点=負荷量×(平均発現量との差)

16 解釈の纏め 今回の生物データセット 第1主成分の得点(遺伝子) 第1主成分の負荷量(実験) 負に大きい実験群では、 発現量大:負に大きい
発現量小:正に大きい 第1主成分の負荷量(実験) 負に大きい実験群が多い 負に大きい実験群では、 発現量の大きい遺伝子と発現量の小さい遺伝子はいつもほぼ決まっている

17 第2主成分と第3主成分

18 X73の正体は…… At1g56650の遺伝子発現データ 大体平均的な発現量 花粉で発現する遺伝子は少ない AtGE_73:花粉

19 主成分分析の長所と短所 長所だけ知ってもあまり役に立たない 長所 短所 口コミとか ともかく全体を眺める(森を見る)のに便利
ツールが充実している みんなを納得させるのにも使える 短所 主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれてこないことが多い

20 チェックポイント・II 寄与率とは? (主成分)負荷量とは? (主成分)得点とは? 主成分の意味はどうやって判断するのか?

21 今日の自習のポイント 中央値を選んだデータセットを提供 Rでの作業手順(これを辿ってみてください) そもそもRの使い方…… ランダムデータ
atgenx.txt Rでの作業手順(これを辿ってみてください) 131021pcastep.txt そもそもRの使い方…… Rの使い方.docx ランダムデータ atgenxrandom.txt

22 次回までの予習 次回は「各種クラスタリング」です 教科書 インターネット クラスター分析、階層的クラスター分析
自己組織化マップ、ネットワーク解析 ヒートマップ

23 本日の課題 シロイヌナズナの79実験条件の遺伝子発現データを手に入れました。
79実験条件の全体を主成分分析で眺める方法を、「寄与率」「負荷量」「得点」を使って説明してください。 生物データセットに主成分分析を使ってみた印象(疑問に思うこと)を書いてください。


Download ppt "生物統計学・第3回 全体を眺める(2) 主成分分析"

Similar presentations


Ads by Google