生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-

Slides:



Advertisements
Similar presentations
社会統計 第 14 回 主成分分析 寺尾 敦 青山学院大学社会情報学部
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
統計解析 第7回 第6章 離散確率分布.
阪神・中日選手の 時系列傾向分析  福元 祥二  渡部 達朗.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
ヘアケアシャンプーの 製品特徴分析            上原千佳              本谷裕美子.
第1回 担当: 西山 統計学.
林俊克&廣野元久「多変量データの活用術」:海文堂
生物統計学・第3回 全体を眺める(2) 主成分分析
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
回帰分析.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 10/19 鈴木智也.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
12月4日 伊藤 早紀 重回帰分析.
回帰分析/多変量分析 1月18日.
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
主成分分析と因子分析 による競馬の勝因の研究
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
主成分分析 (Principle Component Analysis)
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
データ解析 静岡大学工学部 安藤和敏
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
植物系統分類学・第14回 分子系統学の基礎と実践
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
データ解析 静岡大学工学部 安藤和敏
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
Presentation transcript:

生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本- 生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本- 2016年12月13日 生命環境科学域 応用生命科学類 尾形 善之

前回のフォロー ピアソンとスピアマンとの比較 スピアマンの同順位なしとありでの比較 大きさは多少は違います 考察が変わってくるかがポイント どちらも同じ値か近い値 同順位はないか、ごくわずか → 同順位なしでOK 値がかなり異なる 同順位が多い → 同順位ありでの評価が必要

第11~13回の授業 第11回(今回) 第12回 第13回(来年) 主成分分析の目的、原理、基本的な使い方 主成分分析のリマインド、注目遺伝子の考察 第13回(来年) 主成分分析の実用的な使い方

多変量解析の種類 多変量解析の種類 主成分分析 重回帰分析 クラスター分析 相関解析  などなど……

主成分分析 多変量解析の代表格 よく「PCA」と呼ばれます 間違って「PCA解析」とも呼ばれます Principal Component Analysis 「principal component」が「主成分」です

多変量とは… 変量 = 変数 = 今回は「実験」 要素 = 今回は「遺伝子」、こちらが主役 多変量、つまりたくさんの実験データのこと たくさんの実験データから、遺伝子の特徴を調べる

主成分分析とは… ある遺伝子の発現の特徴を知りたくて、79組織のデータを手に入れた。 79個も実験データがあると、どの組織の実験で発現しているかを決めるのが大変。 そこで、実験をいくつかに纏めて考える。 纏めた実験のグループが「主成分」。

主成分とは… 実験(成分)を似ているもので纏めたもの 同じ組織の実験での発現量は似ているはず 例えば、葉の組織 例えば、花の組織 例えば、根の組織

主成分の纏め 実験成分を纏めれば、注目遺伝子の発現傾向について、調べる実験数を減らせる 実験の情報があれば、自分でも纏められる でも、統計的に纏めるには…… 主成分を統計的に計算する!!

ばらつきが大きい軸ほど、情報を多く持っていると考える ここから主成分分析の原理 まずはふたつの実験で考える ばらつきの大きい方向に軸を選ぶ ばらつきが大きい軸ほど、情報を多く持っていると考える 実験(成分)1 実験 (成分)2 発現量 ○は遺伝子 寄与率50% 第1主成分(Z1) 寄与率80% 第2主成分(Z2) 寄与率20% 実験成分 主成分 成分1 50% 80% 成分2 20%

言い換えると…… データがばらつく方向に合わせて、新しい軸を作る 第1主成分方向に投影すると… 第1主成分(Z1) 第2主成分(Z2) 第2主成分方向にばらつく

寄与率とは… それぞれの主成分が実験全体をどの程度表しているか 分散の値を使う 各主成分の分散/データ全体の分散 後でもう少し詳しく……

整理してみると… 元の実験成分は独立していると考える 主成分はばらつきを表す割合で分配される それぞれの寄与率は50% 第1主成分の寄与率は80% 第2主成分の寄与率は20%

主成分分析の目的 多変量データに対して、遺伝子群(要素)と実験群(変数)との関係を纏めて評価する 遺伝子と実験を繋ぐのが、それぞれの主成分の役割 他の分析方法では、要素または変数のどちらかの特徴を見ることはできる 主成分 実験 遺伝子

チェックポイント・I 主成分分析とは? 主成分分析の原理は? 主成分分析の目的は?

主成分分析の基本 3つのグラフ 寄与率:主成分のための指標 負荷量:実験のための指標 得点:遺伝子のための指標 主成分のデータ全体に対する影響力を表す 負荷量:実験のための指標 実験と主成分との関係を表す 得点:遺伝子のための指標 遺伝子と主成分との関係を表す 結果として、主成分を通じて、実験と遺伝子が繋がる 寄与率 負荷量 得点

寄与率 主成分はばらつきの大きい方向に選ぶ 主成分の分散の値が、データの特徴をどれだけ表しているかの指標になる 第1主成分だけでデータ全体の80%の特徴を表していることになる

この辺りも何か役に立つことが含まれているかも 寄与率のグラフ データ全体の特徴が多く含まれている この辺りも何か役に立つことが含まれているかも 寄与率が高いほど、データの特徴をよく表している 別の主成分は別の特徴を表す

寄与率による主成分の選択:1 累計で95%になるところまでを採用する。 79実験(成分)がおもに8つの成分(主成分)に纏められる。 標準偏差( 分散 ) 分散の累積(%) 第1主成分 12120 61.1 第2主成分 5282 72.8 第3主成分 4912 82.8 第4主成分 3909 89.2 第5主成分 2695 92.2 第6主成分 1924 93.7 第7主成分 1488 94.6 第8主成分 1321 95.4 第9主成分 1111 95.9 … 第79主成分 74 100.0 累積で95%を超える主成分までを採用 (第一次採用)

寄与率による主成分の選択:2 元の実験の寄与率よりも大きい主成分を採用する 元の実験の寄与率は1.3% この場合は第6主成分(寄与率1.5%)まで有効とする 実験 寄与率 累積 成分1 1.3% 61.1% 61.1 成分2 11.6% 72.8 成分3 10.0% 82.8 成分4 6.4% 89.2 成分5 3.0% 92.2 成分6 1.5% 93.7 成分7 0.9% 94.6 成分8 0.7% 95.4 成分9 0.5% 95.9 … 成分79 0.01%

寄与率の纏め・1 寄与率は主成分のばらつきの割合を表す 有効な主成分の決め方 寄与率が元の実験の寄与率より大きい主成分 今回の場合は、 𝟏 𝟕𝟗 =𝟎.𝟎𝟏𝟑=𝟏.𝟑% 累積寄与率が95%を超える主成分まで

寄与率の纏め 寄与率は主成分のばらつきの割合 有効な主成分の選び方 今回の場合は、 累積の寄与率が95%を超えるところまでを採用 元の実験の寄与率よりも大きい主成分を採用 今回の場合は、 第8主成分で累積寄与率が95%を超える 第6主成分までが、元の実験よりも寄与率が大きい 最終判断として、第6主成分までを有効とする!!

負荷量とは 各実験がどの主成分に纏められたかを表している 各実験がひとつの主成分に丸ごと纏められるのではない ある程度の割合で複数の主成分に分けられる その割合が負荷量

ある実験の負荷量を考える この実験がどの主成分に纏められたのか? 絶対値の大きい(正負問わず)負荷量を表から読み取る。 第1主成分の正の方向の負荷量が大きい。 この実験は第1主成分の正の方向を表していると考えられる。 第9、第10主成分の負荷量も高いが、有効主成分ではない。 ただし、閾値を決めるのは難しい 実験 W100 負荷量 主成分1 0.109 主成分2 0.015 主成分3 -0.029 主成分4 -0.081 主成分5 -0.095 主成分6 -0.025 主成分7 0.029 主成分8 0.096 主成分9 0.133 主成分10 0.114

負荷量 グラフで絶対値が大きい実験に注目 他の実験と比べて相対的に大きいことを確認できる 第2主成分 第2主成分 第1主成分 第1主成分

得点とは 各遺伝子がどの主成分の影響を強く受けているかを表している ある遺伝子について、得点の絶対値が大きい主成分ほど、その遺伝子の発現量に関わっている つまり、実験データの代わりに、主成分データを使って遺伝子発現の傾向を調べることになる

得点 絶対値が大きいものに注目 負荷量で注目した実験と同じ符号を探す 第2主成分 第2主成分 第1主成分 第1主成分

ランダムなデータの得点 ランダムなデータの場合、原点の周りに方向性なく集まる

さまざまな主成分の得点 ランダムデータの得点に比べて、どの主成分も特徴的である 第2主成分 第4主成分 第1主成分 第3主成分

負荷量グラフの原点…… 第1主成分の軸に原点がない! どうやら第1主成分は発現量の大きさを表している 標準化したデータであれば、原点が出てくる 原点がない 原点がある 負荷量 得点

標準化データの主成分分析 標準化すると、発現量の大きさが消える 第48主成分でようやく累積95%に! でも、寄与率1.3%を超えるのは、第13主成分まで

主成分分析の長所と短所 長所 短所 ともかく全体を眺める(森を見る)のに便利 解析ツールが充実している みんなを納得させるのにも使える 主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれないときがある

チェックポイント・II 寄与率とは? (主成分)得点とは? (主成分)負荷量とは? ランダムデータの主成分分析の特徴は? 標準化データの主成分分析の特徴は?

実習に使うデータの説明 「atgenx4biostatpca.txt」 遺伝子数は変わらず、22,746遺伝子 実験数は繰り返しなしで79実験 中央値を選んでいます 実験名の書き方が変わっています 実験名を主成分分析のラベルで使います ラベルだけで組織が分かるように変えています 次のスライドで説明します 数字は「ATGE_」以下の数字と一致します

発現データの組織名の説明 A: apex、頂端分裂組織、つぼみ D: seed、種子 F: flower、花 I: inflorescence、花序、花の組織 L: leaf、葉 O: old leaf (senescing leaf)、枯葉 P: pollen、花粉、雄しべ R: root、根 S: stem、茎 W: whole plant、植物全体

本日の実習 主成分分析の操作に慣れる。 それぞれのグラフの意味を理解する。 標準化データで主成分分析する。 寄与率、負荷量、得点 元のデータの主成分分析と比べる。

本日の課題 元のデータと標準化したデータの主成分分析を比べて考察しなさい。 主成分分析の感想や疑問点を書いてください。 寄与率、負荷量、得点のグラフを比べる。 主成分分析の感想や疑問点を書いてください。 次回の講義で説明します。