生物統計学・第3回 全体を眺める(2) 主成分分析

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
進学率と就職率から見るフリーター を生む社会構造の問題点について 発表者 中田 憲裕 炭山 元希.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
統計解析 第3章 散布度.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
9. 主成分分析 Principal Component Analysis (PCA)
ヘアケアシャンプーの 製品特徴分析            上原千佳              本谷裕美子.
第1回 担当: 西山 統計学.
林俊克&廣野元久「多変量データの活用術」:海文堂
このPowerPointファイルは、 情報処理演習用に作った フィクションです。
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
母分散が既知あるいは大標本の 平均に関する統計的検定
統計学 第3回 10/11 担当:鈴木智也.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
対応のあるデータの時のt検定 重さの測定値(g) 例:
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
主成分分析 (Principle Component Analysis)
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
データ解析 静岡大学工学部 安藤和敏
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
第4回 統計処理(1) 表計算ソフトの基本操作 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
主成分分析 Principal Component Analysis PCA
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
植物系統分類学・第14回 分子系統学の基礎と実践
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
データ解析 静岡大学工学部 安藤和敏
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
ガイダンス 電子計算機 電気工学科 山本昌志 1E
高次元データにおける2次形式の近似について
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
数理統計学  第6回 西山.
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
Presentation transcript:

生物統計学・第3回 全体を眺める(2) 主成分分析 生物統計学・第3回 全体を眺める(2) 主成分分析 2013年10月21日 生命環境科学域 応用生命科学類 尾形 善之

まずは先週のリマインド 全体を眺めるための指標 代表値 算術平均、中央値、最頻値 調和平均 いろいろなグラフ 棒、折れ線 ヒートマップ

いよいよ本格的な多変量解析 代表格:主成分分析 「主成分」って? よく「PCA」と呼ばれます データ全体の特徴を表す指標です Principal Component Analysis 「主成分」って? データ全体の特徴を表す指標です 多次元データ → 2次元グラフ 四次元グラフ…… 79次元グラフ……

教科書では… 地上部 種

目で見る主成分分析の原理 主成分(Z) 原理(ひとこと) 実験条件の数だけ引ける 優先順位がつく 軸を変えている! 実験2 実験1 実験2 主成分(Z) 実験条件の数だけ引ける 優先順位がつく 原理(ひとこと) 軸を変えている! できるだけばらしている! 第1主成分(Z1) 第2主成分(Z2)

チェックポイント・I 主成分分析とは? 主成分とは? 主成分分析の原理?

生物データセット シロイヌナズナのマイクロアレイデータ 79実験条件 組織、発達段階 3反復 合計237実験

79実験条件 生物データセット (ちょっと改良) 遺伝子 At1g56650

実際の主成分分析 Rを使います Rって? いろいろな統計解析ができるツールです 特に生物統計学向きです Rの回で詳しく話します 自習用に今日の作業手順のファイルを置いておきます http://www.plant.osakafu-u.ac.jp/plantbio/ 「大阪府立大学 植物バイオサイエンス」で検索

主成分分析で使う3つのグラフ 寄与率 負荷量(主成分負荷量) 得点(主成分得点)

寄与率:どのくらい貢献しているか よくばらつきを表している これなら第1主成分だけ見ればいいんじゃないか、というレベル 実験2 第1主成分(Z1) 第2主成分(Z2) 実験1 実験2 棒グラフを足していって、 全体の95%までは見ていいよ、 という暗黙の了解 分散(ばらつき)

負荷量:どの実験が効いているか それぞれの実験を表す 第2主成分 ひとつだけ離れている… 絶対値が大きい方に注目 第1主成分

得点:どの遺伝子に関わっているか それぞれの遺伝子を表す

ランダムデータと比べると……

発現量が大きい遺伝子ほど、第一主成分は「負」になっている 得点:At1g56650は… 発現量が大きい遺伝子ほど、第一主成分は「負」になっている 第一主成分が「負」の大きい実験が多い 11.5 3.2 5.6 4.3 5.3 9.4 7.7 4.1 9.6 大 小 発現量 3.5 得点=負荷量×(平均発現量との差)

解釈の纏め 今回の生物データセット 第1主成分の得点(遺伝子) 第1主成分の負荷量(実験) 負に大きい実験群では、 発現量大:負に大きい 発現量小:正に大きい 第1主成分の負荷量(実験) 負に大きい実験群が多い 負に大きい実験群では、 発現量の大きい遺伝子と発現量の小さい遺伝子はいつもほぼ決まっている

第2主成分と第3主成分

X73の正体は…… At1g56650の遺伝子発現データ 大体平均的な発現量 花粉で発現する遺伝子は少ない AtGE_73:花粉

主成分分析の長所と短所 長所だけ知ってもあまり役に立たない 長所 短所 口コミとか ともかく全体を眺める(森を見る)のに便利 ツールが充実している みんなを納得させるのにも使える 短所 主成分の意味が分かりにくいときがある 実はあまり綺麗に分かれてこないことが多い

チェックポイント・II 寄与率とは? (主成分)負荷量とは? (主成分)得点とは? 主成分の意味はどうやって判断するのか?

今日の自習のポイント 中央値を選んだデータセットを提供 Rでの作業手順(これを辿ってみてください) そもそもRの使い方…… ランダムデータ atgenx.txt Rでの作業手順(これを辿ってみてください) 131021pcastep.txt そもそもRの使い方…… Rの使い方.docx ランダムデータ atgenxrandom.txt

次回までの予習 次回は「各種クラスタリング」です 教科書 インターネット クラスター分析、階層的クラスター分析 自己組織化マップ、ネットワーク解析 ヒートマップ

本日の課題 シロイヌナズナの79実験条件の遺伝子発現データを手に入れました。 79実験条件の全体を主成分分析で眺める方法を、「寄与率」「負荷量」「得点」を使って説明してください。 生物データセットに主成分分析を使ってみた印象(疑問に思うこと)を書いてください。