生物統計学・第4回全体を眺める（３）各種クラスター分析

Slides:

Advertisements

Similar presentations

生物統計学・第 5 回比べる準備をする標準偏差、標準誤差、標準化 2013 年 11 月 7 日生命環境科学域応用生命科学類尾形善之.

Advertisements

生物統計学・第 4 回比べる準備をする平均、分散、標準偏差、標準誤差、標準化 2015 年 10 月 20 日生命環境科学域応用生命科学類尾形善之.

生物統計学・第 2 回全体を眺める（１）平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日生命環境科学域応用生命科学類植物バイオサイエンス課程尾形善之.

統計学西山. 平均と分散の標本分布指定した値は μ ＝ 170 、 σ 2 ＝ 10 2 、データ数は 5 個で反復不偏性母分散に対してバイアスを含む正規分布カイ二乗分布.

生物統計学・第 15 回エラーを調べる－第一種の過誤、第二種の過誤、外れ値－ 2016 年 1 月 26 日生命環境科学域応用生命科学類尾形善之.

生体情報論演習 - 統計法の実践第 1 回京都大学情報学研究科杉山麿人.

生物統計学・第 14 回 Perl を使いこなすインストール、プログラミング 2014 年 1 月 20 日生命環境科学域応用生命科学類尾形善之.

主成分分析主成分分析は多くの変数の中を軸を取り直すことでより低い次元で表現できるようにする。データがばらついている方向ほど

情報処理入門A・B 第7回ワープロソフト入門（２）

推定の精度例：宍道湖に生育するある魚が今回の大水害でどのような影響を受けたかを明らかにするために，魚を捕獲して調査しようとした．

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

Gene Constellator SystemTM

統計学　　第７回西　山.

得点と打率・長打率・出塁率らの関係政治経済学部経済学科 ●年●組 ●●　●●.

第１回担当：　西山統計学.

「Self-Organizing Map 自己組織化マップ」を説明するスライド

林俊克＆廣野元久「多変量データの活用術」：海文堂

生物統計学・第3回全体を眺める（２）主成分分析

データ解析基礎 4. 正規分布と相関係数 keyword 正規分布（教科書：31ページ～38ページ）正規分布の性質偏差値

相関と回帰：相関分析２つの変量それぞれが正規分布にしたがってばらつく量であるとき，両変数の直線的な関係を相関分析する．例：兄弟の身長

統計学第３回　10/11 担当：鈴木智也.

データ分析入門（13）第13章　主成分分析廣野元久.

主成分分析　　　　　　　　　　　　　　　　　　　　結城　　隆　　　.

回帰分析／多変量分析 1月18日.

生物統計学・第1回統計解析を始める前に－妥当なデータかどうかを判断する－

主成分分析と因子分析による競馬の勝因の研究

生物統計学・第2回注目要素を決めるまず木を見る、各種グラフ、ウェブツール

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈データ入力データ分析報告書の作成.

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

2016年度植物バイオサイエンス情報処理演習第10回情報解析(3) Rを使った主成分分析

繰り返しのない二元配置の例ヤギに与えると成長がよくなる４種類の薬（Ａ～Ｄ，対照区）とふだんの餌の組み合わせ

2016年度植物バイオサイエンス情報処理演習第13回情報解析(6) エクセルVBAによる遺伝子機能解析

生物統計学・第2回全体を眺める（１）各種グラフ、ヒストグラム、分布

生物統計学・第1回統計解析を始める前に－木を見て森を見てまた木を見る－

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

主成分分析 (Principle Component Analysis)

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

2018年度植物バイオサイエンス情報処理演習第5回公共データバンクの遺伝子情報

2017年度植物バイオサイエンス情報処理演習第1回情報検索(1) ビッグデータを眺める

植物系統分類学・第15回比較ゲノミクスの基礎と実践

生物統計学・第3回全体を眺める（1） R、クラスタリング、ヒートマップ、各種手法

2016年度植物バイオサイエンス情報処理演習第6回情報処理(4) データを加工する・2

主成分分析 Principal Component Analysis PCA

数理統計学西　山.

多変量解析～主成分分析～１．主成分解析とは２．適用例と解析の目的３．解析の流れ４．変数が２個の場合の主成分分析

Data Clustering: A Review

パターン認識特論担当：和田俊和部屋 A513 主成分分析

部分的最小二乗回帰 Partial Least Squares Regression PLS

プロセスデータ解析学５ -主成分分析- 担当：長谷部伸治　　　　金　尚弘.

Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

2019年1月22日生命環境科学域応用生命科学類尾形善之

生物統計学・第3回全体を眺める（2）クラスタリング、ヒートマップ

プロジェクト演習III,V ＜インタラクティブ・ゲーム制作＞プログラミングコース

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

2017年度植物バイオサイエンス情報処理演習第11回系統樹

データ解析静岡大学工学部安藤和敏

自己組織化マップ Self-Organizing Map SOM

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

2018年度植物バイオサイエンス情報処理演習第13回メタゲノミクス

統計学　　第９回西　山.

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

小標本に関する平均の推定と検定標本が小さい場合，標本分散から母分散を推定するときの不確実さを加味したｔ分布を用いて，推定や検定を行う

2018年度植物バイオサイエンス情報処理演習第12回次世代シーケンシング・RNA

Locally-Weighted Partial Least Squares LWPLS 局所PLS

わかりやすいパターン認識第６章特徴空間の変換６．５ KL展開の適用法〔１〕 KL展開と線形判別法〔２〕 KL展開と学習パターン数

生物統計学・第14回全体を眺める（6）－相関ネットワーク解析－

テクニカル・ライティング第4回～文章の設計法「ＫＪ法」について～.

生物統計学・第11回全体を眺める（3）－主成分分析1：分析の基本－

2018年度植物バイオサイエンス情報処理演習第9回公共データバンクの代謝パスウェイ情報

Presentation transcript:

生物統計学・第4回全体を眺める（３）各種クラスター分析生物統計学・第4回全体を眺める（３）各種クラスター分析 2013年10月28日生命環境科学域　応用生命科学類尾形善之

まず最初に円グラフ…… 他難しい・分からない

先週のレポートから多かった意見そもそも「主成分」が分からない寄与率のグラフからついていけない得点のグラフからついていけないグラフの軸（目盛り）の意味が分からない 3つのグラフの関係が分からない計算の仕方が分からないどうやって解釈していいのか分からないともかく全部分からない、目的も分からない、何が分からないかも分からない

生物統計学・第4回全体を眺める（３）主成分分析からのクラスター分析生物統計学・第4回全体を眺める（３）主成分分析からのクラスター分析 2013年10月28日生命環境科学域　応用生命科学類尾形善之

そもそもなんで主成分分析？ 79実験条件あると、79個の軸でデータを見ないといけない 2実験なら、そのままグラフ化なるべく少ない軸（できれば2つの軸）でデータ全体を眺めたいそのためには、うまく実験データを組み合わせたい

目で見る主成分分析の原理主成分の利点 1.4倍の幅でデータ（点）を表すことができるデータを分けやすくしている実験（成分）2 幅140 第1主成分(Z1) 主成分の利点 1.4倍の幅でデータ（点）を表すことができるデータを分けやすくしている幅140 幅100 発現量実験（成分）1

目で見る主成分分析の原理実験主成分成分1 50% 80% 成分2 20% 実験（成分）2 遺伝子発現量実験（成分）1 寄与率50% 実験主成分成分1 50% 80% 成分2 20% 第1主成分(Z1) 寄与率80% 第2主成分(Z2) 寄与率20%

79実験成分なら…… 主成分分析とは… 主成分分析の目的実験主成分成分1 1.3% 84.1% 成分2 3.5% 成分3 3.3% 成分4 2.3% 成分5 1.6% 成分6 0.8% … 成分79 0.01% 主成分分析とは… データをうまく説明する軸を作り直す主成分分析の目的たくさんの成分（実験条件）のデータを2本の軸で説明するまずは寄与率の大きい主成分を探す

チェックポイント・I 主成分分析の目的は？「主成分」は理解できましたか？

主成分分析で使う3つのグラフ寄与率負荷量得点 Rを使った主成分分析第5回（次回）の「標準化」で説明します第9回の「相関係数」で説明します Rを使った主成分分析第13回の「Rを使いこなす」で説明します

主成分分析のグラフの使い方寄与率：主成分のための指標得点：遺伝子のための指標負荷量：実験条件のための指標どの主成分がデータ全体をうまく表しているか高い寄与率の主成分（主成分Aとする）を選ぶ得点：遺伝子のための指標注目遺伝子が主成分Aと関係しているか主成分の意味付けから遺伝子の特徴を推定する負荷量：実験条件のための指標どの実験が主成分Aに関わっているか主成分の意味を実験条件で意味づける

この辺りも何か役に立つことを表しているかも寄与率：主成分のための指標データ全体をよく表しているこの辺りも何か役に立つことを表しているかも高い寄与率の主成分を選ぶデータ全体を表している注目遺伝子を特徴付けられるか？

寄与率の実際分散（ばらつき）累積(%) データ全体 582 100.0 第1主成分 489 84.1 第2主成分 20 87.6 第3主成分 19 90.9 第4主成分 13 93.2 第5主成分 9 94.8 第6主成分 4 95.5 … 第79主成分 0.02

得点＝遺伝子の発現量（平均との差）×各実験の負荷量得点：遺伝子のための指標目盛りはあくまで目安です得点＝遺伝子の発現量（平均との差）×各実験の負荷量ランダムとの比較データに特徴があるかを確認注目遺伝子主成分ごとに位置を確認（今回は正） At1g56650

負荷量：実験条件のための指標各成分絶対値が大きい実験条件に注目第1主成分目盛は目安ですすべての実験条件が「負」注目遺伝子は「正」 ○に対応する実験群は? 成熟している組織

チェックポイント・II 主成分分析の流れに従って、「寄与率」「得点」「負荷量」の順に説明しなさい。主成分分析の大まかな流れは理解できましたか？

本日の本題クラスター分析（「クラスタリング」とも言います）各種クラスター分析データを分類するのに使います実験群のクラスター遺伝子群のクラスター各種クラスター分析主成分分析もクラスター分析のひとつです階層（的）クラスターが一番有名ですその他自己組織化マップ(SOM)、ネットワーク解析、ヒートマップなど

階層的クラスター最も近い関係を線で繋ぐ Rでは「dist」と「hclust」を使うトーナメント戦のやぐら手順は「131028clusteringstep.txt」を参照実験条件は「file.pdf」を参照

階段状になっているところには気を付ける本当は似てないかも実験間での階層的クラスター階段状になっているところには気を付ける　本当は似てないかも

階層クラスターの特徴データ全体をひとつの木に纏めるヒートマップと組み合わせられる階段状のところには要注意固まっているものが似ているヒートマップと組み合わせられる次のスライドで説明階段状のところには要注意本当は似ていないこともある集まってほしい実験条件が分かれてしまう方法によって分かれ方が異なる

階層的クラスターとヒートマップ図の説明縦：実験横：遺伝子赤いほど発現量が多いこれで50遺伝子

遺伝子の発現傾向を分類できるが、丸の数は自分で決める自己組織化マップ(SOM) 79実験での遺伝子発現遺伝子名遺伝子の発現傾向を分類できるが、丸の数は自分で決める

自己組織化マップの特徴遺伝子発現傾向と遺伝子名を同時に見ることができる丸の数は自分で設定する遺伝子数が多いと遺伝子名は読めない解釈しやすい（主成分分析と比べれば……）丸の数は自分で設定する何を分けたいか予め決めておく必要がある遺伝子数が多いと遺伝子名は読めない左の図から選び出すことはできる

遺伝子の関係は見やすいが、発現傾向は同時には見れないネットワーク解析遺伝子の関係は見やすいが、発現傾向は同時には見れない

ネットワーク解析の特徴遺伝子間の関係を見やすくする他の情報も併せて載せやすい遺伝子の発現傾向を載せるのは難しい解析手順が少し難しいけっこう数が多くても理解可能他の情報も併せて載せやすい遺伝子の機能情報とか遺伝子の発現傾向を載せるのは難しい一つ一つにグラフを書くと煩わしい解析手順が少し難しい Rの作業が煩雑

クラスター分析の使い分け主成分分析階層的クラスター自己組織化マップネットワーク解析ともかくまずはこれが便利遺伝子発現と実験の両方を見たいとき自己組織化マップグループ分けが目的のとき（グループ数固定）ネットワーク解析全体の分かれ方を見たいとき少数で関係をはっきり見たいとき

チェックポイント・III クラスター分析とは？各種クラスター分析の使い分けは？

今日の自習のポイント Rでの階層クラスターと自己組織化マップ Rでの作業手順そもそもRの使い方…… 131028clusteringstep.txt そもそもRの使い方…… Rの使い方.docx（まだ用意できていません……）

次回までの予習次回は「標準偏差、標準誤差、標準化」です教科書インターネット標準偏差、標準誤差、標準化、分散、偏差値 Z化、単位ベクトル

本日の課題シロイヌナズナの79実験条件の遺伝子発現データを手に入れました。遺伝子の発現と実験条件を同時に見たい場合のクラスター分析法を答えなさい。生物データセットに対してクラスター分析を行った印象（疑問点）を書いてください。