生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法 2016年10月11日 生命環境科学域 応用生命科学類 尾形 善之
さっそく本日の本題 クラスタリング(「クラスター分析」とも言います) 各種クラスタリング データを分類するのに使います 主成分分析(第11回から3回にわたってやります) 階層(的)クラスタリングが一番有名です その他 自己組織化マップ(SOM)、ネットワーク解析、ヒートマップなど
階層クラスタリング 最も近い関係のものを線で繋ぐ 固まっているもの同士が似ている トーナメント戦のやぐらの形 階段状には注意! 本当は似ていないかも…… 利点:似ている部分を直感的に見つけやすい、大規模OK 欠点:実験と遺伝子の両方を見ることができない、階段注意!
階層クラスタリンク
階層クラスタリング Rでは「dist」と「hclust」を使う ヒートマップと組み合わせて利用できます 次のスライドで説明します
階層クラスタリングとヒートマップ 図の説明 縦:実験 横:遺伝子 赤いほど発現量が多い これで50遺伝子 利点:実験と遺伝子の両方を同時に見ることができる 欠点:不明瞭な時には、結局のところ見方が分からない
実はこれもヒートマップです 利点:遺伝子の発現を直感的に分かりやすい 欠点:複数の遺伝子の比較はできない(何枚か並べれば……)
チェックポイント・I 階層(的)クラスタリングとは? ヒートマップとは?
主成分分析(第11回から詳しく) 概要 全体のデータセットをいくつかの成分に纏める 纏めた成分ごとに、遺伝子と実験の特徴を見る 利点:実験と遺伝子の両方をふたつのグラフで見ることができる 欠点:不明瞭なときには、うまく分けられない
自己組織化マップ(SOM) 79実験での遺伝子発現 遺伝子名 利点:実験と遺伝子の発現傾向を分類できる 欠点:丸の数は自分で決める、データ数が多いと手に負えない
ネットワーク解析 利点:クラスター解析で不明瞭な場合に、明瞭に分けられる 欠点:遺伝子と実験を同時に見ることができない、解析が難しい
クラスター分析の使い分け 主成分分析(第11回からじっくりと) 階層クラスタリング(ヒートマップ付きで) ともかくまずはこれが便利 階層クラスタリング(ヒートマップ付きで) 遺伝子発現と実験の両方を見たいとき 自己組織化マップ(グループ数を固定) グループ分けが目的のとき ネットワーク解析(大きいほど有利) 全体をしっかりと分けたいとき
チェックポイント・II クラスター解析の使い分けは?
本日の実習 Rでクラスター解析する 階層クラスタリングする。 ヒートマップを作成する。
本日の課題 シロイヌナズナの遺伝子発現データ79実験条件を手に入れました。 これらのデータを全体的にどのように眺めたらよいか説明しなさい。 注目した遺伝子について眺めた結果について考察しなさい。