生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
植物系統分類学・第13回 分子系統学の基礎と実践
Gene Constellator SystemTM
「21世紀型コミュニケーション力の育成」研修モジュール
「ICT社会におけるコミュニケーション力の育成」 研修モジュール C-6:ポスターセッション
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
生物統計学・第3回 全体を眺める(2) 主成分分析
Microsoft Office クイックガイド ~PowerPoint 2013~
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
ゴールドバッハ予想と その類似について 5509046 嶋田 翔太 白柳研究室.
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
Fuzzy c-Means法による クラスター分析に関する研究
All IP Computer Architecture
思考支援ツールを用いた 情報処理技術知識の学習方式
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
Anja von Heydebreck et al. 発表:上嶋裕樹
Microsoft Office クイックガイド ~PowerPoint 2013~
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
数量分析 第2回 データ解析技法とソフトウェア
主成分分析 Principal Component Analysis PCA
Data Clustering: A Review
植物系統分類学・第14回 分子系統学の基礎と実践
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
統計学の授業でのセカンド モニタとしてのiPhoneの使用
パワーポイントから作る場合 〇〇〇〇〇〇〇研究室 (指導教員 工芸太郎 教授) 音尾聞九蔵 B2.
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
自己組織化マップ Self-Organizing Map SOM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ISO23950による分散検索の課題と その解決案に関する検討
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
開発作業の形式化に基づく プロセス評価 松下誠 大阪大学.
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
or-8. ゲーム理論 (オペレーションズリサーチを Excel で実習するシリーズ)
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
Data Clustering: A Review
Molecular Devices Japan
Ion PGM™ 次世代シーケンサーによる 受託解析サービスのご案内 ・細菌叢解析(16S メタゲノム)
プロジェクト演習Ⅱ インタラクティブゲーム制作
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
転移学習 Transfer learning
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法 2016年10月11日 生命環境科学域 応用生命科学類 尾形 善之

さっそく本日の本題 クラスタリング(「クラスター分析」とも言います) 各種クラスタリング データを分類するのに使います 主成分分析(第11回から3回にわたってやります) 階層(的)クラスタリングが一番有名です その他 自己組織化マップ(SOM)、ネットワーク解析、ヒートマップなど

階層クラスタリング 最も近い関係のものを線で繋ぐ 固まっているもの同士が似ている トーナメント戦のやぐらの形 階段状には注意! 本当は似ていないかも…… 利点:似ている部分を直感的に見つけやすい、大規模OK 欠点:実験と遺伝子の両方を見ることができない、階段注意!

階層クラスタリンク

階層クラスタリング Rでは「dist」と「hclust」を使う ヒートマップと組み合わせて利用できます 次のスライドで説明します

階層クラスタリングとヒートマップ 図の説明 縦:実験 横:遺伝子 赤いほど発現量が多い これで50遺伝子 利点:実験と遺伝子の両方を同時に見ることができる 欠点:不明瞭な時には、結局のところ見方が分からない

実はこれもヒートマップです 利点:遺伝子の発現を直感的に分かりやすい 欠点:複数の遺伝子の比較はできない(何枚か並べれば……)

チェックポイント・I 階層(的)クラスタリングとは? ヒートマップとは?

主成分分析(第11回から詳しく) 概要 全体のデータセットをいくつかの成分に纏める 纏めた成分ごとに、遺伝子と実験の特徴を見る 利点:実験と遺伝子の両方をふたつのグラフで見ることができる 欠点:不明瞭なときには、うまく分けられない

自己組織化マップ(SOM) 79実験での遺伝子発現 遺伝子名 利点:実験と遺伝子の発現傾向を分類できる 欠点:丸の数は自分で決める、データ数が多いと手に負えない

ネットワーク解析 利点:クラスター解析で不明瞭な場合に、明瞭に分けられる 欠点:遺伝子と実験を同時に見ることができない、解析が難しい

クラスター分析の使い分け 主成分分析(第11回からじっくりと) 階層クラスタリング(ヒートマップ付きで) ともかくまずはこれが便利 階層クラスタリング(ヒートマップ付きで) 遺伝子発現と実験の両方を見たいとき 自己組織化マップ(グループ数を固定) グループ分けが目的のとき ネットワーク解析(大きいほど有利) 全体をしっかりと分けたいとき

チェックポイント・II クラスター解析の使い分けは?

本日の実習 Rでクラスター解析する 階層クラスタリングする。 ヒートマップを作成する。

本日の課題 シロイヌナズナの遺伝子発現データ79実験条件を手に入れました。 これらのデータを全体的にどのように眺めたらよいか説明しなさい。 注目した遺伝子について眺めた結果について考察しなさい。