Anja von Heydebreck et al. 発表:上嶋裕樹

Slides:



Advertisements
Similar presentations
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
Advertisements

XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
クラスタ分析手法を用いた新しい 侵入検知システムの構築
ラベル付き区間グラフを列挙するBDDとその応用
コンパイラ 2011年10月17日
Gene Constellator SystemTM
(被)影響遺伝子の同定 濱野 鉄太郎 北里大学大学院 薬学研究科 臨床統計部門 バイオスタティスティックスの数理的基礎
遺伝的アルゴリズム  新川 大貴.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
群論とルービックキューブ 白柳研究室  水野貴裕.
from KDD 2012 speaker: Kazuhiro Inaba
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
Natural Semantics 実行過程の、最初と最後の状態(state)の関係を考える。
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
アルゴリズムとデータ構造 2011年6月13日
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム
コンパイラ 2012年10月15日
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
Solving Shape-Analysis Problems in Languages with Destructive Updating
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
静的情報と動的情報を用いた プログラムスライス計算法
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Broad Institute GenePattern
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
訓練データとテストデータが 異なる分布に従う場合の学習
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
京都大学 化学研究所 バイオインフォマティクスセンター
Extractor D3 川原 純.
25. Randomized Algorithms
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
フレアの非熱的成分とサイズ依存性    D1 政田洋平      速報@太陽雑誌会(10/24).
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
プログラム理解におけるThin sliceの 統計的調査による有用性評価
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
JAVAバイトコードにおける データ依存解析手法の提案と実装
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
ベイズ最適化 Bayesian Optimization BO
Data Clustering: A Review
B03 量子論理回路の 最適化に関する研究 西野哲朗,垂井淳,太田和夫,國廣昇 電気通信大学 情報通信工学科.
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
文法と言語 ー文脈自由文法とLR構文解析ー
遺伝アルゴリズムによる NQueen解法 ~問題特性に着目した突然変異方法の改善~
構造的類似性を持つ半構造化文書における頻度分析
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
アルゴリズムとデータ構造 2012年6月11日
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Le Lu, Rene Vidal John Hopkins University (担当:猪口)
忙しい人のためのR/Bioconductorの基礎
Locally-Weighted Partial Least Squares LWPLS 局所PLS
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
ランダムプロジェクションを用いた音響モデルの線形変換
分子生物情報学(0) バイオインフォマティクス
混合ガウスモデル Gaussian Mixture Model GMM
素子のばらつきが特性に与える影響を調べます。 ここでは,RCフィルタ回路の 抵抗の誤差1%,コンデンサの誤差5% とします。
Presentation transcript:

Anja von Heydebreck et al. 発表:上嶋裕樹 uejima@is.s.u-tokyo.ac.jp Identifying splits with clear separation: a new class discovery method for gene expression data Anja von Heydebreck et al. 発表:上嶋裕樹 uejima@is.s.u-tokyo.ac.jp

生物学的な背景 マイクロアレイは細胞の発現型と分子的な特性との関係を調べるための強力な道具である。 マイクロアレイ遺伝子発現データの解析における重要なトピックとして,class prediction とclass discoveryがある。 Class prediction: 細胞組織を,あらかじめ発現型によって特徴付けられたカテゴリーに割り当てる。 Class discovery: 遺伝子間,細胞組織間,もしくは遺伝子と細胞組織の間の関係を見つける。

この論文でのclass discoveryの手法 ISIS(identifying splits with clear separation) diagonal linear discriminant (DLD) scoreを導入し,それがlocal maximumとなるような,細胞組織サンプルのbipartitionを見つける。 DLD scoreのlocal maximumを見つけるための高速なheuristicを採用する。その際,遺伝子クラスターの平均発現プロファイルを入力として使う。

データの形式化 データ行列 X = (xgj) 行は遺伝子(g = 1,…, k)に対応。 列は組織(j = 1,…,n)に対応。 {1,…, n}の部分集合    について,以下が成り立つとき        をbipartitionもしくはsplitと呼ぶ。

Diagonal Linear Discriminant Analysis (DLDA)(1) y = (y1,…,yk)をsplit        のどちらの部分集合に分類するか。 もし              であればyはM に分類される。  も同様に。

Diagonal Linear Discriminant Analysis (DLDA)(2) 2サンプルt-statistic: 各遺伝子について,それがどれだけ強く分類に関係するかを示す。 絶対値の高いものだけを残し,あとのものは捨てる。

Diagonal Linear Discriminant (DLD) Score split        に対するDLD score は次のように定義する。 つまり    に対する2サンプルt-statisticである。

分類の実行(1) まず候補となるbipartitionを効率的なheuristicで見つける。 単体の遺伝子の発現量でなく,遺伝子をクラスタリングして,各クラスターの平均発現量を使う。Augmented data matrix       として表せる。 そちらの方が安定なので。 あるcut point   について,次のようにbipartitionを決められる。

分類の実行(2) それらの候補からスタートして,greedyにlocal maximumを探索する。 そしてその2サンプルt-statistic                 が次の条件をみたすならば   で定義できるbipartitionを候補として採用する。 それらの候補からスタートして,greedyにlocal maximumを探索する。 Fnm: two-sample t-statistic for the m smallest and the n-m largest of n independent identically distributed normal random variables の分布関数

実験の条件 使用したデータセット Leukemia: 72 samples, 6817 genes. Lymphoma/leukemia: 62 samples, 4026 genes. Melanoma: 31 samples, 6971 genes. 2000個の遺伝子を選び,centroid linkage hierarchical clusteringでcorrelation coefficientを用いてクラスタリングした。 各データセットにつき,700個の候補bipartitionをクラスタリングなどで100個まで減らし,それを探索の出発点とした。

DLD scoreの実用性(1) ランダムにbipartitionを生成した場合のDLD scoreなどのヒストグラム

DLD scoreの実用性(2) 生物学的に意味のあるサンプルが,DLD scoreでどれだけ特徴付けられるか。

アルゴリズムの実行結果(1) Leukemia Lymphoma/leukemia

アルゴリズムの実行結果(2) Melanoma

まとめと今後の課題 遺伝子発現データセットによって表された癌のサブタイプを特徴付ける数学的な基準を導入した。 その基準を用いて,前提知識なしにサブタイプを発見するアルゴリズムを紹介した。 変数選択(遺伝子の選択)が重要であり,それがclass discoveryに及ぼす影響について,よりシステマティックに研究する必要がある。 しばしば大部分の遺伝子は,調べている発現型と無関係で,ノイズでしかない。

参考文献 Anja von Heydebreck, Wolfgang Huber, Annemarie Poustka and Martin Vingron: Identifying splits with clear separation: a new class discovery method for gene expression data, Bioinformatics, Vol. 17 Suppl. 1 2001, Pages S107-S114.