バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
IGEM 東大チーム スポンサー募集のご案内 生物版「ロボコン」をご存知ですか?遺伝子組み換え技術を駆使し、細胞のふるま いを再プログラムして、ロボットのように自在に操ることを目指します。その大会が The International Genetically Engineered Machine competition.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
High-Impact Defects: A Study of Breakage and Surprise Defects
「わかりやすいパターン認識」 第1章:パターン認識とは
表6-1 単元計画の例「明かりをつけよう」 次 学習活動 教師の支援・留意点 第1次 2時間 豆電球に明かりをつけよう
Gene Constellator SystemTM
全体ミーティング (4/25) 村田雅之.
音声からの心的状態の推定における 生理心理学的アプローチの導入
AllReduce アルゴリズムによる QR 分解の精度について
Bias2 - Variance - Noise 分解
雑音重み推定と音声 GMMを用いた雑音除去
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
水の官能試験による おいしさの相関について
Semi-Supervised QA with Generative Domain-Adaptive Nets
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
ホームページ作成・更新講座 夏のコンピュータ学習会 画像
血液学入門セミナー 第15回:悪性リンパ腫ってなぁに? 日時:2009年2月25日(水) 午後7時から
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
生命情報学入門 タンパク質の分類法演習 2011年6月14日
Fuzzy c-Means法による クラスター分析に関する研究
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
MPIを用いた並列処理 ~GAによるTSPの解法~
高速剰余算アルゴリズムとそのハードウェア実装についての研究
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
Anja von Heydebreck et al. 発表:上嶋裕樹
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
部分的最小二乗回帰 Partial Least Squares Regression PLS
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Nightmare at Test Time: Robust Learning by Feature Deletion
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
Number of random matrices
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
1.細胞の構造と機能の理解 2.核,細胞膜,細胞内小器官の構造と機能の理解 3.細胞の機能,物質輸送の理解 4.細胞分裂過程の理解
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
親子鑑定に見る尤度比を 角度を変えて眺めてみる
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
配偶者選択による グッピー(Poecilia reticulata)の カラーパターンの進化 :野外集団を用いた研究
人工知能特論II 第8回 二宮 崇.
学習目標 1.細胞の構造と機能の理解 2.核,細胞膜,細胞内小器官の構造と機能の理解 3.細胞の機能,物質輸送の理解 4.細胞分裂過程の理解
アスペクト指向言語のための視点に応じた編集を可能にするツール
表紙 分散遺伝的アルゴリズムのための 新しい交叉法.
パターン認識特論 ADA Boosting.
新入社員トレーニング 発表者名 発表日 このテンプレートは、トレーニング資料をグループ設定で紹介するための開始ファイルとして使用できます。
パターン認識特論 ADA Boosting.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
CSP係数の識別に基づく話者の 頭部方向の推定
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別 自然言語処理学講座 小町守 mamoru-k@naist.jp 2019/7/6

背景 細胞の状態と遺伝子の発現量には相関がある 遺伝子発現データから細胞の状態が分かる 2019/7/6

目的 リンパ腫の遺伝子発現データを用いて細胞の状態を判別する 瀰漫(びまん)性大 B 細胞リンパ腫 (DLBCL) と濾胞(ろほう)性リンパ腫 (FL) を分類 AdaBoost を用いて学習し、判別性能を調べる 2019/7/6

AdaBoost 弱学習機を1つずつ足していって分類 1ステップごとに判別精度が更新 1つの遺伝子しか見ない 発現遺伝子データ 有用な遺伝子がなにか分かる 判別器 弱学習機 学習 ステップ1 ステップ2 ステップ3 2019/7/6

AdaBoostのデモ 人工データで分類してみた様子 2019/7/6

過学習 訓練データとテストデータが同じ場合、ステップ数を増やすほど性能は上がる 訓練後の性能 最初はステップの増加に応じて同じくらいの判別性能を示す 訓練データとテストデータが違う場合、ステップ数が増えると性能は下がる 赤:訓練データとテストデータが同じ 青:訓練データとテストデータは違う Cross validationにより過学習しない最適なステップ数を見つける ステップ数 2019/7/6

Cross validation(CV) データを訓練用とテスト用に2分割して訓練時には見ないデータを作り、過学習しない最適なステップを決定 テストデータ 学習 5分割(5-fold) データ 訓練データ 分割 訓練データとテストデータの取り方を変えてk回実行し、平均 特にk=N(データのサイズ)のときはleave-one-outという 2019/7/6

CV で最適な遺伝子数選択 5-fold の cross validation と leave-one-out の AdaBoost で最適な遺伝子数の比較 遺伝子発現データ77事例から評価用の17事例を除いておく 訓練データとテストデータの精度の平均により性能を評価 2019/7/6

遺伝子数ごとの精度 分類の精度 遺伝子数24のときleave-one-outの性能が最大 5-fold CVの性能が最大になるのは遺伝子数44のとき 赤:5-fold CVの訓練時の精度 青:leave-one-outの訓練時の精度 紫:評価データのテスト時の精度 選択した遺伝子数 2019/7/6

5-foldとleave one outの比較 最大性能のときの選択遺伝子数 計算コスト 5-fold CV 多い 少ない Leave-one-out 2019/7/6

弱学習機を使った時の問題点 CV の各試行ごとに選択される遺伝子が一定ではない 分類に効く遺伝子に揺れがあるというのは生物学的に説明がつかない 2019/7/6

まとめ 遺伝子発現データからリンパ腫分類のための判別機を構成した 過学習を避けるため cross validation により最適な遺伝子数を選択 弱学習機を使った AdaBoost を単純に用いると一意に遺伝子選択が決まらない 2019/7/6