Download presentation
Presentation is loading. Please wait.
1
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
自然言語処理学講座 小町守 mamoru-k@naist.jp 2019/7/6
2
背景 細胞の状態と遺伝子の発現量には相関がある 遺伝子発現データから細胞の状態が分かる 2019/7/6
3
目的 リンパ腫の遺伝子発現データを用いて細胞の状態を判別する
瀰漫(びまん)性大 B 細胞リンパ腫 (DLBCL) と濾胞(ろほう)性リンパ腫 (FL) を分類 AdaBoost を用いて学習し、判別性能を調べる 2019/7/6
4
AdaBoost 弱学習機を1つずつ足していって分類 1ステップごとに判別精度が更新 1つの遺伝子しか見ない 発現遺伝子データ
有用な遺伝子がなにか分かる 判別器 弱学習機 学習 ステップ1 ステップ2 ステップ3 2019/7/6
5
AdaBoostのデモ 人工データで分類してみた様子 2019/7/6
6
過学習 訓練データとテストデータが同じ場合、ステップ数を増やすほど性能は上がる 訓練後の性能
最初はステップの増加に応じて同じくらいの判別性能を示す 訓練データとテストデータが違う場合、ステップ数が増えると性能は下がる 赤:訓練データとテストデータが同じ 青:訓練データとテストデータは違う Cross validationにより過学習しない最適なステップ数を見つける ステップ数 2019/7/6
7
Cross validation(CV) データを訓練用とテスト用に2分割して訓練時には見ないデータを作り、過学習しない最適なステップを決定
テストデータ 学習 5分割(5-fold) データ 訓練データ 分割 訓練データとテストデータの取り方を変えてk回実行し、平均 特にk=N(データのサイズ)のときはleave-one-outという 2019/7/6
8
CV で最適な遺伝子数選択 5-fold の cross validation と leave-one-out の AdaBoost で最適な遺伝子数の比較 遺伝子発現データ77事例から評価用の17事例を除いておく 訓練データとテストデータの精度の平均により性能を評価 2019/7/6
9
遺伝子数ごとの精度 分類の精度 遺伝子数24のときleave-one-outの性能が最大
5-fold CVの性能が最大になるのは遺伝子数44のとき 赤:5-fold CVの訓練時の精度 青:leave-one-outの訓練時の精度 紫:評価データのテスト時の精度 選択した遺伝子数 2019/7/6
10
5-foldとleave one outの比較
最大性能のときの選択遺伝子数 計算コスト 5-fold CV 多い 少ない Leave-one-out 2019/7/6
11
弱学習機を使った時の問題点 CV の各試行ごとに選択される遺伝子が一定ではない
分類に効く遺伝子に揺れがあるというのは生物学的に説明がつかない 2019/7/6
12
まとめ 遺伝子発現データからリンパ腫分類のための判別機を構成した
過学習を避けるため cross validation により最適な遺伝子数を選択 弱学習機を使った AdaBoost を単純に用いると一意に遺伝子選択が決まらない 2019/7/6
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.