生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之
いよいよ最終回です ★今日の流れ ♦ 期末レポートの説明 ♦ 2 種類のエラー ♦ 外れ値の検定 ♦ ちょっと雑談 ♦ 簡単な課題 ♦ 早めに、期末レポートの作業開始
期末レポートの概要 ★提出期限 ♦ 2016 年 2 月 12 日(金) 必着 ★提出方法 ♦ 直接提出する B11 棟 4 階 413 号室(または 418 号室)に印刷物を提 出 ♦ メールで提出する メールにワードファイルを添付 「 」 ♦ 選んだコース名(後で説明)を必ず書いてく ださい。
期末レポートの書式 ★他の学生実験のレポートに準じます。 ♦ タイトル ♦ 目的 ♦ 材料 ♦ 方法 ♦ 結果 ♦ 考察 ♦ 感想 これらを含めてください。
期末レポートの内容 ★使うデータ ♦ 「 biostat15finaldata.txt 」 いつものサイトの「期末レポート」の「扱うデー タ」の右端のテキストの絵を右クリックして保存す る。 ★作業方法 ♦ こだわりコース( 25 点) これまで学んだ方法とさまざまな方法を駆使して解 析する。 ♦ おまかせコース( 15 点) 手順書(概略のみ)通りに解析を進める。 – いつものようなコマンドまでは書いていませ ん !!
データの説明 ★ 36 実験の遺伝子発現データ ♦ シロイヌナズナ ♦ 4 系統、時系列 3 時点、 3 反復 ♦ 提供するデータは反復なしの 12 実験のデータ です。 ♦ データの概要 次世代シーケンサー( Illumina 社 HiSeq2000 ) 塩基長: 76 塩基 配列数: 900,224,946 配列( 900 メガ配列、 9 億配 列)
実験の概要 ★シロイヌナズナの 4 系統 ♦ Col-0 と Sei-0 コントロール(野生種) ♦ Fcs と Fsc : Col-0 と Sei-0 との交雑種 菌感染の耐性が高いとされている(雑種強勢)。 ★菌の感染 ♦ Pseudomonas syringae (Pst DC3000) 感染すると、過敏感細胞死が誘導される。 ★時系列データ ♦ 感染後: 1 日目、 2 日目、 3 日目
研究目的 ★雑種の菌感染時に特異的に発現する遺 伝子を探す。 ♦ 雑種の実験の負荷量の絶対値が大きい主成分を 選ぶ(主成分 A とする)。 ♦ 主成分 A で得点の絶対値が大きい遺伝子を探す。 ♦ これらの遺伝子は菌感染に関係がある可能性が ある。
こだわりコース
おまかせコース ★合計点: 15 点 ♦ 何をしていいか分からない人向きです。 ♦ 手順書に従って進めます。 ♦ ただし、コマンドは書いていません。 これまでの手順書のコマンドを利用してください。 ★評価のポイント ♦ 手順書通りに解析できているか。 ♦ 考察の妥当性
コース選択のおすすめ ★「おまかせコース」の手順書通りに 進めて、それ以外の解析をいくつか 混ぜる。 ♦ この場合も、「こだわりコース」として考え ます。 ♦ 検定、相関係数など。
検査で陽性検査で陰性合計 実際に陽性 実際に陰性 合計
2 種類のエラー ★偽陽性 False Positive ♦ 検査で陽性だが実際は陰性 「第一種の過誤(誤り)」「あわてんぼうのエラー」 FDR は、こちらのエラーだけを評価している。 ★偽陰性 False Negative ♦ 検査で陰性だが実際は陽性 「第二種の過誤(誤り)」「うっかりもののエラー」 ★意識しないとどちらかのエラーを忘れ がち
2 種類のエラーに関する 4 項目 ★ True positive ( TP ) ♦ 調べて陽性のものが、実際に陽性。 ★ True negative ( TN ) ♦ 調べて陰性のものが、実際に陰性。 ★ False positive ( FP ) ♦ 調べて陽性のものが、実際には陰性。 ★ False negative ( FN ) ♦ 調べて陰性のものが、実際には陽性。
2 種類のエラーを評価する指 標 2 種類のエラーをひと つの指標で評価
医療検査と 2 種類のエラー ★ある病気の検査方法の信頼度は? 検査で 陽性 検査で 陰性 実際に 陽性 True Positive 8 False Negative 0 8 実際に 陰性 False Positive 12 True Negative
医療検査と 2 種類のエラー 偽陽性 検査で陽性精密検査で陰性ほっとひと息 偽陰性 検査で陰性実は陽性これは困る
情報検索と 2 種類のエラー ★あるブラウザの検出の信頼度は? ブラウザで ヒット ブラウザで ノーヒット 目的の ページ 80 8 関係ない ページ , , ,000
情報検索と 2 種類のエラー ★あるブラウザの検出の信頼度は? ブラウザで ヒット ブラウザで ノーヒット 目的の ページ 35 8 関係ない ページ 7999, , ,990
情報検索と 2 種類のエラー 偽陽性 ブラウザでヒット実は外れ これが多すぎると困 る 偽陰性 ブラウザでヒットせ ず 実は当たり ひとつも当らないと 困る
外れ値
グラブスの検定 AB 平均 3422 SD610 長さ 6042 実験数 5%1% どちらも 1% の危険率で有意に外れ る
今日の課題・ 1 検査で陽性検査で陰性 実際に 陽性 True Positive 7 False Negative 1 8 実際に 陰性 False Positive 3 True Negative
今日の課題・ 2 ★「生物統計学」の感想を書いてくだ さい。