生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.

Slides:



Advertisements
Similar presentations
Lesson 19. 評価の指標 §B. ROC 曲線. 疾 患 +- 検 査 + a (真陽性) b (偽陽性) - c (偽陰性) d (真陰性)
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
1 通信教育学部 コンピュータ演習 Excel の書式設定と関数 授業ページ「コンピュータ演習(通信教育学 部)」を 開いてください。提出課題の一覧が掲載されてい ます。
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
回答と解説.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/07/02
情報処理 第7回.
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/06/26
生物統計学・第3回 全体を眺める(2) 主成分分析
統計学 12/13(木).
対応のあるデータの時のt検定 重さの測定値(g) 例:
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/07/06
経営工学基礎演習a Word第1回目.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
疫学概論 ROC曲線 Lesson 19. 評価の指標 §B. ROC曲線 S.Harano, MD,PhD,MPH.
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
第10回:Microsoft Excel (2/2)
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
生命情報学入門 タンパク質の分類法演習 2011年6月14日
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
人獣共通感染 E型肝炎ウイルス (HEV)検出システム
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
卒業研究進捗報告 2009年  月   日 研究題目: 学生番号:         氏名:          
植物系統分類学・第14回 分子系統学の基礎と実践
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
第10回:Microsoft Excel (2/2)
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
線形判別分析 Linear Discriminant Analysis LDA
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
プログラミング演習I 2003年7月2日(第11回) 木村巌.
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
ホ-5班 発表タイトル(30字以内) 学籍番号1 名前 学籍番号2 名前 学籍番号3 名前 学籍番号4 名前 …
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
忙しい人のためのR/Bioconductorの基礎
第10回 質問(3) メール講座 Next Stage:翻訳力アップ自己トレ(1)
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
Ion PGM™ 次世代シーケンサーによる 受託解析サービスのご案内 ・細菌叢解析(16S メタゲノム)
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之

いよいよ最終回です ★今日の流れ ♦ 期末レポートの説明 ♦ 2 種類のエラー ♦ 外れ値の検定 ♦ ちょっと雑談 ♦ 簡単な課題 ♦ 早めに、期末レポートの作業開始

期末レポートの概要 ★提出期限 ♦ 2016 年 2 月 12 日(金) 必着 ★提出方法 ♦ 直接提出する B11 棟 4 階 413 号室(または 418 号室)に印刷物を提 出 ♦ メールで提出する メールにワードファイルを添付 「 」 ♦ 選んだコース名(後で説明)を必ず書いてく ださい。

期末レポートの書式 ★他の学生実験のレポートに準じます。 ♦ タイトル ♦ 目的 ♦ 材料 ♦ 方法 ♦ 結果 ♦ 考察 ♦ 感想 これらを含めてください。

期末レポートの内容 ★使うデータ ♦ 「 biostat15finaldata.txt 」 いつものサイトの「期末レポート」の「扱うデー タ」の右端のテキストの絵を右クリックして保存す る。 ★作業方法 ♦ こだわりコース( 25 点) これまで学んだ方法とさまざまな方法を駆使して解 析する。 ♦ おまかせコース( 15 点) 手順書(概略のみ)通りに解析を進める。 – いつものようなコマンドまでは書いていませ ん !!

データの説明 ★ 36 実験の遺伝子発現データ ♦ シロイヌナズナ ♦ 4 系統、時系列 3 時点、 3 反復 ♦ 提供するデータは反復なしの 12 実験のデータ です。 ♦ データの概要 次世代シーケンサー( Illumina 社 HiSeq2000 ) 塩基長: 76 塩基 配列数: 900,224,946 配列( 900 メガ配列、 9 億配 列)

実験の概要 ★シロイヌナズナの 4 系統 ♦ Col-0 と Sei-0 コントロール(野生種) ♦ Fcs と Fsc : Col-0 と Sei-0 との交雑種 菌感染の耐性が高いとされている(雑種強勢)。 ★菌の感染 ♦ Pseudomonas syringae (Pst DC3000) 感染すると、過敏感細胞死が誘導される。 ★時系列データ ♦ 感染後: 1 日目、 2 日目、 3 日目

研究目的 ★雑種の菌感染時に特異的に発現する遺 伝子を探す。 ♦ 雑種の実験の負荷量の絶対値が大きい主成分を 選ぶ(主成分 A とする)。 ♦ 主成分 A で得点の絶対値が大きい遺伝子を探す。 ♦ これらの遺伝子は菌感染に関係がある可能性が ある。

こだわりコース

おまかせコース ★合計点: 15 点 ♦ 何をしていいか分からない人向きです。 ♦ 手順書に従って進めます。 ♦ ただし、コマンドは書いていません。 これまでの手順書のコマンドを利用してください。 ★評価のポイント ♦ 手順書通りに解析できているか。 ♦ 考察の妥当性

コース選択のおすすめ ★「おまかせコース」の手順書通りに 進めて、それ以外の解析をいくつか 混ぜる。 ♦ この場合も、「こだわりコース」として考え ます。 ♦ 検定、相関係数など。

検査で陽性検査で陰性合計 実際に陽性 実際に陰性 合計

2 種類のエラー ★偽陽性 False Positive ♦ 検査で陽性だが実際は陰性 「第一種の過誤(誤り)」「あわてんぼうのエラー」 FDR は、こちらのエラーだけを評価している。 ★偽陰性 False Negative ♦ 検査で陰性だが実際は陽性 「第二種の過誤(誤り)」「うっかりもののエラー」 ★意識しないとどちらかのエラーを忘れ がち

2 種類のエラーに関する 4 項目 ★ True positive ( TP ) ♦ 調べて陽性のものが、実際に陽性。 ★ True negative ( TN ) ♦ 調べて陰性のものが、実際に陰性。 ★ False positive ( FP ) ♦ 調べて陽性のものが、実際には陰性。 ★ False negative ( FN ) ♦ 調べて陰性のものが、実際には陽性。

2 種類のエラーを評価する指 標 2 種類のエラーをひと つの指標で評価

医療検査と 2 種類のエラー ★ある病気の検査方法の信頼度は? 検査で 陽性 検査で 陰性 実際に 陽性 True Positive 8 False Negative 0 8 実際に 陰性 False Positive 12 True Negative

医療検査と 2 種類のエラー 偽陽性 検査で陽性精密検査で陰性ほっとひと息 偽陰性 検査で陰性実は陽性これは困る

情報検索と 2 種類のエラー ★あるブラウザの検出の信頼度は? ブラウザで ヒット ブラウザで ノーヒット 目的の ページ 80 8 関係ない ページ , , ,000

情報検索と 2 種類のエラー ★あるブラウザの検出の信頼度は? ブラウザで ヒット ブラウザで ノーヒット 目的の ページ 35 8 関係ない ページ 7999, , ,990

情報検索と 2 種類のエラー 偽陽性 ブラウザでヒット実は外れ これが多すぎると困 る 偽陰性 ブラウザでヒットせ ず 実は当たり ひとつも当らないと 困る

外れ値

グラブスの検定 AB 平均 3422 SD610 長さ 6042 実験数 5%1% どちらも 1% の危険率で有意に外れ る

今日の課題・ 1 検査で陽性検査で陰性 実際に 陽性 True Positive 7 False Negative 1 8 実際に 陰性 False Positive 3 True Negative

今日の課題・ 2 ★「生物統計学」の感想を書いてくだ さい。