生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計学入門(1) 第 10 回 基本統計量:まとめ. 統計学第 8 回 2 前回の練習問題の解答 (1) から (4) に対応するヒストグラムはそれぞれどれか。
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
数理統計学  第9回 西山.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
経済統計学 第2回 4/24 Business Statistics
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
相関係数 植物生態学研究室木村 一也.
第1回 担当: 西山 統計学.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
生物統計学・第3回 全体を眺める(2) 主成分分析
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計学 12/13(木).
統計学 第3回 10/11 担当:鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
1変量データの記述 経済データ解析 2006年度.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
統計学 西 山.
中澤 港 統計学第4回 中澤 港
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
ベイズ最適化 Bayesian Optimization BO
代表値と散らばり.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
推定と予測の違い 池の魚の体重の母平均を知りたい→推定 池の魚を無作為に10匹抽出して調査 次に釣り上げる魚の体重を知りたい→予測
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之

今日の話の流れ ★前回、前々回のおさらい ★代表値 ★ばらつき ★標準偏差 ★標準誤差 ★標準化 統計学基礎の復習です

前回のおさらい ★注目遺伝子の選び方・実用編 ♦ 実演します 実習はしませんが、この方法で選びたい人 は挑戦してみて、注目遺伝子を変えてくだ さい ♦ 注目する実験から選ぶ ♦ 注目する機能から選ぶ

前々回のおさらい ★遺伝子発現量のヒストグラム ♦ グラフの読み方 横軸が発現量 縦軸は各発現量(区間)の遺伝子数 ♦ 注目した遺伝子の発現量が遺伝子全体 の中でどのくらいの位置にあるか?

横軸:遺伝子発現量 データ区間: 0 ~ 階級幅: 100 横軸:遺伝子発現量 データ区間: 0 ~ 階級幅: 100 縦軸:頻度(遺伝子 数) 発現量の大きい順に 遺伝子数を表示 同じ階級の遺伝子は 同じような発現量

今回のデータセットでの平均 値 ★遺伝子全体での平均発現量: ★遺伝子ごとの平均発現量 ♦ 79 実験でどのくらい発現している遺伝 子か ♦ 平均値? 代表値?

さまざまな代表値があります ★平均値 ♦ 算術平均 ♦ 調和平均 ★中央値 ★最頻値

算術平均 分母を通分

調和平均 分子を通分

他の代表値 ★中央値 (「真ん中」) ♦ データを大きい順に並べたときの真ん 中 6.1, 5.8, 6.1 なら、中央値は …… 6.1 ★最頻値 (「一番多い」) ♦ 一番多く出てくる値 6.1, 5.8, 6.1 なら、最頻値は …… やっぱり 6.1

チェックポイント・ I 1. 次の用語を説明しなさい。 ♦ 算術平均 ♦ 調和平均 ♦ 中央値 ♦ 最頻値

ばらつき ★なぜばらつきを計算しないといけない のか? 発現量はほぼ同じだが、グラフの様子がずいぶ ん違う

ばらつきを計算する理由 ★平均値だけではデータ全体の様子が 分からない ★ばらつきを計算することで、データ が平均値の周りにどのくらい集まっ ているか分かる

ばらつきと代表値との関係 ★左右対称の山型 ♦ 「パラメトリック」といいま す ♦ この場合、平均値、中央値、 最頻値はほとんど変わりませ ん ★左右非対称 ♦ 「ノンパラメトリック」 ♦ 平均値、中央値、最頻値がか なり違う場合があります 正規分布 な ど

ばらつきを表す指標 全数調査:例えば選挙結 果 標本調査:例えば出口調 査 全数調査: N 標本調査: N - 1 全数調査: N 標本調査: N - 1 標本調査では、ばらつ きを大きく評価する

標本調査と全数調査 ★選挙で考えてみます ♦ 標本調査:出口調査 選挙の日の午前中に当落を予想する まれに、最終結果と違うことがある 全数調査よりサンプルが少なく、ばらつきが 大きい – ばらつきを大きめに評価する ♦ 全数調査:最終集計結果 最終的な投票結果で決定する ばらつきをそのまま評価する

実際に計算してみると …… 2 乗サイズ 平均と同じサイ ズ 平均に ま あ 対応するサイ ズ

チェックポイント・ II 2. ばらつきを表す指標は? 3. ばらつきと代表値との関係は?

平均値と標準偏差の関係 ★分布の意味 グラフの面積=データ 数 微分 ……

平均値と標準偏差の関係 平均値 標準偏差 σ :標準偏差 正規分布だとすると ……

標準偏差と偏差値 標準偏差 平均点: 60 点 テストごとの成 績を比較するた め

2σ のはなし 標準偏差 2 個分 2σ 全体の 95.4% 例えば、平均点: 60 点 標準偏差: 10 点 B さんの得点: 80 点以上 なら、 グラフの緑の部分の右に いることが分かる(上位 2.5% ) 危険率 5% で統計的に 「優秀」といえる 平均点: 60 点

3σ のはなし 2.5% 例えば、平均点: 60 点 標準偏差: 10 点 C 君の得点: 90 点以上な ら、 グラフの紫の部分の右に いることが分かる(上位 0.25% ) 危険率 0.5% で統計的に 「優秀」といえる 平均点: 60 点 標準偏差 3 個分 3σ 全体の 99.7%

チェックポイント・ I 4. 平均値と標準偏差との関係は?

標準偏差と標準誤差 ★どちらも「ばらつき」を表す指標です ★標準偏差 (SD) ♦ ばらつくことを表す ★標準誤差 (SE) ♦ ばらつかないことを表す

ばらつく! 標準偏差 注目する数 値

ばらつかない! 標準誤差

標準誤差 ★繰り返し実験がどの程度信頼できる か?

標準誤差を計算してみると …… ★繰り返し 3 回~ 10 回で比べてみる(累 積) 平均値の信頼度アップ平均値の信頼度アップ 平均値の信頼度アップ平均値の信頼度アップ

標準化 、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため 平均値もばらつきも単位も異なることがあ る ★標準化の計算 ♦ Z 化 これが最も代表的 ピアソン相関係数に繋がります ♦ 単位ベクトル化、というものもあります

Z化Z化

チェックポイント・ II 5. 標準偏差と標準誤差の使い分け は? 6. 代表的な標準化の計算は?

本日の実習 ★遺伝子の発現量ヒストグラムの作成 ♦ 遺伝子発現データをエクセルで開く。 ♦ 注目遺伝子の 79 実験でのヒストグラムを作 る。 ★分散・標準偏差の計算 ♦ 注目遺伝子の発現量について計算する。 ♦ 注目遺伝子と平均発現量の近い遺伝子の発 現量について計算し、ヒストグラムを作 る。

本日の課題 ★注目する遺伝子と平均発現量の近い遺 伝子の 2 つの遺伝子について、分散や標 準偏差の違いについて考察しなさい。 ★代表値、ばらつき、標準偏差、標準誤 差とに対する疑問点や印象を書いてく ださい。