生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之
今日の話の流れ ★前回、前々回のおさらい ★代表値 ★ばらつき ★標準偏差 ★標準誤差 ★標準化 統計学基礎の復習です
前回のおさらい ★注目遺伝子の選び方・実用編 ♦ 実演します 実習はしませんが、この方法で選びたい人 は挑戦してみて、注目遺伝子を変えてくだ さい ♦ 注目する実験から選ぶ ♦ 注目する機能から選ぶ
前々回のおさらい ★遺伝子発現量のヒストグラム ♦ グラフの読み方 横軸が発現量 縦軸は各発現量(区間)の遺伝子数 ♦ 注目した遺伝子の発現量が遺伝子全体 の中でどのくらいの位置にあるか?
横軸:遺伝子発現量 データ区間: 0 ~ 階級幅: 100 横軸:遺伝子発現量 データ区間: 0 ~ 階級幅: 100 縦軸:頻度(遺伝子 数) 発現量の大きい順に 遺伝子数を表示 同じ階級の遺伝子は 同じような発現量
今回のデータセットでの平均 値 ★遺伝子全体での平均発現量: ★遺伝子ごとの平均発現量 ♦ 79 実験でどのくらい発現している遺伝 子か ♦ 平均値? 代表値?
さまざまな代表値があります ★平均値 ♦ 算術平均 ♦ 調和平均 ★中央値 ★最頻値
算術平均 分母を通分
調和平均 分子を通分
他の代表値 ★中央値 (「真ん中」) ♦ データを大きい順に並べたときの真ん 中 6.1, 5.8, 6.1 なら、中央値は …… 6.1 ★最頻値 (「一番多い」) ♦ 一番多く出てくる値 6.1, 5.8, 6.1 なら、最頻値は …… やっぱり 6.1
チェックポイント・ I 1. 次の用語を説明しなさい。 ♦ 算術平均 ♦ 調和平均 ♦ 中央値 ♦ 最頻値
ばらつき ★なぜばらつきを計算しないといけない のか? 発現量はほぼ同じだが、グラフの様子がずいぶ ん違う
ばらつきを計算する理由 ★平均値だけではデータ全体の様子が 分からない ★ばらつきを計算することで、データ が平均値の周りにどのくらい集まっ ているか分かる
ばらつきと代表値との関係 ★左右対称の山型 ♦ 「パラメトリック」といいま す ♦ この場合、平均値、中央値、 最頻値はほとんど変わりませ ん ★左右非対称 ♦ 「ノンパラメトリック」 ♦ 平均値、中央値、最頻値がか なり違う場合があります 正規分布 な ど
ばらつきを表す指標 全数調査:例えば選挙結 果 標本調査:例えば出口調 査 全数調査: N 標本調査: N - 1 全数調査: N 標本調査: N - 1 標本調査では、ばらつ きを大きく評価する
標本調査と全数調査 ★選挙で考えてみます ♦ 標本調査:出口調査 選挙の日の午前中に当落を予想する まれに、最終結果と違うことがある 全数調査よりサンプルが少なく、ばらつきが 大きい – ばらつきを大きめに評価する ♦ 全数調査:最終集計結果 最終的な投票結果で決定する ばらつきをそのまま評価する
実際に計算してみると …… 2 乗サイズ 平均と同じサイ ズ 平均に ま あ 対応するサイ ズ
チェックポイント・ II 2. ばらつきを表す指標は? 3. ばらつきと代表値との関係は?
平均値と標準偏差の関係 ★分布の意味 グラフの面積=データ 数 微分 ……
平均値と標準偏差の関係 平均値 標準偏差 σ :標準偏差 正規分布だとすると ……
標準偏差と偏差値 標準偏差 平均点: 60 点 テストごとの成 績を比較するた め
2σ のはなし 標準偏差 2 個分 2σ 全体の 95.4% 例えば、平均点: 60 点 標準偏差: 10 点 B さんの得点: 80 点以上 なら、 グラフの緑の部分の右に いることが分かる(上位 2.5% ) 危険率 5% で統計的に 「優秀」といえる 平均点: 60 点
3σ のはなし 2.5% 例えば、平均点: 60 点 標準偏差: 10 点 C 君の得点: 90 点以上な ら、 グラフの紫の部分の右に いることが分かる(上位 0.25% ) 危険率 0.5% で統計的に 「優秀」といえる 平均点: 60 点 標準偏差 3 個分 3σ 全体の 99.7%
チェックポイント・ I 4. 平均値と標準偏差との関係は?
標準偏差と標準誤差 ★どちらも「ばらつき」を表す指標です ★標準偏差 (SD) ♦ ばらつくことを表す ★標準誤差 (SE) ♦ ばらつかないことを表す
ばらつく! 標準偏差 注目する数 値
ばらつかない! 標準誤差
標準誤差 ★繰り返し実験がどの程度信頼できる か?
標準誤差を計算してみると …… ★繰り返し 3 回~ 10 回で比べてみる(累 積) 平均値の信頼度アップ平均値の信頼度アップ 平均値の信頼度アップ平均値の信頼度アップ
標準化 、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため 平均値もばらつきも単位も異なることがあ る ★標準化の計算 ♦ Z 化 これが最も代表的 ピアソン相関係数に繋がります ♦ 単位ベクトル化、というものもあります
Z化Z化
チェックポイント・ II 5. 標準偏差と標準誤差の使い分け は? 6. 代表的な標準化の計算は?
本日の実習 ★遺伝子の発現量ヒストグラムの作成 ♦ 遺伝子発現データをエクセルで開く。 ♦ 注目遺伝子の 79 実験でのヒストグラムを作 る。 ★分散・標準偏差の計算 ♦ 注目遺伝子の発現量について計算する。 ♦ 注目遺伝子と平均発現量の近い遺伝子の発 現量について計算し、ヒストグラムを作 る。
本日の課題 ★注目する遺伝子と平均発現量の近い遺 伝子の 2 つの遺伝子について、分散や標 準偏差の違いについて考察しなさい。 ★代表値、ばらつき、標準偏差、標準誤 差とに対する疑問点や印象を書いてく ださい。