生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之
まず最初に円グラフ ……
先週のレポートから ★多かった意見 ♦ 主成分がまだ理解できない ♦ 負荷量がまだ分からない ♦ 得点と負荷量の関係が分からない ♦ 実際の解析例を見たい ♦ クラスター分析の使い分けが難しい ♦ 階層クラスターとヒートマップが見やすい ♦ クラスター分析の見方が分からない
負荷量: 実験条件のための指標 ★各成分 ♦ 絶対値が大きい 実験条件に注目 目盛は目安です ♦ 第 1 主成分 すべての実験条 件が「負」 – 注目遺伝子は 「正」 ○ に対応する実験 群は ? 成熟している組 織
得点: 遺伝子のための指標 ★ランダムとの比較 ♦ データに特徴があるかを確認 ★注目遺伝子 ♦ 主成分ごとに位置を確認 (今回は正) 目盛りはあくま で目安です At1g56650 得点=遺伝子の発現量(平均との差) × 各実験の負荷 量
今日のキーワード:分散 平均 ばらつ き
今日は「ばらつき」の話をし ます ★なぜばらつきを計算しないといけない のか?
ばらつきを計算する理由 ★平均値だけではデータ全体の様子が 分からない ★ばらつきを計算することで、データ が平均値の周りにどのくらいあるか 分かる
標準偏差と標準誤差 ★どちらも「ばらつき」を表す指標で す ★標準偏差 (SD) ♦ ばらつくことを表す ★標準誤差 (SE) ♦ ばらつかないことを表す
ばらつく! 標準偏差 ★右図は左図に比べてばらつきが大きい 比べるのが大 変
ばらつかない! 標準誤差 ★繰り返し実験がどの程度信頼できる か?
標本調査: N - 1 全数調査: N 標本調査: N - 1 全数調査: N 教科書から 標本調査とは … 例えば出口調査 全数調査とは … 例えば選挙結果 標本調査は、ばらつきが大きい
なんで 3 つも指標があるのか ★分散 ♦2 乗和で平均値からのずれを調べる ♦ 平均値との対応がもうひとつ( 2 乗サイズ) ★標準偏差 ♦2 乗和のルートを計算している ♦ 平均と対応できる(同サイズ) ★標準誤差 ♦ 標本数が増えると小さくなる ♦ 信頼が増す(いちおう同サイズ)
実際に計算してみると …… 2 乗サイズ 平均と同じサイ ズ 平均に ま あ 対応するサイ ズ
チェックポイント・ I 1. なぜばらつきを計算するのか? 2. ばらつきを表す 3 つの指標の使い分 け? 3. ばらつきを表す 3 つの指標の計算方 法?
標準偏差を使うとき ★ばらつきを見たいとき ♦ 平均値との対応 ★検定したいとき ♦ 正規分布や t 分布の利用
標準偏差と偏差値
標準偏差と平均値 平均値 標準偏差 2σ 95.4% 5% 危険率 3σ 99.7% 0.5% 危険率
チェックポイント・ II 4. 標準偏差と偏差値の関係? 5. 平均値と標準偏差を組み合わせた 便利な評価方法?
統計解析に入る前に・ 2 ★標準化は可能か ♦ 統計解析するためには「標準化」が必要 ♦ 計算尺 (「風立ちぬ」を見ましたか ? ) ♦ 単位を揃える
標準化 、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため 平均値もばらつきも単位も異なることがある ★ふたつの標準化 ♦Z 化 これが最も代表的 ピアソン相関係数に繋がります ♦ 単位ベクトル化 特殊だが便利、実は皆さん知っているはず …… コサイン相関係数に繋がります
Z 化 、今日は簡単に
単位ベクトル化 、今日は簡単に
標準化と主成分分析 ★標準化をすることで、主成分分析に 変化が起こる! ♦ 良い変化になるか、よくない変化になるか ♦ 次回、説明します
チェックポイント・ III 6. ふたつの代表的な標準化とは? 7. 代表的な標準化の計算方法は?
今日の自習のポイント
次回までの予習 ★次回は「 t 検定、 U 検定」です ♦ 教科書 検定、 t 検定、帰無仮説 ウィルコクスンの順位和検定 マン・ホイットニーの検定 正規性、正規性の検定、正規確率紙 ♦ インターネット U 検定 「 t 検定」の名前の由来を調べてみてください
本日の課題 ★ある遺伝子の発現データに関して 1. 左右に対称な分布(パラメトリッ ク)の時の標準化について、「平 均」と「標準偏差」を用いて答えな さい。 2. データの標準化についての印象や疑 問点を書いてください。