生物統計学・第9回 類似性を調べる 相関係数、共分散 生物統計学・第9回 類似性を調べる 相関係数、共分散 2013年12月2日 生命環境科学域 応用生命科学類 尾形 善之
まず最初に…… 前回のレポート 分散分析を使う意味が分からない 判別分析を使う意味が分からない 分かった気はするが実際に使ってみないとなんともいえない
データセットのグループ分け 判別分析 分散分析~各種クラスタリング グループ分けの統計的有意性と実際のグループ分けを同時にできる 作業が煩雑、結果の解釈がやや難解 分散分析~各種クラスタリング 比較的簡便にグループ分けの統計的有意が説明でき、見た目に訴えてグループ分けできる ともかく二度手間
今日のキーワード 二乗和 もう少し言うと「二乗和のルート」
二乗和を利用する例(1) 分散 標準偏差 標準誤差 𝒙 𝟏 − 𝒙 𝟐 + 𝒙 𝟐 − 𝒙 𝟐 +⋯+ 𝒙 𝑵 − 𝒙 𝟐 𝑵−𝟏 𝒙 𝟏 − 𝒙 𝟐 + 𝒙 𝟐 − 𝒙 𝟐 +⋯+ 𝒙 𝑵 − 𝒙 𝟐 𝑵−𝟏 𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐 𝟕𝟗−𝟏 =𝟏𝟎𝟏𝟗𝟒𝟕 標準偏差 101947 =319.3 標準誤差 319.3 79 =35.9 2乗サイズ 平均と同じサイズ 平均にまあ対応するサイズ
二乗和を利用する例(2) 計算方法 使い道 ベクトル、覚えてますか? 𝑎 = 2, 3 𝑎 = 2 3 𝑥 1 の単位ベクトル値= 𝑥 1 𝑥 1 2 + 𝑥 2 2 +⋯+ 𝑥 79 2 発現量をベクトルの長さで割っています 使い道 データの分布が分からないときにも使える
類似性を調べる指標 相関係数 共分散 ピアソン スピアマン コサイン もっとも一般的 データが数値でないとき(順位) 数値が正のとき 単独で使うことはほとんどない
標準化、今日は紹介だけ なぜ標準化するのか? ふたつの標準化 異なるデータを比較するため Z化 単位ベクトル化 平均値もばらつきも単位も異なることがある ふたつの標準化 Z化 これが最も代表的 ピアソン相関係数に繋がります 単位ベクトル化 特殊だが便利、実は皆さん知っているはず…… コサイン相関係数に繋がります
Z化、今日は簡単に 計算方法 使い道 𝒁値= 発現量−平均値 標準偏差 データ全体が正規分布に近いとき なんだか偏差値に似ていますね 𝒁値= 発現量−平均値 標準偏差 なんだか偏差値に似ていますね 偏差値=50+ 10× 得点−平均点 標準偏差 使い道 データ全体が正規分布に近いとき 分布が偏っていると正確に評価できない
ピアソンの相関係数 正確には「ピアソンの積率相関係数」 でもZ化したデータを使うと…… 𝑟= 𝑥 1 − 𝑥 𝑦 1 − 𝑦 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 𝑛 − 𝑦 𝑥 1 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑦 1 − 𝑦 2 +⋯+ 𝑦 𝑛 − 𝑦 2 でもZ化したデータを使うと…… 𝑟= 𝑥 1 𝑦 1 +⋯ +𝑥 𝑛 𝑦 𝑛 𝑛 これでOK 平均値との差 標準偏差 すでに平均値との差を 標準偏差で割っている 平均値は0 標準偏差は1
もう少し詳しく式を書くと…… 標準偏差を含めて 相関係数= 𝑥と𝑦の共分散 𝑥の標準偏差×𝑦の標準偏差 𝑟= 𝑥 1 − 𝑥 𝑦 1 − 𝑦 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 𝑛 − 𝑦 𝑛 𝑥 1 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛 × 𝑦 1 − 𝑦 2 +⋯+ 𝑦 𝑛 − 𝑦 2 𝑛 𝑟= 𝑥 1 𝑦 1 +⋯ +𝑥 𝑛 𝑦 𝑛 𝑛 平均値は0 標準偏差は1
実際に計算してみると…… 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 𝑛 =0.825 𝒁値= 発現量−平均値 標準偏差 実験 At1g56650 At3g43660 Z値 1 308 27 1.96 1.74 2 77 18 -0.42 -0.17 3 69 20 -0.51 0.25 4 96 13 -0.23 -1.23 5 40 16 -0.81 -0.59 平均 118.0 18.8 𝑺𝑫 96.7 4.7 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 𝑛 =0.825 𝒁値= 発現量−平均値 標準偏差
エクセルで計算する =correl(A1:A5,B1:B5) これだけ A B 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 =correl(A1:A5,B1:B5) これだけ
チェックポイント・I ピアソンの相関係数を楽に計算するために使う標準化の方法は? 標準化したデータからのピアソンの相関係数の計算式は?
標準化、今日は紹介だけ なぜ標準化するのか? ふたつの標準化 異なるデータを比較するため Z化 単位ベクトル化 平均値もばらつきも単位も異なることがある ふたつの標準化 Z化 これが最も代表的 ピアソン相関係数に繋がります 単位ベクトル化 特殊だが便利、実は皆さん知っているはず…… コサイン相関係数に繋がります
単位ベクトル化、今日は簡単に 計算方法 使い道 ベクトル、覚えてますか? 𝑎 = 2, 3 𝑎 = 2 3 𝑥 1 の単位ベクトル値= 𝑥 1 𝑥 1 2 + 𝑥 2 2 +⋯+ 𝑥 79 2 発現量をベクトルの長さで割っています 使い道 データの分布が分からないときにも使える
コサイン相関係数 「内積」覚えていますか? 単位ベクトル化していたら…… 𝑎 = 3, 2 𝑏 = 2,4 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 =3×2+2×4=14 単位ベクトル化していたら…… 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 = cos 𝜃 2 𝜽 3 ベクトルの長さは1になっている
エクセルで計算する 単位ベクトル化 コサイン 一度に計算するなら C1セル C1をC1~D5にコピー =A1/SQRT(SUMSQ(A$1:A$5)) C1をC1~D5にコピー コサイン =SUMPRODUCT(C1:C5,D1:D5) 一度に計算するなら =SUMPRODUCT(A1:A5,B1:B5)/SQRT(SUMSQ(A1:A5))/SQRT(SUMSQ(B1:B5)) A B 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16
実際に計算してみると…… 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 =0.877 単位ベクトル= 発現量 二乗和 実験 At1g56650 308 27 0.90 0.62 2 77 18 0.26 0.42 3 69 20 0.20 0.46 4 96 13 0.28 0.30 5 40 16 0.12 0.37 平均 118.0 18.8 𝑺𝑫 96.7 4.7 単位ベクトル= 発現量 二乗和 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 =0.877
チェックポイント・II コサイン相関係数を楽に計算するために使う標準化の方法は? 標準化したデータからコサイン相関係数を求める原理は?
スピアマンの順位相関係数 使い道 データが数値でないとき データが順位のとき 計算式 𝜌=1−6 𝑥 𝑖 − 𝑦 𝑖 2 𝑛 𝑛 2 −1
実際に計算してみると…… 𝜌=1−6 𝑥 𝑖 − 𝑦 𝑖 2 𝑛 𝑛 2 −1 =1−6× 0+0+4+9+1 5×24 =0.30 実験 At1g56650 At3g43660 順位 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 𝜌=1−6 𝑥 𝑖 − 𝑦 𝑖 2 𝑛 𝑛 2 −1 =1−6× 0+0+4+9+1 5×24 =0.30 79実験で計算すると、0.20
ピアソン相関係数の検定!? 一般的には でもみんなを納得させるために…… 相関係数が0.6以上なら高い 0.8以上なら相当高い 𝑅表を使います でもあまり見かけません…… 相関係数を検定統計量として、𝑅表から有意確率(危険率)を得ます(他の検定と同じです)
𝑹表が見つからないときは 実は𝒕分布表を利用できます 𝑡= 𝑟 𝑛−2 1− 𝑟 2 𝑛は実験数 𝑡分布表で自由度𝑛−2で𝑝値を得る
試しに先ほどの結果を検定 実験数:5 相関係数:0.825 有意は出ませんでした…… 実は79実験のデータでは、相関係数は -0.063でした 実験数 0.05 0.01 5 0.878 0.959
スピアマンの相関係数の検定 こちらも𝒕分布表が利用できます 𝑡= 𝜌 1− 𝜌 2 𝑛−2 𝑛は実験数 𝑡分布表で自由度𝑛−2で𝑝値を得る
今日の自習のポイント 相関係数の作業はエクセルでできます! 「corr131202.xlsx」をダウンロード
次回までの予習 次回は「回帰分析・相関解析」です 実はほとんど相関係数と同じです 教科書 回帰分析、重回帰分析 自己相関、交差相関、時系列分析
本日の課題 ふたつの遺伝子の3実験での発現データに関して以下の問いに答えなさい。 A B 1 35 31 2 26 27 3 41 8 平均 34 22 SD 6 10 長さ 60 42 相関係数の種類と使い分けを書き、今回のデータではどれが良いか答えなさい。 実際に3種類の相関係数(ピアソン、コサイン、スピアマン)を計算しなさい。ただし、小数第一位で計算しなさい。 今回の講義の疑問点を書いてください。