相関係数 植物生態学研究室木村 一也
相関係数 相関係数とは、二つの確率変数の間の相関(類似性の度合い)を示す統計学的指標である。 計算によって求めるころができ、原則として単位は無く、-1 から 1 の間の実数値をとる。
r≦|0.2| ほとんど相関なし |0.2|<r≦|0.4| 弱い相関あり |0.4|<r≦|0.7| 中程度の相関あり -1.0 -0.7 -0.4 -0.2 0.0 0.2 0.4 0.7 1.0
→Pearsonの相関係数 →Spearmanの相関係数 (順位相関係数) また、この二つの確率変数が正規分布しているか、していないかで、算出の方法が異なる。 正規分布している →Pearsonの相関係数 正規分布していない(ノンパラメトリック) →Spearmanの相関係数 (順位相関係数)
√ ∑(xi-x)(yi-y) r = ∑(xi-x) ∑(yi-y) Pearsonの相関係数 2 2 ・ はそれぞれの平均を表す。 確率変数と、それぞれの平均との差をだして、二つをかけあわせた ・ はそれぞれの平均を表す。 ・ 分子・分母を表本数Nで割ると、それぞれ、共分散・標 準偏差を表す。
Spearmanの相関係数 6 1- ∑ (xi-yi) n(n -1) n 2 2 i=1 6 n(n -1) n 1- ∑ (xi-yi) 2 2 i=1 確率変数が順位に変わっただけで、Pearsonの相関係数の式の変形から求めることが出来る。 また、正規分布しないため、順位から求める。
例① ・ 身長と体重に相関はあるか。 身長・体重は正規分布しているので、Pearsonの相関係数の計算を用いる。 ・ 身長と体重に相関はあるか。 a b c d e f g h i j k l 身長 166 176 174 171 180 162 165 167 168 179 体重 56 62 68 59 72 52 55 58 75 74 身長・体重は正規分布しているので、Pearsonの相関係数の計算を用いる。 初めに、Rを用いて散布図を描く。
√ ∑(xi-x)(yi-y) r = ∑(xi-x)2 ∑(yi-y)2 の式で計算してみる。 散布図を見ると身長と体重は相関があることが予測される。 実際に N ∑(xi-x)(yi-y) r = i=1 √ N N ∑(xi-x)2 ∑(yi-y)2 の式で計算してみる。 i=1 i=1
身長の標準偏差‥18.59211 体重の標準偏差‥25.74231 共分散‥392.33 392.33 ÷(18.59211×25.74231) = 0.8197452 身長と体重は強い相関があるという 結果となった。
Rを用いても同じ数値となり、身長と体重が強い相関があることが言える。 それぞれのデータ(身長(a)と体重(b))を打ち込んだ後に、 cor.test(a,b)で値を出すことが出来る。 Pearson's product-moment correlation data: a and b t = 4.5262, df = 10, p-value = 0.001098 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.4642528 0.9477669 sample estimates: cor 0.8197452 Rを用いても同じ数値となり、身長と体重が強い相関があることが言える。
例② 高度差と気圧(hPa)の関係を調べる。 これは正規分布していないので、Spearmanの相関係数を用いる。 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 気圧(hPa) 1013 899 795 701 616 540 472 411 356 307 264 これは正規分布していないので、Spearmanの相関係数を用いる。 先ほどと同様、初めにRを用いて散布図を作成する。
6 1- ∑ (xi-yi) n(n -1) nに11を代入して計算すると、-1と値が出た。 (xi-yi)2 散布図より、相関があることが予想できる。 6 n(n -1) n 1- ∑ (xi-yi) 2 2 i=1 上の式で求めるために、高度・気圧それぞれの順位を決め、差の二乗を求める。 高度順位 11 10 9 8 7 6 5 4 3 2 1 気圧順位 (xi-yi)2 100 64 36 16 以上より、差の二乗の和は440と求めることが出来る。 nに11を代入して計算すると、-1と値が出た。
次にRを利用して答えを出す。 それぞれのデータ(height,pressure)を打ち込んだ後に、 cor.test(height,pressure,method=“spearman”)で値を出し事が出来る。 Spearman's rank correlation rho data: height and pressure S = 440, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho -1 Rでも-1という値が出た。これはとてつもなく相関が強いことが言える。 実際に高度と気圧は比例するので、これは信頼性があると言っていいであろう。