Download presentation
Presentation is loading. Please wait.
1
生物統計学・第9回 類似性を調べる 相関係数、共分散
生物統計学・第9回 類似性を調べる 相関係数、共分散 2013年12月2日 生命環境科学域 応用生命科学類 尾形 善之
2
まず最初に…… 前回のレポート 分散分析を使う意味が分からない 判別分析を使う意味が分からない
分かった気はするが実際に使ってみないとなんともいえない
3
データセットのグループ分け 判別分析 分散分析~各種クラスタリング グループ分けの統計的有意性と実際のグループ分けを同時にできる
作業が煩雑、結果の解釈がやや難解 分散分析~各種クラスタリング 比較的簡便にグループ分けの統計的有意が説明でき、見た目に訴えてグループ分けできる ともかく二度手間
4
今日のキーワード 二乗和 もう少し言うと「二乗和のルート」
5
二乗和を利用する例(1) 分散 標準偏差 標準誤差 𝒙 𝟏 − 𝒙 𝟐 + 𝒙 𝟐 − 𝒙 𝟐 +⋯+ 𝒙 𝑵 − 𝒙 𝟐 𝑵−𝟏
𝒙 𝟏 − 𝒙 𝟐 + 𝒙 𝟐 − 𝒙 𝟐 +⋯+ 𝒙 𝑵 − 𝒙 𝟐 𝑵−𝟏 𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐 𝟕𝟗−𝟏 =𝟏𝟎𝟏𝟗𝟒𝟕 標準偏差 =319.3 標準誤差 =35.9 2乗サイズ 平均と同じサイズ 平均にまあ対応するサイズ
6
二乗和を利用する例(2) 計算方法 使い道 ベクトル、覚えてますか?
𝑎 = 2, 3 𝑎 = 2 3 𝑥 1 の単位ベクトル値= 𝑥 𝑥 𝑥 ⋯+ 𝑥 79 2 発現量をベクトルの長さで割っています 使い道 データの分布が分からないときにも使える
7
類似性を調べる指標 相関係数 共分散 ピアソン スピアマン コサイン もっとも一般的 データが数値でないとき(順位) 数値が正のとき
単独で使うことはほとんどない
8
標準化、今日は紹介だけ なぜ標準化するのか? ふたつの標準化 異なるデータを比較するため Z化 単位ベクトル化
平均値もばらつきも単位も異なることがある ふたつの標準化 Z化 これが最も代表的 ピアソン相関係数に繋がります 単位ベクトル化 特殊だが便利、実は皆さん知っているはず…… コサイン相関係数に繋がります
9
Z化、今日は簡単に 計算方法 使い道 𝒁値= 発現量−平均値 標準偏差 データ全体が正規分布に近いとき なんだか偏差値に似ていますね
𝒁値= 発現量−平均値 標準偏差 なんだか偏差値に似ていますね 偏差値=50+ 10× 得点−平均点 標準偏差 使い道 データ全体が正規分布に近いとき 分布が偏っていると正確に評価できない
10
ピアソンの相関係数 正確には「ピアソンの積率相関係数」 でもZ化したデータを使うと……
𝑟= 𝑥 1 − 𝑥 𝑦 1 − 𝑦 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 𝑛 − 𝑦 𝑥 1 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 1 − 𝑦 2 +⋯+ 𝑦 𝑛 − 𝑦 2 でもZ化したデータを使うと…… 𝑟= 𝑥 1 𝑦 1 +⋯ +𝑥 𝑛 𝑦 𝑛 𝑛 これでOK 平均値との差 標準偏差 すでに平均値との差を 標準偏差で割っている 平均値は0 標準偏差は1
11
もう少し詳しく式を書くと…… 標準偏差を含めて 相関係数= 𝑥と𝑦の共分散 𝑥の標準偏差×𝑦の標準偏差
𝑟= 𝑥 1 − 𝑥 𝑦 1 − 𝑦 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 𝑛 − 𝑦 𝑛 𝑥 1 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 𝑛 × 𝑦 1 − 𝑦 2 +⋯+ 𝑦 𝑛 − 𝑦 𝑛 𝑟= 𝑥 1 𝑦 1 +⋯ +𝑥 𝑛 𝑦 𝑛 𝑛 平均値は0 標準偏差は1
12
実際に計算してみると…… 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 𝑛 =0.825 𝒁値= 発現量−平均値 標準偏差 実験
At1g56650 At3g43660 Z値 1 308 27 1.96 1.74 2 77 18 -0.42 -0.17 3 69 20 -0.51 0.25 4 96 13 -0.23 -1.23 5 40 16 -0.81 -0.59 平均 118.0 18.8 𝑺𝑫 96.7 4.7 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 𝑛 =0.825 𝒁値= 発現量−平均値 標準偏差
13
エクセルで計算する =correl(A1:A5,B1:B5) これだけ A B 1 308 27 2 77 18 3 69 20 4 96
13 5 40 16 =correl(A1:A5,B1:B5) これだけ
14
チェックポイント・I ピアソンの相関係数を楽に計算するために使う標準化の方法は? 標準化したデータからのピアソンの相関係数の計算式は?
15
標準化、今日は紹介だけ なぜ標準化するのか? ふたつの標準化 異なるデータを比較するため Z化 単位ベクトル化
平均値もばらつきも単位も異なることがある ふたつの標準化 Z化 これが最も代表的 ピアソン相関係数に繋がります 単位ベクトル化 特殊だが便利、実は皆さん知っているはず…… コサイン相関係数に繋がります
16
単位ベクトル化、今日は簡単に 計算方法 使い道 ベクトル、覚えてますか?
𝑎 = 2, 3 𝑎 = 2 3 𝑥 1 の単位ベクトル値= 𝑥 𝑥 𝑥 ⋯+ 𝑥 79 2 発現量をベクトルの長さで割っています 使い道 データの分布が分からないときにも使える
17
コサイン相関係数 「内積」覚えていますか? 単位ベクトル化していたら…… 𝑎 = 3, 2 𝑏 = 2,4
𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 =3×2+2×4=14 単位ベクトル化していたら…… 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 = cos 𝜃 2 𝜽 3 ベクトルの長さは1になっている
18
エクセルで計算する 単位ベクトル化 コサイン 一度に計算するなら C1セル C1をC1~D5にコピー
=A1/SQRT(SUMSQ(A$1:A$5)) C1をC1~D5にコピー コサイン =SUMPRODUCT(C1:C5,D1:D5) 一度に計算するなら =SUMPRODUCT(A1:A5,B1:B5)/SQRT(SUMSQ(A1:A5))/SQRT(SUMSQ(B1:B5)) A B 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16
19
実際に計算してみると…… 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 =0.877 単位ベクトル= 発現量 二乗和 実験 At1g56650
308 27 0.90 0.62 2 77 18 0.26 0.42 3 69 20 0.20 0.46 4 96 13 0.28 0.30 5 40 16 0.12 0.37 平均 118.0 18.8 𝑺𝑫 96.7 4.7 単位ベクトル= 発現量 二乗和 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 =0.877
20
チェックポイント・II コサイン相関係数を楽に計算するために使う標準化の方法は? 標準化したデータからコサイン相関係数を求める原理は?
21
スピアマンの順位相関係数 使い道 データが数値でないとき データが順位のとき 計算式 𝜌=1− 𝑥 𝑖 − 𝑦 𝑖 𝑛 𝑛 2 −1
22
実際に計算してみると…… 𝜌=1−6 𝑥 𝑖 − 𝑦 𝑖 2 𝑛 𝑛 2 −1 =1−6× 0+0+4+9+1 5×24 =0.30
実験 At1g56650 At3g43660 順位 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 𝜌=1− 𝑥 𝑖 − 𝑦 𝑖 𝑛 𝑛 2 −1 =1−6× ×24 =0.30 79実験で計算すると、0.20
23
ピアソン相関係数の検定!? 一般的には でもみんなを納得させるために…… 相関係数が0.6以上なら高い 0.8以上なら相当高い
𝑅表を使います でもあまり見かけません…… 相関係数を検定統計量として、𝑅表から有意確率(危険率)を得ます(他の検定と同じです)
24
𝑹表が見つからないときは 実は𝒕分布表を利用できます 𝑡= 𝑟 𝑛−2 1− 𝑟 2 𝑛は実験数 𝑡分布表で自由度𝑛−2で𝑝値を得る
25
試しに先ほどの結果を検定 実験数:5 相関係数:0.825 有意は出ませんでした……
実は79実験のデータでは、相関係数は -0.063でした 実験数 0.05 0.01 5 0.878 0.959
26
スピアマンの相関係数の検定 こちらも𝒕分布表が利用できます 𝑡= 𝜌 1− 𝜌 2 𝑛−2 𝑛は実験数 𝑡分布表で自由度𝑛−2で𝑝値を得る
27
今日の自習のポイント 相関係数の作業はエクセルでできます! 「corr xlsx」をダウンロード
28
次回までの予習 次回は「回帰分析・相関解析」です 実はほとんど相関係数と同じです 教科書 回帰分析、重回帰分析
自己相関、交差相関、時系列分析
29
本日の課題 ふたつの遺伝子の3実験での発現データに関して以下の問いに答えなさい。
A B 1 35 31 2 26 27 3 41 8 平均 34 22 SD 6 10 長さ 60 42 相関係数の種類と使い分けを書き、今回のデータではどれが良いか答えなさい。 実際に3種類の相関係数(ピアソン、コサイン、スピアマン)を計算しなさい。ただし、小数第一位で計算しなさい。 今回の講義の疑問点を書いてください。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.