Download presentation
Presentation is loading. Please wait.
1
生物統計学・第13回 類似性を調べる 相関係数(ピアソン、スピアマン)
生物統計学・第13回 類似性を調べる 相関係数(ピアソン、スピアマン) 2015年1月13日 生命環境科学域 応用生命科学類 尾形 善之
2
今日の流れ 講義 カイ二乗検定 相関係数 実習 エクセルを使ったカイ二乗検定 エクセルを使った相関係数
3
カイ二乗検定 次回詳しく…… 独立性の検定 適合度の検定 比の検定
4
カイ二乗検定 𝒇分布とカイ二乗分布
5
独立性の検定 ふたつのデータに違いがあることを検定 A B 合計 1 308 27 335 2 77 18 95 3 69 20 89 4
96 13 109 5 40 16 56 590 94 684
6
独立性の検定 帰無仮説 仮説(対立仮説) ふたつの遺伝子の発現には違いがない ふたつの遺伝子の発現には違いがある A B 合計 1 308
27 335 2 77 18 95 3 69 20 89 4 96 13 109 5 40 16 56 590 94 684
7
エクセルでの独立性の検定・1 期待値を計算する A B C(合計) D(A’) E(B’) 1 308 27 335 46.0 2 77
= 𝟑𝟑𝟓×𝟓𝟗𝟎 𝟔𝟖𝟒 46.0 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 13 109 94.0 15.0 5 40 16 56 48.3 7.7 合計 590 94 684
8
エクセルでの独立性の検定・2 A列とD列から𝒑値を計算する =CHITEST(A1:A5,D1,D5)
𝑝=0.433となり、帰無仮説は棄却できない 両遺伝子の発現量に違いがあるとはいえない A B C(合計) D(A’) E(B’) 1 308 27 335 = 𝟑𝟑𝟓×𝟓𝟗𝟎 𝟔𝟖𝟒 46.0 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 13 109 94.0 15.0 5 40 16 56 48.3 7.7 合計 590 94 684
9
こんなデータだったら…… 期待値を計算する A B C(合計) D(A’) E(B’) 1 308 13 321 276.9 44.1 2
77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 16 112 96.6 15.4 5 40 27 67 57.8 9.2 合計 590 94 684
10
エクセルでの独立性の検定 A列とD列から𝒑値を計算する =CHITEST(A1:A5,D1,D5)
𝑝=0.039となり、帰無仮説は棄却される 両遺伝子の発現量に違いがあるといえる A B C(合計) D(A’) E(B’) 1 308 13 321 276.9 44.1 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 16 112 96.6 15.4 5 40 27 67 57.8 9.2 合計 590 94 684
11
チェックポイント・I カイ二乗検定とは? 独立性の検定の手順を書きなさい。
12
類似性を調べる指標 相関係数 共分散 ピアソン スピアマン コサイン もっとも一般的(パラメトリックのとき)
データが数値でないとき(順位など) コサイン 数値が正のとき 共分散 単独で使うことはほとんどない
13
標準化、今日は紹介だけ なぜ標準化するのか? 標準化の計算 異なるデータを比較するため Z化 単位ベクトル化、というものもあります
平均値もばらつきも単位も異なることがある 標準化の計算 Z化 これが最も代表的 ピアソン相関係数に繋がります 単位ベクトル化、というものもあります
14
Z化、今日は簡単に 計算方法 使い道 正規分布 𝒁値= 発現量−平均値 標準偏差 データ全体がパラメトリックのとき
𝒁値= 発現量−平均値 標準偏差 なんだか偏差値に似ていますね 偏差値=50+ 10× 得点−平均点 標準偏差 使い道 データ全体がパラメトリックのとき ノンパラメトリックだと正確に評価できない 正規分布
15
ピアソンの相関係数 正確には「ピアソンの積率相関係数」 でもZ化したデータを使うと……
𝑟= 𝑥 1 − 𝑥 𝑦 1 − 𝑦 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 𝑛 − 𝑦 𝑥 1 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 1 − 𝑦 2 +⋯+ 𝑦 𝑛 − 𝑦 2 でもZ化したデータを使うと…… 𝑟= 𝑥 1 𝑦 1 +⋯ +𝑥 𝑛 𝑦 𝑛 𝑛 これでOK 平均値との差 標準偏差 すでに平均値との差を 標準偏差で割っている 平均値は0 標準偏差は1
16
もう少し詳しく式を書くと…… 標準偏差を含めて 相関係数= 𝑥と𝑦の共分散 𝑥の標準偏差×𝑦の標準偏差
𝑟= 𝑥 1 − 𝑥 𝑦 1 − 𝑦 +⋯+ 𝑥 𝑛 − 𝑥 𝑦 𝑛 − 𝑦 𝑛 𝑥 1 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 𝑛 × 𝑦 1 − 𝑦 2 +⋯+ 𝑦 𝑛 − 𝑦 𝑛 𝑟= 𝑥 1 𝑦 1 +⋯ +𝑥 𝑛 𝑦 𝑛 𝑛 平均値は0 標準偏差は1
17
実際に計算してみると…… 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 𝑛 =0.825 𝒁値= 発現量−平均値 標準偏差 実験
At1g56650 At3g43660 Z値 1 308 27 1.96 1.74 2 77 18 -0.42 -0.17 3 69 20 -0.51 0.25 4 96 13 -0.23 -1.23 5 40 16 -0.81 -0.59 平均 118.0 18.8 𝑺𝑫 96.7 4.7 𝑟= 𝑥 1 𝑦 1 +⋯ 𝑥 𝑛 𝑦 𝑛 𝑛 =0.825 𝒁値= 発現量−平均値 標準偏差
18
エクセルで計算する =correl(A1:A5,B1:B5) これだけ 「pearson」関数も同様 A B 1 308 27 2 77
18 3 69 20 4 96 13 5 40 16 =correl(A1:A5,B1:B5) これだけ 「pearson」関数も同様
19
相関係数の目安 大体の目安 実は検定もできます 0.8以上:かなり相関が高い 0.6以上:相関がある 一般的には、𝑅表を使います
エクセルで𝑝値を計算できます
20
相関係数の検定・1 𝒕検定を利用します まずは𝑡値の計算 次に𝑝値の計算 𝒕= 𝒓 × 𝒏−𝟐 𝟏− 𝒓 𝟐 エクセルでは、
𝒕= 𝒓 × 𝒏−𝟐 𝟏− 𝒓 𝟐 エクセルでは、 相関係数がA1セル、要素数が79とすると、 =A1*SQRT(79-2)/SQRT(1-A1^2) 次に𝑝値の計算 𝑡値がA2セルとすると、 =TDIST(A2,77,2) 自由度:77、両側検定
21
相関係数の検定・2 𝒓表を使います データ数と有意水準を使います 得られた相関係数が表の数値よりも高ければ、有意となる
22
スピアマンの順位相関係数 使い道 データが数値でないとき データが順位のとき 計算式 𝜌=1− 𝑥 𝑖 − 𝑦 𝑖 𝑛 𝑛 2 −1
23
実際に計算してみると…… 𝜌=1−6 𝑥 𝑖 − 𝑦 𝑖 2 𝑛 𝑛 2 −1 =1−6× 0+0+4+9+1 5×24 =0.30
実験 At1g56650 At3g43660 順位 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 𝜌=1− 𝑥 𝑖 − 𝑦 𝑖 𝑛 𝑛 2 −1 =1−6× ×24 =0.30 79実験で計算すると、0.20
24
エクセルで計算する場合 順位を計算 順位データでピアソン相関係数を計算 =rank(A1,A1:A5) =correl(C1:D5) A B
308 27 2 77 18 3 69 20 4 96 13 5 40 16
25
チェックポイント・II ピアソン相関係数の計算手順は? ピアソン相関係数の検定手順は? スピアマン相関係数の計算手順は?
26
次回の予告 注目遺伝子を決めておいてください。 期末試験に使います。 カメラが入ります。 テレビカメラではありません。
27
本日の実習と課題 注目遺伝子のその隣の遺伝子について はじめから6実験分の発現データを取り出し、カイ二乗検定を行って、考察しなさい。
237実験すべてを使って、ピアソン相関係数を計算し、検定したうえで、考察しなさい。 237実験すべてを使って、スピアマン相関係数を計算し、ピアソン相関係数と比較しなさい。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.