コンピュータⅡJ (情報の分析と表現) 第7講 2009年11月11日 担当:岡田佳子
授業のスケジュール
第7講 「散布図と相関」
今日の授業内容 1.これまでの範囲との違い 2.散布図 3.共分散 4.相関係数 5.相関係数の解釈上の注意 5-1.相関係数の解釈に関するよくある質問 5-2.相関関係と因果関係 5-3.擬似相関 5-4.曲線関係
これまでの範囲との違い
これまでの範囲との違い これまでは、1変数の統計量が問題だった 今日からは,2変数の関係の強さの統計量 代表値(平均値、中央値、最頻値) 散布度(分散、SD、範囲など) 標準化(標準得点,偏差値) 今日からは,2変数の関係の強さの統計量 ー2つの量的変数の間の関係(散布図・相関) ー2つの質的変数の間の関係(クロス集計・連関) ⇒今日は「散布図・相関」をやります
2変数の関係の強さって? 例えば、英語が出来る人は、国語も出来るか? 英語の成績と数学の成績は関係あるのか? 身近な例では・・・ 身近な例では・・・ 一般に身長が高い人は体重が重い 身長が低い人は体重も軽い 体長の大きいハムスターは体重が重い 体長の小さいハムスターは体重も軽い
2.散布図
2変数の関係を図で表してみましょう このような図を散布図という 体長 体重 8.0 9.0 10.0 11.0 40 50 60 70 8 3 5 2 1 4 6
正の相関関係・負の相関関係 正の相関関係 体長 体重 8.0 9.0 10.0 11.0 40 50 60 70 このように一方の値が大きいほど、もう一方の値が大きい傾向があるとき、2つの変数の間に正の相関関係があるという(点の配置が右上がり) 逆に、一方の値が大きいほど、もう一方の値が小さい傾向にあるとき、2つの変数の間に負の相関関係があるという(点の配置が右下がり) 8 7 3 5 2 1 4 6
3.共分散
さて・・・ このような2変数の関係をなんとか1つの数値で表現したい。 正の相関関係があるときは、正(プラス)の値をとり、負の相関関係があるときは、負(マイナス)の値をとるものが便利
もう少しデータ数を増やして考えてみましょう 身長と体重の関係を図に表してみる
散布図(scatter plot) 身長と体重の散布図 平均身長170cm 身長のSD=5.0 平均体重60kg 体重のSD=5.0
身長と体重の散布図(2) 平均身長より高い人 平均身長より低い人 平均体重より重い人 平均体重より軽い人
身長と体重の散布図(3) 平均身長より高くて平均体重より重い人 平均身長より高くて平均体重より軽い人 平均身長より低くて平均体重より重い人 平均身長より低くて平均体重より軽い人 低&重 高&重 低&軽 高&軽
身長と体重の散布図(3) 「高&重」グループと「低&軽」グループに人が多い 「高&軽」グループと「低&重」グループに人が少ない 体重と身長の間には,「高い(低い)人は重い(軽い)」という関係がある ⇒正の相関関係 低&重 高&重 低&軽 高&軽
ここで、 各データと平均の差に注目してみます 身長を変数x、体重を変数yとする に着目してみる
両方とも は正 「高&重」と「低&軽」グループ も も正 したがって は正 も も負 低&重 高&重 高&重 低&軽 低&軽 高&軽 も も正 したがって は正 も も負 両方とも は正 プラス×プラスはプラス 低&重 高&重 高&重 低&軽 低&軽 マイナス×マイナスはプラス 高&軽
両方とも は負 「高&軽」と「低&重」グループ は正 は負 したがって 低&重 低&重 高&重 高&重 低&軽 低&軽 高&軽 高&軽 プラス×マイナスはマイナス 両方とも は負 低&重 低&重 高&重 高&重 マイナス×プラス はマイナス 低&軽 低&軽 高&軽 高&軽
共分散(covariance) 変数xの偏差とyの偏差の積の平均
共分散が正 つまり 「2つの変数ともに平均以上」および「2つの変数ともに平均以下の人」が多いとき が 正である人が多い つまり全体として が正になる 共分散が正
共分散が負 逆に言えば 「2つの変数の一方が平均以上」で「もう一方が平均以下」の人が多いとき が 負である人が多い つまり全体として が負になる 共分散が負
ただ・・・ 共分散によって、2変数の間に正の関係があるか負の関係があるか、はわかるが、その強さがどれくらいか、100とか言われてもピンとこない。 ⇒そこで「相関係数」
4.相関係数
相関係数(correlation) 正確にはピアソンの積率相関係数 (Peason’s product moment correlation coefficient) 共分散を変数xのSDと変数yのSDで除したもの
相関係数は・・・ 最も大きいとき1 最も小さいとき-1 つまり,-1≦r≦ 1の範囲の値をとる. 2つの変数の関係の強さを理解しやすい
散布図と相関係数の対応関係(例) 相関-0.1 相関-0.4 相関-0.2 相関-0.5 相関-0.3 相関-0.7 相関-1.0 相関-0.9 相関-0.8 相関-0.6 相関0.0 相関0.6 相関0.7 相関0.8 相関0.9 相関0.5 相関0.4 相関0.1 相関0.2 相関0.3 相関1.0
r=1.0 r=0.7 r=0.4 r=0.1 r=0.9 r=0.6 r=0.3 r=0.0 r=-0.8 r=0.8 r=0.5 r=0.2
散布図と相関係数の対応関係 散布図を見ると・・・ 相関係数の大きいところでは変化が大きい 相関係数の小さいところではあまり変化がない なぜか?の説明は後ほど。
5.相関係数の解釈上の注意
5-1.相関係数の解釈に関するよくある質問
卒論等に必要な、実用的な話 数学的な話より、実用的な話をしましょう 卒論等で相関係数に関して最も多い質問 「相関係数0.6は相関0.3の2倍の強さの関係があるってことですよね?」 「有意になれば、関係があるって言っていいんですよね?」 「相関係数っていくつくらいだと大きいとか、関係が強いとかって言っていいんですか?」
「相関係数0.6は相関係数0.3のときの2倍の強さの関係があるってことですよね?」 いいえ違います!(散布図を見てみましょう) 解釈上重要なのは相関係数の2乗 相関係数の2乗は、一方の変数によって他方の変数の分散の何%説明できるかを示している。←これ重要 これより、相関係数の2乗は「分散説明率」とか「決定係数」とか言われる
相関係数0.3なんて意外とたいしたことないんだよね、実は。 つまり・・・ 例えば英語の得点と数学の得点の相関係数が0.3ということは・・・ 0.32=0.09なので、英語の得点が数学の得点(の分散)の9%を説明しているということ 相関係数0.3なんて意外とたいしたことないんだよね、実は。 英語 数学 9%
もう一度散布図と見比べてみましょう。→納得? 具体的にみてみましょう 国語の得点が数学の得点(の分散)を説明する割合は・・・相関係数が、 0.1なら→0.12=0.01つまり1% 0.2なら→0.22=0.04つまり4% 0.3なら→0.32=0.09つまり9% 0.4なら→0.42=0.16つまり16% 0.5なら→0.52=0.25つまり25% 0.6なら→0.62=0.36つまり36% 0.7なら→0.72=0.49つまり49% 0.8なら→0.82=0.64つまり64% 0.9なら→0.92=0.81つまり81% 1.0なら→1.02=1.00つまり100% 変化が小さい 2倍ではない 変化が大きい もう一度散布図と見比べてみましょう。→納得?
相関係数が1.0のとき⇒100%説明される 2変数の間に完全な正の直線関係が成立している. このとき,一方の値が分かれば,もう一方の値も完全に決まる. Y=aX+b (a>0) 相関1.0
相関係数が0.0のとき⇒0%、全く説明されない 2変数の間に直線的な関係がない. このとき,特別に,XとYは「無相関」であるという. 相関0.0
「検定をして、有意になれば、関係があるって言っていいんですよね?」 いいえ微妙に違います 関係が全くないとは言い難いってこと 検定についての詳しい説明は来週以降 相関係数が有意とは、ごく簡単に言うと、相関が0とはいいがたいと言っているにすぎない(=母集団相関がゼロだとしたら得られにくいような値である) しかも、サンプルサイズ(データの数)が大きいと相関係数の値がかなり小さくても有意になる。
サンプルサイズと検定結果 20人のデータでは、相関係数が0.444より大きくないと5%水準で有意にならない 200人のデータでは、相関係数が0.139より大きければ5%水準で有意になる (r=0.139なんて2%も説明できてないのに!) 注意:人数が多いと小さな相関でも簡単に有意になってしまう!←これ忘れないでね ・・・なぜそうなるのか?は来週以降。
教訓 相関係数が「統計的に有意である」 というとこと 「実質的に意味のある相関である」 というとこは違う!! というとこと 「実質的に意味のある相関である」 というとこは違う!! 例)身長と成績の相関が仮に0.098であって、400人分のデータだとするとこの程度の相関でも検定の結果は有意になる(ゼロとは言い難いという意味)。 ⇒しかしr=0.098(r2=0.0096)は身長は成績の0.1%も説明していないということ。 ⇒相関が有意だからといって「身長が高いほど、成績がよい」とはいえない。実質的に意味のある相関ではない
「相関係数っていくつくらいだと大きいとか、関係が強いとかって言っていいんですか?」 よく本に書かれている基準 0~0.2(0~-0.2) ほとんど相関がない 0.2~0.4(-0.2~‐0.4) 弱い相関がある 0.4~0.7(-0.4~0.7) 中程度の相関がある 0.7~1.0(-0.7~1.0) 強い相関がある 注意!これは、あくまで一般的な基準 このまま鵜呑みにしてはいけない!
実際に解釈上重要なことは・・・ 自分の研究(データ)において、その相関がどういう意味をもつのか?という観点が大切 例えば相関係数0.3をどうとらえるか? 「ある薬を飲んだ量と、命に関わる副作用の関係」だとしたら ⇒どんな小さな相関でも、あったら困る。つまり、小さな相関でもこの場合では見逃せない。0.3は十分に大きい。 「あるダイエット食品と、体重の関係」だとしたら ⇒ある程度明白な効果がないと、効果があるとは言い難い。つまりかなり大きな相関がないと困る。効果があるというには、相関係数0.3は小さい。 研究の目的と切り離して、相関係数が大きいとか小さいとかは一概に言えない
5-2.相関関係と因果関係
相関係数の解釈:教訓1 相関関係は因果関係ではない ⇒相関関係があることを実証しても、それは因果関係の実証にはならない
例:攻撃的なメディアへの接触時間と攻撃行動との関係 攻撃的なメディアへの接触時間と攻撃的行動の相関係数を求めたらr=0.69(正の相関関係)であった。 これより、攻撃的なメディアへの接触時間の量が小学生の攻撃的行動に促進的な効果を及ぼすことが実証された。と解釈してよいか? NO! 因果関係は実証していない!
因果関係と相関関係の違い 1 攻撃的行動 メディア接触時間 因果関係 攻撃的行動 メディア接触時間 相関関係 原因 結果 因果関係と相関関係の違い 1 メディア接触時間 攻撃的行動 因果関係 原因 結果 メディア接触時間の量(原因)が⇒小学生の攻撃的行動(結果)に促進的な効果を及ぼす メディア接触時間 攻撃的行動 相関関係 メディア接触時間と攻撃的行動の間には関係はあるが、 どちらが原因でどちらが結果かはわからない。
相関関係と因果関係の違い 2 攻撃的行動 メディア接触時間 相関関係 メディア接触が原因で攻撃的行動が促進されたのか? 相関関係と因果関係の違い 2 メディア接触時間 攻撃的行動 相関関係 正の相関関係が得られたというだけでは、 メディア接触が原因で攻撃的行動が促進されたのか? 日常的に攻撃的な子が、好んで攻撃的なメディアに接触しているのか? までは、わからない。 メディア 攻撃 メディア 攻撃
×攻撃的なメディアへの接触が攻撃行動を促すことがわかった(×因果関係) 考察では相関関係にのみ触れる ○攻撃的なメディアへの接触時間が長い子は、攻撃的行動も多い傾向があることがわかった ○ (攻撃的行動が多い子は、攻撃的なメディアへの接触時間も長い傾向があることがわかった) ×攻撃的なメディアへの接触が攻撃行動を促すことがわかった(×因果関係) ×攻撃的なメディアへの接触が原因で、攻撃行動が助長されることがわかった(×因果関係)
もし因果関係を確かめたいなら・・・ 相関研究ではなく、実験的な研究を行うなどの工夫が必要。 例)子供を2群に分けて、 (実験開始当初は2群の子供の攻撃的行動の量には差が無い) 実験群:夏休みの間、攻撃的なメディアに接触させる 統制群:同じ期間、攻撃的でないメディアに接触させる 夏休み終了後、学校での攻撃的行動の観察を行い、実験群の子供の方が攻撃的行動が多く観察されれば、攻撃的なメディアへの接触が原因と考えることができる。 注:ただし、この実験は倫理的に許されないでしょう
5-3.擬似相関
考えてみましょう 下記の表は、小学校4年生から6年生までの児童の学年と身長と漢字テスト(4から6年生共通のもの)の得点の相関係数を求めたものです。 これより、「身長が高いほど、漢字テストの得点が高い」と言ってよいでしょうか?
身長が高いほど、漢字テストの得点が高い? いや、待てよ・・・そんなのおかしくない?どういうこと? 学年が上がると身長が高くなる(相関係数.87) 学年が上がると漢字テストの得点が高くなる(相関係数.95) 身長が高いほど漢字テストの得点が高い(相関係数.80)のは、学年が上がっているせいじゃないか?
擬似相関 本当は相関がない2つの変数に第3の影響する変数があるために、みかけだけの相関がある時、それを擬似相関と呼ぶ。 ⇒この場合、身長と漢字テストに関連性があるのではなく、学年(第3の変数)が身長にも漢字テストの結果にも影響しているため、身長と漢字テストの間にみかけだけの相関=擬似相関がみられた。
身長が高いほど漢字テストの成績がよい?? 図で考えてみよう 相関係数.80 身長 漢字テスト 身長が高いほど漢字テストの成績がよい??
図で考えてみよう 擬似相関の可能性 漢字テスト 身長 正の相関 正の相関 学年 第3の変数
擬似相関が疑われるときには・・・ (Excelでできる擬似相関の見破り方) 擬似相関を見破るには、Excelでできる方法としては、分割相関(層別相関)を求める方法があります。 ⇒学年ごとに別々に身長と漢字テストの相関を求める もし、層別に相関を求めて、相関関係が消失したばあいは、擬似相関だったと判断できます。
実例:学年ごとに散布図を求めてみる 全体で見ると正の相関関係があるようだが・・・ 学年ごとに見るとそれぞれの学年内では無相関
実例:学年ごとに相関を求めてみる 学年ごとに相関を求めると(分割相関)、学年内では無相関 全体で相関係数を求めると正の相関があるが・・・
分析の流れと結果の解釈 1、相関係数の計算 2.層別の散布図と分割相関の計算 身長と漢字テスト、学年と身長、学年と漢字テスト、の間にはそれぞれ有意な正の相関係数がみられた。 これより、学年が上がるほど、身長が高くなり、漢字テストの得点も高くなるといえる。しかし、身長と漢字テストの間の相関は、擬似相関である可能性が考えられる。 2.層別の散布図と分割相関の計算 層別の散布図を描き、学年ごとの分割相関を求めところ、学年ごとの相関係数は非常に小さな値になった(無相関)。 つまり、身長と漢字テストの間の高い正の相関は、学年が身長と漢字テストの双方に影響を及ぼすことによってみられた擬似相関であったと考えられる。
応用編の教訓2 相関関係の解釈の際は、第3の変数による擬似相関の可能性に注意 ※常に第3の変数を疑っていないと、気がつかないので注意が必要です。
5-4.曲線関係
例:授業内容の難易度と受講生の私語の程度の関係 20回の授業について、授業の難易度と私語の程度について調べた。結果は下表。 相関係数を算出した結果、r=0.09で両者の相関は非常に低いものであった。 これより、内容の難易度と私語の程度はあまり関係がない。と解釈してよいか? NO!
例題1 相関係数を計算することの問題点 授業内容の難易度と私語の程度という2つの変数の関係の強さを知りたいので、相関係数を算出すること自体に問題はない。 しかし、計算された相関係数には、私語の程度と授業内容の難易度の関係が十分に反映されていない。
この散布図からどのようなことが読み取れますか? 表1のデータを散布図にしてみると・・・ この散布図からどのようなことが読み取れますか?
散布図から読み取れること 内容が易しすぎる場合と難しすぎる場合に私語が多い 内容が中程度の難しさのときに最も私語が少ない このようなU字型の曲線関係も「授業の難易度」と「私語の程度」の関係を表す重要な情報 しかし!!
相関係数からわかること、わからないこと ◇確かに相関係数は2つの変数間の関係の強さをみる数的指標だが・・・ 相関係数が表現するのは 2つの変数間の直線的な関係の程度(数値の大きさ)と関係の方向(正か負か) 2つの変数間に曲線的な関係があっても相関係数の値にはそれが反映されない!!
相関係数からわかること、わからないこと 相関係数は曲線関係を反映しない 直線的な関係がない場合は、たとえ曲線的な関係があっても、関係が全くない場合と同様に、相関係数の値は小さくなってしまう。 相関係数のみで判断すると、両者の間に「関係がない」という誤解をしてしまう!
このような直線関係でないと、相関係数の値には反映されない。 正の相関関係がある場合の散布図 相関係数 r=0.9 このような直線関係でないと、相関係数の値には反映されない。
この場合は、2つ変数の間に全く関係がない。 相関係数が0の場合の散布図1 相関係数 r=0 この場合は、2つ変数の間に全く関係がない。
相関係数が0の場合の散布図2 相関係数 r=0 この場合は、2つ変数の間には直線的な関係はないが、 曲線的な関係があるので全く関係がないわけではない。
応用編の教訓3 相関関係を算出する場合は、同時に散布図も描きましょう ⇒相関係数だけからでは、曲線的な関係に気づくことができません。 ⇒「データをとったらまず分布」の教訓を思い出しましょう。