コンピュータⅡJ (情報の分析と表現) 第7講  2009年11月11日 担当:岡田佳子.

Slides:



Advertisements
Similar presentations
分散分析と誤差の制御 実験結果からできるだけ多くの情報を取り出すために 分散分析を利用する 主効果の大きさ 交互作用の大きさ 誤差の大きさ 採用した因子の効果の有無 の検定には,誤差の大きさ と比較するので誤差を小さ くできれば分散分析での検 出力が高まる どのようにしたら誤差を小さくできるか?
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
4. 統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方 次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
Example 8 種類のチーズの塩分量 : m = 325 Q 3 = 340 m Q 1 = Q3Q3Q3Q3 Q1Q1Q1Q1.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
数理統計学  第9回 西山.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
第3章 2変量データの記述 統計学基礎 2010年度.
データ解析 静岡大学工学部 安藤和敏
統計学  第7回 西 山.
相関係数 植物生態学研究室木村 一也.
第1回 担当: 西山 統計学.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
確率・統計Ⅱ 第7回.
貧困と出産の関係.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
因果関係3原則 2009年月曜日・3時限 社会理論と調査法.
第5章 回帰分析入門 統計学 2006年度.
主成分分析                     結城  隆   .
統計学  第6回 西山.
対応のあるデータの時のt検定 重さの測定値(g) 例:
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
離婚が出生数に与える影響 -都道府県データを用いた計量分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率と統計 年1月12日(木)講義資料B Version 4.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
母音[i]のF1, F2平均値の分析.
部分的最小二乗回帰 Partial Least Squares Regression PLS
母分散の信頼区間 F分布 母分散の比の信頼区間
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
統計学  第9回 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
「カテゴリ変数2つの解析」 中澤 港 統計学第7回 「カテゴリ変数2つの解析」 中澤 港
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
プログラミング論 相関
回帰分析入門 経済データ解析 2011年度.
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

コンピュータⅡJ (情報の分析と表現) 第7講  2009年11月11日 担当:岡田佳子

授業のスケジュール

第7講 「散布図と相関」

今日の授業内容 1.これまでの範囲との違い 2.散布図 3.共分散 4.相関係数 5.相関係数の解釈上の注意 5-1.相関係数の解釈に関するよくある質問 5-2.相関関係と因果関係 5-3.擬似相関 5-4.曲線関係

これまでの範囲との違い

これまでの範囲との違い これまでは、1変数の統計量が問題だった 今日からは,2変数の関係の強さの統計量 代表値(平均値、中央値、最頻値) 散布度(分散、SD、範囲など) 標準化(標準得点,偏差値) 今日からは,2変数の関係の強さの統計量 ー2つの量的変数の間の関係(散布図・相関) ー2つの質的変数の間の関係(クロス集計・連関)    ⇒今日は「散布図・相関」をやります

2変数の関係の強さって? 例えば、英語が出来る人は、国語も出来るか? 英語の成績と数学の成績は関係あるのか? 身近な例では・・・  身近な例では・・・ 一般に身長が高い人は体重が重い 身長が低い人は体重も軽い 体長の大きいハムスターは体重が重い 体長の小さいハムスターは体重も軽い

2.散布図

2変数の関係を図で表してみましょう このような図を散布図という 体長 体重 8.0 9.0 10.0 11.0 40 50 60 70 8 3 5 2 1 4 6

正の相関関係・負の相関関係 正の相関関係 体長 体重 8.0 9.0 10.0 11.0 40 50 60 70 このように一方の値が大きいほど、もう一方の値が大きい傾向があるとき、2つの変数の間に正の相関関係があるという(点の配置が右上がり) 逆に、一方の値が大きいほど、もう一方の値が小さい傾向にあるとき、2つの変数の間に負の相関関係があるという(点の配置が右下がり) 8 7 3 5 2 1 4 6

3.共分散

さて・・・ このような2変数の関係をなんとか1つの数値で表現したい。 正の相関関係があるときは、正(プラス)の値をとり、負の相関関係があるときは、負(マイナス)の値をとるものが便利

もう少しデータ数を増やして考えてみましょう 身長と体重の関係を図に表してみる

散布図(scatter plot) 身長と体重の散布図 平均身長170cm 身長のSD=5.0 平均体重60kg 体重のSD=5.0

身長と体重の散布図(2) 平均身長より高い人 平均身長より低い人 平均体重より重い人 平均体重より軽い人

身長と体重の散布図(3) 平均身長より高くて平均体重より重い人 平均身長より高くて平均体重より軽い人 平均身長より低くて平均体重より重い人 平均身長より低くて平均体重より軽い人 低&重 高&重 低&軽 高&軽

身長と体重の散布図(3) 「高&重」グループと「低&軽」グループに人が多い 「高&軽」グループと「低&重」グループに人が少ない 体重と身長の間には,「高い(低い)人は重い(軽い)」という関係がある ⇒正の相関関係 低&重 高&重 低&軽 高&軽

ここで、 各データと平均の差に注目してみます 身長を変数x、体重を変数yとする                に着目してみる

両方とも は正 「高&重」と「低&軽」グループ も も正 したがって は正 も も負 低&重 高&重 高&重 低&軽 低&軽 高&軽 も も正 したがって は正 も も負 両方とも は正 プラス×プラスはプラス 低&重 高&重 高&重 低&軽 低&軽 マイナス×マイナスはプラス 高&軽

両方とも は負 「高&軽」と「低&重」グループ は正 は負 したがって 低&重 低&重 高&重 高&重 低&軽 低&軽 高&軽 高&軽 プラス×マイナスはマイナス 両方とも は負 低&重 低&重 高&重 高&重 マイナス×プラス はマイナス 低&軽 低&軽 高&軽 高&軽

共分散(covariance) 変数xの偏差とyの偏差の積の平均

共分散が正 つまり 「2つの変数ともに平均以上」および「2つの変数ともに平均以下の人」が多いとき が 正である人が多い つまり全体として が正になる 共分散が正

共分散が負 逆に言えば 「2つの変数の一方が平均以上」で「もう一方が平均以下」の人が多いとき が 負である人が多い つまり全体として が負になる 共分散が負

ただ・・・ 共分散によって、2変数の間に正の関係があるか負の関係があるか、はわかるが、その強さがどれくらいか、100とか言われてもピンとこない。 ⇒そこで「相関係数」

4.相関係数

相関係数(correlation) 正確にはピアソンの積率相関係数 (Peason’s product moment correlation coefficient) 共分散を変数xのSDと変数yのSDで除したもの

相関係数は・・・ 最も大きいとき1 最も小さいとき-1 つまり,-1≦r≦ 1の範囲の値をとる. 2つの変数の関係の強さを理解しやすい

散布図と相関係数の対応関係(例) 相関-0.1 相関-0.4 相関-0.2 相関-0.5 相関-0.3 相関-0.7 相関-1.0 相関-0.9 相関-0.8 相関-0.6 相関0.0 相関0.6 相関0.7 相関0.8 相関0.9 相関0.5 相関0.4 相関0.1 相関0.2 相関0.3 相関1.0

r=1.0 r=0.7 r=0.4 r=0.1 r=0.9 r=0.6 r=0.3 r=0.0 r=-0.8 r=0.8 r=0.5 r=0.2

散布図と相関係数の対応関係 散布図を見ると・・・ 相関係数の大きいところでは変化が大きい 相関係数の小さいところではあまり変化がない なぜか?の説明は後ほど。

5.相関係数の解釈上の注意

5-1.相関係数の解釈に関するよくある質問

卒論等に必要な、実用的な話 数学的な話より、実用的な話をしましょう 卒論等で相関係数に関して最も多い質問 「相関係数0.6は相関0.3の2倍の強さの関係があるってことですよね?」 「有意になれば、関係があるって言っていいんですよね?」 「相関係数っていくつくらいだと大きいとか、関係が強いとかって言っていいんですか?」

「相関係数0.6は相関係数0.3のときの2倍の強さの関係があるってことですよね?」 いいえ違います!(散布図を見てみましょう) 解釈上重要なのは相関係数の2乗 相関係数の2乗は、一方の変数によって他方の変数の分散の何%説明できるかを示している。←これ重要 これより、相関係数の2乗は「分散説明率」とか「決定係数」とか言われる

相関係数0.3なんて意外とたいしたことないんだよね、実は。 つまり・・・ 例えば英語の得点と数学の得点の相関係数が0.3ということは・・・ 0.32=0.09なので、英語の得点が数学の得点(の分散)の9%を説明しているということ 相関係数0.3なんて意外とたいしたことないんだよね、実は。 英語 数学 9%

もう一度散布図と見比べてみましょう。→納得? 具体的にみてみましょう 国語の得点が数学の得点(の分散)を説明する割合は・・・相関係数が、 0.1なら→0.12=0.01つまり1% 0.2なら→0.22=0.04つまり4% 0.3なら→0.32=0.09つまり9% 0.4なら→0.42=0.16つまり16% 0.5なら→0.52=0.25つまり25% 0.6なら→0.62=0.36つまり36% 0.7なら→0.72=0.49つまり49% 0.8なら→0.82=0.64つまり64% 0.9なら→0.92=0.81つまり81% 1.0なら→1.02=1.00つまり100% 変化が小さい 2倍ではない 変化が大きい もう一度散布図と見比べてみましょう。→納得?

相関係数が1.0のとき⇒100%説明される 2変数の間に完全な正の直線関係が成立している. このとき,一方の値が分かれば,もう一方の値も完全に決まる. Y=aX+b (a>0) 相関1.0

相関係数が0.0のとき⇒0%、全く説明されない 2変数の間に直線的な関係がない. このとき,特別に,XとYは「無相関」であるという. 相関0.0

「検定をして、有意になれば、関係があるって言っていいんですよね?」 いいえ微妙に違います 関係が全くないとは言い難いってこと 検定についての詳しい説明は来週以降 相関係数が有意とは、ごく簡単に言うと、相関が0とはいいがたいと言っているにすぎない(=母集団相関がゼロだとしたら得られにくいような値である) しかも、サンプルサイズ(データの数)が大きいと相関係数の値がかなり小さくても有意になる。

サンプルサイズと検定結果 20人のデータでは、相関係数が0.444より大きくないと5%水準で有意にならない 200人のデータでは、相関係数が0.139より大きければ5%水準で有意になる (r=0.139なんて2%も説明できてないのに!) 注意:人数が多いと小さな相関でも簡単に有意になってしまう!←これ忘れないでね ・・・なぜそうなるのか?は来週以降。

教訓 相関係数が「統計的に有意である」 というとこと 「実質的に意味のある相関である」 というとこは違う!!  というとこと 「実質的に意味のある相関である」  というとこは違う!! 例)身長と成績の相関が仮に0.098であって、400人分のデータだとするとこの程度の相関でも検定の結果は有意になる(ゼロとは言い難いという意味)。   ⇒しかしr=0.098(r2=0.0096)は身長は成績の0.1%も説明していないということ。   ⇒相関が有意だからといって「身長が高いほど、成績がよい」とはいえない。実質的に意味のある相関ではない

「相関係数っていくつくらいだと大きいとか、関係が強いとかって言っていいんですか?」 よく本に書かれている基準 0~0.2(0~-0.2) ほとんど相関がない 0.2~0.4(-0.2~‐0.4) 弱い相関がある 0.4~0.7(-0.4~0.7) 中程度の相関がある 0.7~1.0(-0.7~1.0) 強い相関がある 注意!これは、あくまで一般的な基準 このまま鵜呑みにしてはいけない!

実際に解釈上重要なことは・・・ 自分の研究(データ)において、その相関がどういう意味をもつのか?という観点が大切 例えば相関係数0.3をどうとらえるか? 「ある薬を飲んだ量と、命に関わる副作用の関係」だとしたら ⇒どんな小さな相関でも、あったら困る。つまり、小さな相関でもこの場合では見逃せない。0.3は十分に大きい。 「あるダイエット食品と、体重の関係」だとしたら ⇒ある程度明白な効果がないと、効果があるとは言い難い。つまりかなり大きな相関がないと困る。効果があるというには、相関係数0.3は小さい。  研究の目的と切り離して、相関係数が大きいとか小さいとかは一概に言えない

5-2.相関関係と因果関係

相関係数の解釈:教訓1 相関関係は因果関係ではない ⇒相関関係があることを実証しても、それは因果関係の実証にはならない

例:攻撃的なメディアへの接触時間と攻撃行動との関係 攻撃的なメディアへの接触時間と攻撃的行動の相関係数を求めたらr=0.69(正の相関関係)であった。 これより、攻撃的なメディアへの接触時間の量が小学生の攻撃的行動に促進的な効果を及ぼすことが実証された。と解釈してよいか? NO! 因果関係は実証していない!

因果関係と相関関係の違い 1 攻撃的行動 メディア接触時間 因果関係 攻撃的行動 メディア接触時間 相関関係 原因 結果 因果関係と相関関係の違い 1 メディア接触時間 攻撃的行動 因果関係 原因 結果 メディア接触時間の量(原因)が⇒小学生の攻撃的行動(結果)に促進的な効果を及ぼす メディア接触時間 攻撃的行動 相関関係 メディア接触時間と攻撃的行動の間には関係はあるが、 どちらが原因でどちらが結果かはわからない。

相関関係と因果関係の違い 2 攻撃的行動 メディア接触時間 相関関係 メディア接触が原因で攻撃的行動が促進されたのか? 相関関係と因果関係の違い 2 メディア接触時間 攻撃的行動 相関関係 正の相関関係が得られたというだけでは、 メディア接触が原因で攻撃的行動が促進されたのか? 日常的に攻撃的な子が、好んで攻撃的なメディアに接触しているのか? までは、わからない。 メディア 攻撃 メディア 攻撃

×攻撃的なメディアへの接触が攻撃行動を促すことがわかった(×因果関係) 考察では相関関係にのみ触れる ○攻撃的なメディアへの接触時間が長い子は、攻撃的行動も多い傾向があることがわかった ○ (攻撃的行動が多い子は、攻撃的なメディアへの接触時間も長い傾向があることがわかった) ×攻撃的なメディアへの接触が攻撃行動を促すことがわかった(×因果関係) ×攻撃的なメディアへの接触が原因で、攻撃行動が助長されることがわかった(×因果関係)

もし因果関係を確かめたいなら・・・ 相関研究ではなく、実験的な研究を行うなどの工夫が必要。 例)子供を2群に分けて、 (実験開始当初は2群の子供の攻撃的行動の量には差が無い) 実験群:夏休みの間、攻撃的なメディアに接触させる 統制群:同じ期間、攻撃的でないメディアに接触させる 夏休み終了後、学校での攻撃的行動の観察を行い、実験群の子供の方が攻撃的行動が多く観察されれば、攻撃的なメディアへの接触が原因と考えることができる。 注:ただし、この実験は倫理的に許されないでしょう

5-3.擬似相関

考えてみましょう 下記の表は、小学校4年生から6年生までの児童の学年と身長と漢字テスト(4から6年生共通のもの)の得点の相関係数を求めたものです。 これより、「身長が高いほど、漢字テストの得点が高い」と言ってよいでしょうか?

身長が高いほど、漢字テストの得点が高い? いや、待てよ・・・そんなのおかしくない?どういうこと? 学年が上がると身長が高くなる(相関係数.87) 学年が上がると漢字テストの得点が高くなる(相関係数.95) 身長が高いほど漢字テストの得点が高い(相関係数.80)のは、学年が上がっているせいじゃないか?

擬似相関 本当は相関がない2つの変数に第3の影響する変数があるために、みかけだけの相関がある時、それを擬似相関と呼ぶ。 ⇒この場合、身長と漢字テストに関連性があるのではなく、学年(第3の変数)が身長にも漢字テストの結果にも影響しているため、身長と漢字テストの間にみかけだけの相関=擬似相関がみられた。

身長が高いほど漢字テストの成績がよい?? 図で考えてみよう 相関係数.80 身長 漢字テスト 身長が高いほど漢字テストの成績がよい??

図で考えてみよう 擬似相関の可能性 漢字テスト 身長 正の相関 正の相関 学年 第3の変数

擬似相関が疑われるときには・・・ (Excelでできる擬似相関の見破り方) 擬似相関を見破るには、Excelでできる方法としては、分割相関(層別相関)を求める方法があります。 ⇒学年ごとに別々に身長と漢字テストの相関を求める もし、層別に相関を求めて、相関関係が消失したばあいは、擬似相関だったと判断できます。

実例:学年ごとに散布図を求めてみる 全体で見ると正の相関関係があるようだが・・・ 学年ごとに見るとそれぞれの学年内では無相関

実例:学年ごとに相関を求めてみる 学年ごとに相関を求めると(分割相関)、学年内では無相関 全体で相関係数を求めると正の相関があるが・・・

分析の流れと結果の解釈 1、相関係数の計算 2.層別の散布図と分割相関の計算 身長と漢字テスト、学年と身長、学年と漢字テスト、の間にはそれぞれ有意な正の相関係数がみられた。 これより、学年が上がるほど、身長が高くなり、漢字テストの得点も高くなるといえる。しかし、身長と漢字テストの間の相関は、擬似相関である可能性が考えられる。 2.層別の散布図と分割相関の計算 層別の散布図を描き、学年ごとの分割相関を求めところ、学年ごとの相関係数は非常に小さな値になった(無相関)。 つまり、身長と漢字テストの間の高い正の相関は、学年が身長と漢字テストの双方に影響を及ぼすことによってみられた擬似相関であったと考えられる。

応用編の教訓2 相関関係の解釈の際は、第3の変数による擬似相関の可能性に注意 ※常に第3の変数を疑っていないと、気がつかないので注意が必要です。

5-4.曲線関係

例:授業内容の難易度と受講生の私語の程度の関係 20回の授業について、授業の難易度と私語の程度について調べた。結果は下表。 相関係数を算出した結果、r=0.09で両者の相関は非常に低いものであった。 これより、内容の難易度と私語の程度はあまり関係がない。と解釈してよいか? NO!

例題1 相関係数を計算することの問題点 授業内容の難易度と私語の程度という2つの変数の関係の強さを知りたいので、相関係数を算出すること自体に問題はない。 しかし、計算された相関係数には、私語の程度と授業内容の難易度の関係が十分に反映されていない。

この散布図からどのようなことが読み取れますか? 表1のデータを散布図にしてみると・・・ この散布図からどのようなことが読み取れますか?

散布図から読み取れること 内容が易しすぎる場合と難しすぎる場合に私語が多い 内容が中程度の難しさのときに最も私語が少ない このようなU字型の曲線関係も「授業の難易度」と「私語の程度」の関係を表す重要な情報 しかし!!

相関係数からわかること、わからないこと ◇確かに相関係数は2つの変数間の関係の強さをみる数的指標だが・・・ 相関係数が表現するのは 2つの変数間の直線的な関係の程度(数値の大きさ)と関係の方向(正か負か) 2つの変数間に曲線的な関係があっても相関係数の値にはそれが反映されない!!

相関係数からわかること、わからないこと 相関係数は曲線関係を反映しない 直線的な関係がない場合は、たとえ曲線的な関係があっても、関係が全くない場合と同様に、相関係数の値は小さくなってしまう。 相関係数のみで判断すると、両者の間に「関係がない」という誤解をしてしまう!

このような直線関係でないと、相関係数の値には反映されない。 正の相関関係がある場合の散布図 相関係数 r=0.9 このような直線関係でないと、相関係数の値には反映されない。

この場合は、2つ変数の間に全く関係がない。 相関係数が0の場合の散布図1 相関係数 r=0 この場合は、2つ変数の間に全く関係がない。

相関係数が0の場合の散布図2 相関係数 r=0 この場合は、2つ変数の間には直線的な関係はないが、 曲線的な関係があるので全く関係がないわけではない。

応用編の教訓3 相関関係を算出する場合は、同時に散布図も描きましょう ⇒相関係数だけからでは、曲線的な関係に気づくことができません。 ⇒「データをとったらまず分布」の教訓を思い出しましょう。