1 データ分析入門( 8 ) 第 8 章 散布図と相関係数 廣野元久
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 2/28 本章の概要 2つの量的データのばらつき方を調べ, その関連 ( 相関関係 ) をグラフと数値で評価する 2変量間の相関関係には, 因果関係と擬似相関があるため, 関連を見誤らないように, 現象からの考察の重要性を学習する JMP を使った散布図や相関係数の求め方を 理解する
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 3/28 1. 相関と相関係数 1.1相関 2 変量の関連を調べるにはグラフ ( 散布図 ) を 作ることが第一である. 2 つの変量に直線的関連が見えるとき 身長が高ければ体重が重い ( 右上がり ) :正相関 紙コプタの重りが増えれば滞空時間が短い:負 相関 電子時計の精度と価格 :無相 関 2 つの変量に曲線的関係が見えるとき 年齢と運動能力 直線的な相関関係では測れない
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 4/28 1. 1相関 強い負の相関 無相関 強い正相関 Dasample の 県データ. jmpより 相関の強さは 赤の楕円の状態でみる 面積の広い円から, 面積の小さい直線的な楕円 になるにつれ相関が強くなる
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 5/ 相関係数 散布図は,2 変量の関連を視覚的に理解できる 上は一応の目安:標本の数や 研究分野で異なる
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 6/28 2. 散布図と相関係数 2.1 散布図を描く ビッグクラス.jmp をロードする 多変量の相関をクリック
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 7/ 散布図を描く( 1 ) 1. 身長(インチ)をクリック 2. & 4.Y ,列をクリック 3. 体重(ポンド)をク リック 5. OKボタンをクリック
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 8/ 散布図を描く( 1 ) 1. 相関係数行列が表示される 自分自身との相関なので, ここは 1 となる 身長と体重の相関 体重と身長の相関 つまり同じもの このようなテーブル ( 行列 ) を対称行列という 変量が増えると一覧として みやすい表現
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 9/ 散布図を描く( 2 ) 確率楕円 楕円内に 95 %の データが分布している 範囲を表す 相関が低いほど円に近い 相関ゼロで, 円 相関が高いほど面積が小さ い 相関 ±1 で, 直線 身長と体重は, 正の相関(直線的傾向 ) が かなり強いことが分かる
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 10/ 散布図による 2 変量間の関係の表現 ( 1 ) 県データ.jmp をロードする 都道府県 面積 ( 平方km 2 ) 人口 ( 千人 ) 持家比率%一人当 地方交付税交付金 ( 千円 ) 一人当 地方税収入 ( 千円 ) 商店数 ( 千店 ) 電力消費量 自動車 保有台数 ( 千台 )
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 11/ 散布図による 2 変量間の関係の表現 ( 2 ) 県データの散布図行列を描画する 強い正相関 対角成分のセルクリックして, 別な対角成分のセルに ドラック&ドロップすれば 散布図行列の順番が変わる
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 12/ 散布図による 2 変量間の関係の表現 ( 3 ) ( 1 )高い相関と低い相関、無相関 高い相関 人口 と商店数,人口と電力消費量 低い相関 人口と地方交付税 無相関 持家比率と地方交付税
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 13/ 散布図による 2 変量間の関係の表現 ( 4 ) ( 2 )正の相関と負の相関 正の相関 人口と商店数 : 散布図は右上がり相関係数正 負の相関 地方交付税と商店数 : 散布図は右下がり相関係数負 地方交付税と人口 : 散布図は右下がり相関係数負 地方交付税 人口 商店数 都市部 多産業、本社 地方 中小土木
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 14/28 3. 相関と因果 3.1 相関と因果の関係 因果 ある現象が原因となって別の現象(結果)を引き起 こす 通貨供給量と物価 北海道から南下するに従い、青色の嗜好が下がる ( 1979 :読売新聞調べ) 因果と散布図 因果関係があると強い相関を持つ 散布図に右上がり正相関(右下がり負相関)が見ら れる 相関と因果 逆に相関があるからといって、直ちに因果があると はいえない
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 15/ 相関と因果の関係( 2 ) 車とテレビ.jmp をロードする X( 豊かさ ) Car TV ( 疑似相関 ) 所得 経済成長 価格低下 相関あり → 因果は背後の変量
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 16/ 相関と因果の関係( 3 ) 廃棄物処理.jmp をロードす る 廃棄物量人口 住民生活ごみ 人口が増れば廃棄物も増る 相関あり → 因果 相関は統計量から分かるが, 因果は変量の意味が 分からなければ解釈できない
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 17/ みせかけの相関(疑似相関) ( 1 ) 第 3 の変量zが原因で, 第 1 と第 2 の変量x、yに影響を与 え, xとyに相関が生じたとき, xとyを疑似相関と呼ぶ
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 18/ みせかけの相関(疑似相関) ( 2 ) 県データ.jmp をロードする 消費電力と自動車保有台数 の相関は因果があるか 消費電力が上がれば, 自動車保有台数が増えるの ? 自動車保有台数が減れば, 消費電力が減るの ? 疑似相関 PC で相関を調べ, 人間の知恵で因果を考察 疑似相関の罠から逃れよう
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 19/28 4. 層別 データ全体から幾つかのグループに分類 ( 層別 ) したとき 分類毎に散布図を作ると “ ものの本質 ” が分かる 層別 無相関 異なるグループを混ぜると 相関が消える 強い相関
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 20/ 層別 ( 2 ) 1. あやめ.jmp をロードする 2. 二変量の関係をクリック 3. がくの長さをクリック 4.x をクリック 5. がくの幅をクリック 6. yをクリック 7.OK をクリック
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 21/28 あやめのデータ
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 22/ 層別 ( 3 ) 1. 散布図が描画される がくの長さ と がくの幅の 相関が見られないぞ ! 2. ▼ をクリック 3. グループ別をクリック 4. 層別する変量候補が リストに表示される
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 23/ 層別 ( 4 ) 1. 種類をクリック 2.OK をクリック 3. メニューから Density Ellipses( 確率楕円 ) をクリッ クし,.95(95 %信頼区間 ) をクリック
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 24/ 層別 ( 5 ) アヤメの品種で層別したら 相関が発見できた 練習問題 他の変量間にも, このような発見が 可能であろうか
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 25/ 層別 ( 6 ) 1. 一変量の分布 をクリック 2. 種類をクリック, 3.Y, 列をクリック 4.OK をクリック 5.Setosa をクリック 6.Setosa データは 反転していることを 確認
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 26/ 層別 ( 7 ) 1. 抽出 ( サブセット ) をクリック 2.Setosa だけのデータセットができる 3.Setosa だけの 散布図が描画できる
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 27/ 相関を利用したグループの判定 新しいデータ 1 Setosa の 95 %確率楕円内 Virginica,Versicolor の 95 %確率楕円の外 このデータは,Setosa と 考えるのが妥当であろう Setosa 領域 それ以外 Virginica の可能性が高い Setosa 以外だが,Virginica か Versicolor かまでは分からない
第 8 章 散布図と相関係数 廣野元久 &高橋行雄 28/ 相関を利用したグループの判定 A,B,C,D,E をどう判定する? 他の変量も利用せよ.