1 データ分析入門( 8 ) 第 8 章 散布図と相関係数 廣野元久. 第 8 章 散布図と相関係数 廣野元久 &高橋行雄 2/28 本章の概要 2つの量的データのばらつき方を調べ, その関連 ( 相関関係 ) をグラフと数値で評価する 2変量間の相関関係には, 因果関係と擬似相関があるため, 関連を見誤らないように,

Slides:



Advertisements
Similar presentations
Mathematica による固有値計算の高速化 Eigenvalue calculation speed by Mathematica 情報工学部 06A2055 平塚翔太.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
EXCEL 講習会 2014 年 5 月 1 日,2 日 OSIPP NWC ① 11 : 00 ~ 12 : 00 ② 13 : 00 ~ 14 : 00 1 政策データ分析.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
入職率・製造業 同志社大学 経済学部 14100077 藤原由佳.  テーマの説明 入職率・製造業が何に影響するのかを分析する。  選んだ理由 自分の興味のある分野が製造業であり、どのくらいの 人が入職を求めているのか気になったため。  テーマの重要性 経済活動は需要・供給から成り立っている。
情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
1 市場予測がはずれた理由 京都大学経済学部 塩地洋. 問題意識 ▷中国の自動車市場予測を見てきたが, ほとんど はずれている ・なぜはずれたのか 2.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第5章 JMPのインストールと基本操作 廣野元久
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
JMP version5(以上) 日本語版のScripting Languageによる プログラミング
データ分析入門(12) 第12章 単回帰分析 廣野元久.
平成14年2月8日 卒業研究報告 相関行列に基づく非計量多次元尺度法 に関する研究
林俊克&廣野元久「多変量データの活用術」:海文堂
データ分析入門(7) 第7章 データの操作と比較 廣野元久.
林俊克&廣野元久「多変量データの活用術」:海文堂
データ分析入門(11) 第11章 平均値の差の検定 廣野元久.
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
マーケティング戦略の決定.
第3章 2変量データの記述 統計学基礎 2010年度.
重回帰分析入門 経済データ解析 2009年度.
第16章 総需要に対する 金融・財政政策の影響 1.総需要曲線は三つの理由によって右下がりである 資産効果 利子率効果 為替相場効果
データ解析 静岡大学工学部 安藤和敏
実証分析の手順 経済データ解析 2011年度.
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
林俊克&廣野元久「多変量データの活用術」:海文堂
重回帰分析入門 経済データ解析 2011年度.
データ分析入門(10) 第10章 クロス集計表と仮説検定 廣野元久.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
貧困と出産の関係.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第5章 回帰分析入門 統計学 2006年度.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
月曜3限 1141教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1141教室 担当者: 河田 正樹
回帰分析/多変量分析 1月18日.
統計リテラシー育成のための数学の指導方法に関する実践的研究
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
マーケティング戦略の決定.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
独立成分分析 (ICA:Independent Component Analysis )
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
コンピュータⅡJ (情報の分析と表現) 第7講  2009年11月11日 担当:岡田佳子.
第3章補足2 多変量データの記述 統計学基礎 2010年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
数理科学Ⅰ 大阪府立天王寺高等学校 大西 義一 2019/5/4.
データ解析 静岡大学工学部 安藤和敏
2補論.グラフの用法:概観.
相関分析 2次元データと散布図 共分散 相関係数.
プログラミング論 相関
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
2つの変量間の関係を知る 1.水稲の収量に関連のある生育指標を知りたい 2.トマトの糖度は施肥量によってどのように変化するかを知りたい
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

1 データ分析入門( 8 ) 第 8 章 散布図と相関係数 廣野元久

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 2/28 本章の概要 2つの量的データのばらつき方を調べ, その関連 ( 相関関係 ) をグラフと数値で評価する 2変量間の相関関係には, 因果関係と擬似相関があるため, 関連を見誤らないように, 現象からの考察の重要性を学習する JMP を使った散布図や相関係数の求め方を 理解する

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 3/28 1. 相関と相関係数 1.1相関 2 変量の関連を調べるにはグラフ ( 散布図 ) を 作ることが第一である. 2 つの変量に直線的関連が見えるとき 身長が高ければ体重が重い ( 右上がり ) :正相関 紙コプタの重りが増えれば滞空時間が短い:負 相関 電子時計の精度と価格 :無相 関 2 つの変量に曲線的関係が見えるとき 年齢と運動能力 直線的な相関関係では測れない

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 4/28 1. 1相関 強い負の相関 無相関 強い正相関 Dasample の 県データ. jmpより 相関の強さは 赤の楕円の状態でみる 面積の広い円から, 面積の小さい直線的な楕円 になるにつれ相関が強くなる

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 5/ 相関係数 散布図は,2 変量の関連を視覚的に理解できる 上は一応の目安:標本の数や 研究分野で異なる

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 6/28 2. 散布図と相関係数 2.1 散布図を描く ビッグクラス.jmp をロードする 多変量の相関をクリック

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 7/ 散布図を描く( 1 ) 1. 身長(インチ)をクリック 2. & 4.Y ,列をクリック 3. 体重(ポンド)をク リック 5. OKボタンをクリック

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 8/ 散布図を描く( 1 ) 1. 相関係数行列が表示される 自分自身との相関なので, ここは 1 となる 身長と体重の相関 体重と身長の相関 つまり同じもの このようなテーブル ( 行列 ) を対称行列という 変量が増えると一覧として みやすい表現

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 9/ 散布図を描く( 2 ) 確率楕円 楕円内に 95 %の データが分布している 範囲を表す 相関が低いほど円に近い 相関ゼロで, 円 相関が高いほど面積が小さ い 相関 ±1 で, 直線 身長と体重は, 正の相関(直線的傾向 ) が かなり強いことが分かる

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 10/ 散布図による 2 変量間の関係の表現 ( 1 ) 県データ.jmp をロードする 都道府県 面積 ( 平方km 2 ) 人口 ( 千人 ) 持家比率%一人当 地方交付税交付金 ( 千円 ) 一人当 地方税収入 ( 千円 ) 商店数 ( 千店 ) 電力消費量 自動車 保有台数 ( 千台 )

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 11/ 散布図による 2 変量間の関係の表現 ( 2 ) 県データの散布図行列を描画する 強い正相関 対角成分のセルクリックして, 別な対角成分のセルに ドラック&ドロップすれば 散布図行列の順番が変わる

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 12/ 散布図による 2 変量間の関係の表現 ( 3 ) ( 1 )高い相関と低い相関、無相関 高い相関 人口 と商店数,人口と電力消費量 低い相関 人口と地方交付税 無相関 持家比率と地方交付税

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 13/ 散布図による 2 変量間の関係の表現 ( 4 ) ( 2 )正の相関と負の相関 正の相関 人口と商店数 : 散布図は右上がり相関係数正 負の相関 地方交付税と商店数 : 散布図は右下がり相関係数負 地方交付税と人口 : 散布図は右下がり相関係数負 地方交付税 人口 商店数 都市部 多産業、本社 地方 中小土木

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 14/28 3. 相関と因果 3.1 相関と因果の関係 因果 ある現象が原因となって別の現象(結果)を引き起 こす 通貨供給量と物価 北海道から南下するに従い、青色の嗜好が下がる ( 1979 :読売新聞調べ) 因果と散布図 因果関係があると強い相関を持つ 散布図に右上がり正相関(右下がり負相関)が見ら れる 相関と因果 逆に相関があるからといって、直ちに因果があると はいえない

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 15/ 相関と因果の関係( 2 ) 車とテレビ.jmp をロードする X( 豊かさ ) Car TV ( 疑似相関 ) 所得 経済成長 価格低下 相関あり → 因果は背後の変量

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 16/ 相関と因果の関係( 3 ) 廃棄物処理.jmp をロードす る 廃棄物量人口 住民生活ごみ 人口が増れば廃棄物も増る 相関あり → 因果 相関は統計量から分かるが, 因果は変量の意味が 分からなければ解釈できない

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 17/ みせかけの相関(疑似相関) ( 1 ) 第 3 の変量zが原因で, 第 1 と第 2 の変量x、yに影響を与 え, xとyに相関が生じたとき, xとyを疑似相関と呼ぶ

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 18/ みせかけの相関(疑似相関) ( 2 ) 県データ.jmp をロードする 消費電力と自動車保有台数 の相関は因果があるか 消費電力が上がれば, 自動車保有台数が増えるの ? 自動車保有台数が減れば, 消費電力が減るの ? 疑似相関 PC で相関を調べ, 人間の知恵で因果を考察 疑似相関の罠から逃れよう

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 19/28 4. 層別 データ全体から幾つかのグループに分類 ( 層別 ) したとき 分類毎に散布図を作ると “ ものの本質 ” が分かる 層別 無相関 異なるグループを混ぜると 相関が消える 強い相関

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 20/ 層別 ( 2 ) 1. あやめ.jmp をロードする 2. 二変量の関係をクリック 3. がくの長さをクリック 4.x をクリック 5. がくの幅をクリック 6. yをクリック 7.OK をクリック

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 21/28 あやめのデータ

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 22/ 層別 ( 3 ) 1. 散布図が描画される がくの長さ と がくの幅の 相関が見られないぞ ! 2. ▼ をクリック 3. グループ別をクリック 4. 層別する変量候補が リストに表示される

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 23/ 層別 ( 4 ) 1. 種類をクリック 2.OK をクリック 3. メニューから Density Ellipses( 確率楕円 ) をクリッ クし,.95(95 %信頼区間 ) をクリック

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 24/ 層別 ( 5 ) アヤメの品種で層別したら 相関が発見できた 練習問題 他の変量間にも, このような発見が 可能であろうか

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 25/ 層別 ( 6 ) 1. 一変量の分布 をクリック 2. 種類をクリック, 3.Y, 列をクリック 4.OK をクリック 5.Setosa をクリック 6.Setosa データは 反転していることを 確認

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 26/ 層別 ( 7 ) 1. 抽出 ( サブセット ) をクリック 2.Setosa だけのデータセットができる 3.Setosa だけの 散布図が描画できる

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 27/ 相関を利用したグループの判定 新しいデータ 1 Setosa の 95 %確率楕円内 Virginica,Versicolor の 95 %確率楕円の外 このデータは,Setosa と 考えるのが妥当であろう Setosa 領域 それ以外 Virginica の可能性が高い Setosa 以外だが,Virginica か Versicolor かまでは分からない

第 8 章 散布図と相関係数 廣野元久 &高橋行雄 28/ 相関を利用したグループの判定 A,B,C,D,E をどう判定する? 他の変量も利用せよ.