第3章 2変量データの記述 統計学基礎 2010年度.

Slides:



Advertisements
Similar presentations
環境経済論 第 7 回目 ヘドニック・アプローチ. Court (米国自動車工業会 ) による自動車 価格変化の研究、 1939 – 自動車価格とさまざまな特性(馬力、長さな ど)との数量的関係 – 財の諸特性が快楽( hedonic pleasure )を生 み出すと考える – ヘドニック要因で説明される価格(又はその.
Advertisements

計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
第 2 章 国民所得決定理論. 1. 有効需要の理論 Jhon Maynard Keynes: 有効需要の原理 「経済全体の活動水準は経済全体でど れだ けの需要があるかによって決まる」
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
Example 8 種類のチーズの塩分量 : m = 325 Q 3 = 340 m Q 1 = Q3Q3Q3Q3 Q1Q1Q1Q1.
第2章補足 幹葉表示 統計学基礎 2010年度.
データ分析入門(12) 第12章 単回帰分析 廣野元久.
第3章 2変量データの記述 統計学基礎 2011年度.
第1章 記述統計の復習 統計学 2007年度.
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
第1章 記述統計の復習 統計学 2011年度.
重回帰分析入門 経済データ解析 2009年度.
データ解析 静岡大学工学部 安藤和敏
実証分析の手順 経済データ解析 2011年度.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
第2章 単純回帰分析 ー 計量経済学 ー.
第1章 記述統計の復習 統計学 2010年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
重回帰分析入門 経済データ解析 2011年度.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
回帰分析.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
主成分分析                     結城  隆   .
月曜3限 1141教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1141教室 担当者: 河田 正樹
回帰分析/多変量分析 1月18日.
1変量データの記述 経済データ解析 2006年度.
需要の価格弾力性 価格の変化率と需要の変化率の比.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
補章 時系列モデル入門 ー 計量経済学 ー.
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
相関分析.
データ解析 静岡大学工学部 安藤和敏
第6章 連立方程式モデル ー 計量経済学 ー.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
部分的最小二乗回帰 Partial Least Squares Regression PLS
第3章補足2 多変量データの記述 統計学基礎 2010年度.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第7章 単回帰で「消費関数」を計測する 1.所得の定義 1.1 国民純生産 国内総生産(GDP) ⇔ 所得
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
回帰分析(Regression Analysis)
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
データ解析 静岡大学工学部 安藤和敏
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
プログラミング論 相関
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

第3章 2変量データの記述 統計学基礎 2010年度

目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 Ⅲ 2変量データの分析 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅱ 特性値による記述 1) 相関係数 Ⅲ 2変量データの分析 1) 回帰分析 ⅰ) 相関関係と因果関係 ⅱ) 最小2乗法 ⅲ) 予測値と残差 ⅳ) 決定係数

2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 2変量データ → 2つの対になったデータ (例)サッカー日本代表の身長と体重 ※ 日本代表の身長と韓国代表の体重は2つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 川島の身長と長谷部の体重を組み合わせても、意味がない。 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述

Ⅰ 表・グラフによる記述 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 質的変量、または離散変量で取りうる値の少ないものは、それぞれに対応する度数を数えればよい。 例) 血液型と性別でクロス集計したもの

一方、連続データや離散データでとりうる値の多いものは、2次元の度数分布表となる。 サッカー日本代表  南アW杯(2010)ベンチ入りメンバー   2次元の度数分布表は、右のように2次元ヒストグラム(グラフは3D)であらわすことができる。

2) 散布図 連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわした散布図であらわされることも多い。 サッカー日本代表  南アW杯(2010)ベンチ入りメンバー

Ⅱ 特性値による記述 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 Ⅱ 特性値による記述  1) 相関係数 xとyの共分散 Xの標準偏差 yの標準偏差 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。  r>0 正の相関 1に近いほど関連度が強い  r<0 負の相関 -1に近いほど関連度が強い  r=0 無相関

Ⅰ 各点のx座標と平均との差      と、y座標と平均との差      を考える。    Ⅱ Ⅳ Ⅲ 点が、Ⅰの部分にあるとき             は、+×+=+となる。 点が、Ⅱの部分にあるとき             は、-×+=-となる。 点が、Ⅲの部分にあるとき             は、-×-=+となる。 点が、Ⅳの部分にあるとき             は、+×-=-となる。

相関係数と散布図は密接な関係があり、右上がりの散布図は相関係数が+であり、右下がりの散布図は相関係数が-である。 また、相関係数が±1に近いほど、散布図は直線に近くなる。 正の相関(r>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(r<0) Xが大きな値をとるほど、Yは小さな値をとる。  無相関(r=0) Xの値とYの値に一定の傾向がみられない。

Ⅲ 2変量データの分析 1)回帰分析 ⅰ) 相関関係と因果関係 左の表は日本の実質家計可処分所得(所得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年までのデータである。 このデータを横軸に所得、縦軸に消費をとった散布図であらわすと、下の図のようになる。 (単位: 兆円) データ出典: 内閣府経済社会研究所『国民経済計算』

所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。 所得が多くなれば、消費も多くなる。 所得が少なくなれば、消費も少なくなる。 さらに、所得と消費の関係は相関関係だけではなく、所得を原因、消費を結果とする因果関係が成り立っている。 因果関係 一方が原因となって、もう一方が結果となる関係。原因と結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係

風が吹く(原因)⇒ 桶屋が儲かる(結果) ※ 風が吹くと桶屋が儲かる 最終的には 風が吹くと砂ぼこりが立つ ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる いくつもの因果関係が連鎖したもの。 最終的には 風が吹く(原因)⇒ 桶屋が儲かる(結果) となる。

このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 経済理論はこのような因果関係の積み重ねである。 (例) 「ある商品の価格を下げると、販売数量は増加する」  このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 これから一歩踏み込んで、 「ある商品の価格を○%下げると、販売数量が○%増加する」  というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用いられる。  (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。

統計データを用いた定量的分析のことを、計量分析という。経済分析における計量分析が計量経済分析である。 計量経済分析をおこなうことによって、経済理論が現実経済に合致しているかどうかのチェックをおこなうことができる。 因果関係の定量的分析には回帰分析という統計手法がよく用いられる。

ⅱ) 最小2乗法 回帰分析は、XとYとの関係を、数式をあてはめることによって分析するものである。 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子の身長の関係に注目したところ、直線であらわすことができることを発見したことが始まりである。 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身長の方がより親より平均に近くなること。すなわち非常に高身長な父親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親より高くなることを見出したことによる。(平均への「回帰」が語源である。)

Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 ⅱ) 最小2乗法 回帰分析では、最初に、最も適当と考えられる数式の形(回帰モデルという)を選ぶことからおこなわれる。 回帰モデルの例  (どのような式が最適かは、散布図や経済理論などから総合的に判断される)  Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 Y=a+bX Y=a+bX2 Y=a/(X+b)

回帰係数の推定値は最小2乗法という方法で求めることができる。 最小2乗法はデータの各点と直線との距離(これを残差という)の2乗和が最小となるように直線を引く方法である。 推定値は次のような式で求められる。

残差はYから を引いたものである。 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 ⅲ) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、       であらわす。 予測値は、すべてのデータが推定された回帰直線上にあるとした場合に、あるXに対応したYの値であり、データとして現有していないXに対するYの値の予測となる。 残差はYから  を引いたものである。

所得と消費の例ではY=a+bXという線形のモデルを考える。このモデルはケインズ型消費関数といわれるモデルである。 回帰係数の推定値は となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 残差は 173 - 177.13 = -4.13 である。 Y=-23.21+0.945X

決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。 ⅳ) 決定係数 決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。

この2つの例に回帰分析を適用すると、ともにY=3+0 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。ところで、散布図に回帰直線を書き入れたものが下図である。

この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0 この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0.998、右はR2=0.685である。 決定係数は、  と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。

具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗和の比をとったものである。  回帰直線上の点(予測値)と平均の差、この2乗和が回帰によって説明される変動となる。   この2つの比が決定係数R2となる。   決定係数の式は次のようになる。