第3章 2変量データの記述 統計学基礎 2011年度.

Slides:



Advertisements
Similar presentations
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advertisements

確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
2014 年 10 月 17 日初級ミクロ経済学 1 初級ミクロ経済学 -消費者行動理論- 2014 年 10 月 17 日 古川徹也.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
第2章 1変量データの記述 統計学基礎 2011年度.
データ分析入門(12) 第12章 単回帰分析 廣野元久.
ローレンツ曲線とジニ係数 度数分布表の応用 ローレンツ曲線の意味 ローレンツ曲線の作成 ジニ係数.
初級ミクロ経済学 -消費者行動理論- 2014年9月29日 古川徹也 2014年9月29日 初級ミクロ経済学.
第1章 記述統計の復習 統計学 2007年度.
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
第3章 2変量データの記述 統計学基礎 2010年度.
第1章 記述統計の復習 統計学 2011年度.
重回帰分析入門 経済データ解析 2009年度.
データ解析 静岡大学工学部 安藤和敏
実証分析の手順 経済データ解析 2011年度.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
第2章 単純回帰分析 ー 計量経済学 ー.
第1章 記述統計の復習 統計学 2010年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
重回帰分析入門 経済データ解析 2011年度.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
回帰分析.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 第3回 10/11 担当:鈴木智也.
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
主成分分析                     結城  隆   .
第3章補足 ローレンツ曲線とジニ係数 統計学基礎 2010年度.
月曜3限 1141教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1141教室 担当者: 河田 正樹
回帰分析/多変量分析 1月18日.
1変量データの記述 経済データ解析 2006年度.
需要の価格弾力性 価格の変化率と需要の変化率の比.
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
相関分析.
データ解析 静岡大学工学部 安藤和敏
市場規模の予測.
第6章 連立方程式モデル ー 計量経済学 ー.
担当者 河田正樹 2010年度 統計学基礎講義内容 担当者 河田正樹
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
市場規模の予測.
部分的最小二乗回帰 Partial Least Squares Regression PLS
第3章補足2 多変量データの記述 統計学基礎 2010年度.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第7章 単回帰で「消費関数」を計測する 1.所得の定義 1.1 国民純生産 国内総生産(GDP) ⇔ 所得
回帰分析(Regression Analysis)
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
データ解析 静岡大学工学部 安藤和敏
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
プログラミング論 相関
重回帰分析入門 経済データ解析 2008年度.
税金や社会福祉などによって再分配機能が充実した国の場合、初期所得(税引き前の給与)でのジニ係数と、所得再配分後のジニ係数が異なる。
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

第3章 2変量データの記述 統計学基礎 2011年度

目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 Ⅲ 2変量データの分析 Ⅳ 多変量データ分析の初歩 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅱ 特性値による記述 1) 相関係数 Ⅲ 2変量データの分析 1) 不平等度の分析 ⅰ) ローレンツ曲線 ⅱ) ジニ係数 2) 回帰分析 ⅰ) 相関関係と因果関係 ⅱ) 最小2乗法 ⅲ) 予測値と残差 ⅳ) 決定係数 Ⅳ 多変量データ分析の初歩 1) 重回帰分析入門 2) レーダーチャート

2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 2変量データ → 2つの対になったデータ (例)なでしこJAPANの身長と体重 ※ なでしこJAPANの身長と男子日本代表の体重は2つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 澤の身長と川澄の体重を組み合わせても、意味がない。 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述

Ⅰ 表・グラフによる記述 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 質的変量、または離散変量で取りうる値の少ないものは、それぞれに対応する度数を数えればよい。 例) 血液型と性別でクロス集計したもの

一方、連続データや離散データでとりうる値の多いものは、2次元の度数分布表となる。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー   2次元の度数分布表は、右のように2次元ヒストグラム(グラフは3D)であらわすことができる。

2) 散布図 連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわした散布図であらわされることも多い。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー

Ⅱ 特性値による記述 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 Ⅱ 特性値による記述  1) 相関係数 xとyの共分散 Xの標準偏差 yの標準偏差 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。  r>0 正の相関 1に近いほど関連度が強い  r<0 負の相関 -1に近いほど関連度が強い  r=0 無相関

Ⅰ 各点のx座標と平均との差      と、y座標と平均との差      を考える。    Ⅱ Ⅳ Ⅲ 点が、Ⅰの部分にあるとき             は、+×+=+となる。 点が、Ⅱの部分にあるとき             は、-×+=-となる。 点が、Ⅲの部分にあるとき             は、-×-=+となる。 点が、Ⅳの部分にあるとき             は、+×-=-となる。

相関係数と散布図は密接な関係があり、右上がりの散布図は相関係数が+であり、右下がりの散布図は相関係数が-である。 また、相関係数が±1に近いほど、散布図は直線に近くなる。 正の相関(r>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(r<0) Xが大きな値をとるほど、Yは小さな値をとる。  無相関(r=0) Xの値とYの値に一定の傾向がみられない。

Ⅲ 2変量データの分析 この分布は、少数の大金持ちと多数の庶民がいる状態を示している。 このような状態は不平等であると考える。 Ⅲ 2変量データの分析 1) 不平等度の分析 第2章で示した、貯蓄現在高階級別の世帯分布は、下のようになっていた。 この分布は、少数の大金持ちと多数の庶民がいる状態を示している。 このような状態は不平等であると考える。 すべての人の資産†が等しい状態を平等‡とし、そこからどの程度離れているかを知りたい。 † 所得面から平等をみることもある。 ‡ 平等を定義することは容易ではないが、ここではこのように定義する。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

5人兄弟が遺産を相続するとき、 † 5人兄弟の遺産相続の例 † 5人兄弟の遺産相続の例 5人兄弟が遺産を相続するとき、 (a) は、5人兄弟がそれぞれ5分の1ずつ相続するという例。 (b) は、5人兄弟がそれぞれ異なった取り分を相続する例。 (c) は、長男がすべての遺産を相続するという例。 (a) は、5人が平等に相続しているのに対して、(b)や(c) は、不平等である。

(b)のパターンを例に取り上げる。このパターンを、取り分の小さい順に並べかえ、人数の比率と金額(遺産の取り分)の比率の累積を計算してみる。 累積-それ以前のものをすべて加えるということ。 (例) (b)の三男の累積金額比率 「五男の取り分」+「四男の取り分」+「三男の取り分」となるので、1/15 + 2/15 + 3/15 = 6/15 となる。

横軸に累積人数比率を、縦軸に累積金額比率をとり、線でつないだものが下の図である。 ⅰ) ローレンツ曲線 横軸に累積人数比率を、縦軸に累積金額比率をとり、線でつないだものが下の図である。 この曲線は、ローレンツ曲線とよばれ、不平等の度合いを表す 曲線である。

遺産相続の3つのパターンについて、取り分の小さい順に並べかえ、人数の比率と金額(遺産の取り分)の比率の累積を計算してみた。 45度線が完全平等線といわれる。 (この例では(a)のグラフが該当す る。) 不平等度が大きいほど、グラフが 完全平等線から右下方に離れる。   → (b)より(c)の方が不 平等

ローレンツ曲線の完全平等線からの離れぐあいを数値で表したもの 完全平等線とローレンツ曲線で囲まれる部分の面積を2倍したもの ⅱ) ジニ係数 ローレンツ曲線の完全平等線からの離れぐあいを数値で表したもの 完全平等線とローレンツ曲線で囲まれる部分の面積を2倍したもの この面積の2倍 灰色の四角の面積が1なので、0と1の間の値をとり、1に近いほど不平等度が大きい

残りの部分を台形に分割し、正方形から引く ジニ係数の計算方法 残りの部分を台形に分割し、正方形から引く 台形の面積の公式 (上底+下底)×高さ÷2 を使う。 下底 上底 高さ

このような台形(1番左は直角三角形)の面積を全部加え、その2倍を正方形から引く 遺産相続の例 (b) 0.267 遺産相続の(b)で、次のような台形がある。  上底 - 三男までの累積金額比率(6/15)  下底 - 次男までの累積金額比率(10/15)  高さ - 三男と次男の累積人数比率の差(1/5) この台形の面積は (6/15 + 10/15)×1/5÷2 = 8/75 このような台形(1番左は直角三角形)の面積を全部加え、その2倍を正方形から引く  1-(1/150 + 2/75 + 3/50 + 8/75 + 1/6) × 2 = 1-11/30×2 = 4/15 = 0.2666…

年間収入の例 (平成22年 家計調査 2人以上世帯) (例) (0.00725+0.02361)×(0.07189-0.02788)÷2 = 0.00068 ジニ係数 1-0.35231×2 = 0.2954

2) 回帰分析 ⅰ) 相関関係と因果関係 左の表は日本の実質家計可処分所得(所得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年までのデータである。 このデータを横軸に所得、縦軸に消費をとった散布図であらわすと、下の図のようになる。 (単位: 兆円) データ出典: 内閣府経済社会研究所『国民経済計算』

所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。 所得が多くなれば、消費も多くなる。 所得が少なくなれば、消費も少なくなる。 さらに、所得と消費の関係は相関関係だけではなく、所得を原因、消費を結果とする因果関係が成り立っている。 因果関係 一方が原因となって、もう一方が結果となる関係。原因と結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係

風が吹く(原因)⇒ 桶屋が儲かる(結果) ※ 風が吹くと桶屋が儲かる 最終的には 風が吹くと砂ぼこりが立つ ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる いくつもの因果関係が連鎖したもの。 最終的には 風が吹く(原因)⇒ 桶屋が儲かる(結果) となる。

このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 経済理論はこのような因果関係の積み重ねである。 (例) 「ある商品の価格を下げると、販売数量は増加する」  このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 これから一歩踏み込んで、 「ある商品の価格を○%下げると、販売数量が○%増加する」  というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用いられる。  (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。

統計データを用いた定量的分析のことを、計量分析という。経済分析における計量分析が計量経済分析である。 計量経済分析をおこなうことによって、経済理論が現実経済に合致しているかどうかのチェックをおこなうことができる。 因果関係の定量的分析には回帰分析という統計手法がよく用いられる。

ⅱ) 最小2乗法 回帰分析は、XとYとの関係を、数式をあてはめることによって分析するものである。 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子の身長の関係に注目したところ、直線であらわすことができることを発見したことが始まりである。 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身長の方がより親より平均に近くなること。すなわち非常に高身長な父親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親より高くなることを見出したことによる。(平均への「回帰」が語源である。)

Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 回帰分析では、最初に、最も適当と考えられる数式の形(回帰モデルという)を選ぶことからおこなわれる。 回帰モデルの例  (どのような式が最適かは、散布図や経済理論などから総合的に判断される)  Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 Y=a+bX Y=a+bX2 Y=a/(X+b)

回帰係数の推定値は最小2乗法という方法で求めることができる。 最小2乗法はデータの各点と直線との距離(これを残差という)の2乗和が最小となるように直線を引く方法である。 推定値は次のような式で求められる。 こうして、YとXの関係をもっともよくあらわす、        という式を求める。 Xが1増加したとき、Yはおおよそ  増加する。

残差はYから を引いたものである。 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 ⅲ) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、       であらわす。 予測値は、すべてのデータが推定された回帰直線上にあるとした場合に、あるXに対応したYの値であり、データとして現有していないXに対するYの値の予測となる。 残差はYから  を引いたものである。

所得と消費の例ではY=a+bXという線形のモデルを考える。このモデルはケインズ型消費関数といわれるモデルである。 この例において、回帰係数の推定値を求めると、 となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 残差は 173 - 177.13 = -4.13 である。 Y=-23.21+0.945X

この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。 ⅳ) 決定係数 右の表のような数値例を考えてみよう。 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。 Y=3+0.5X Y=3+0.5X

この2つの図を比べると、データに対する回帰直線のあてはまりが異なること(データが直線の近くに位置しているか、直線から離れて位置しているか)がわかる。そのあてはまり具合を数値で表したものが決定係数R2である。 この2つの例の、左はR2=0.998、右はR2=0.685となる(導出方法は後述)。 決定係数は、  と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。

具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗和の比をとったものである。  回帰直線上の点(予測値)と平均の差、この2乗和が回帰によって説明される変動となる。   この2つの比が決定係数R2となる。   決定係数の式は次のようになる。

消費額の大小は、所得の大小が原因となっている。 Ⅳ 多変量データ分析の初歩 1) 重回帰分析入門 所得と消費との間に、 Y(消費) = a + b X(所得) ↑ ↑ 結果 原因 という因果関係が存在することを、ケインズが提唱した。 これは、 消費額の大小は、所得の大小が原因となっている。 ということである。 (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。

しかし、消費額の大小を決定する原因は所得だけでよいであろうか? (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。     ここで、毎月のバイト代が5万円の人が2人いたとしよう。その2人のうち1人は貯蓄が0円、もう1人は100万円の貯蓄があったとする。     この2人の所得は等しい。なので、消費額は同じぐらいになるはずであるが、100万円の貯蓄がある人は、その貯蓄を崩して消費することも可能である。     すなわち、消費額の大小は、所得だけでなく、資産(預貯金以外に、株式などを含めたもの)の大小によって決定されるのではないであろうか? Y(消費) = a + b X(所得) + c W(資産) ↑ ↑ ↑ 結果 原因1 原因2 † このようなモデルはトービンによって提唱された

説明変数が複数ある回帰モデルのことを重回帰モデルといい、重回帰モデルを用いた分析のことを重回帰分析という。 (説明変数が1つのモデルは単回帰モデル(または単純回帰モデル)といい、単回帰モデルを用いた分析のことを単回帰分析(または単純回帰分析)という) 重回帰モデルは次のような式で表される。 Y = a + bX + cW + dZ + ・・・ Y = a + b1X1 + b2X2 + b3X3 + ・・・       (説明変数とその係数を添え字つきの変数で表したもの) Y = b0 + b1X1 + b2X2 + b3X3 + ・・・      (上の式の定数の部分も添え字つきの表現をしたもの) 重回帰モデルの中には説明変数が多数のモデルもあるので、別々のアルファベットで表現するには不十分となり、添え字つきの変数で表現されることがある。

※ 3変数(説明変数が2つ)の場合の重回帰モデル ※ 3変数(説明変数が2つ)の場合の重回帰モデル Y 3変数の場合には回帰直線ではなく、回帰平面になる。 この場合、最小2乗法は各点と回帰平面との垂直方向の距離(これが残差)の2乗和が最小になるように平面を描くことである。 最小2乗法で求めた回帰平面の係数推定値は次のようになる。 W × × × × 回帰平面 Y=a+bX+cW X

2) レーダーチャート スポーツテストでは、多種目についてテストをおこなう。 2) レーダーチャート スポーツテストでは、多種目についてテストをおこなう。 そのテストの結果(個人、クラス平均など)をあらわすのに最適なものがレーダーチャートである。 レーダーチャートによって、その個人やクラスの長所と弱点を一目でとらえることが可能になる。 他には、5教科のテストの成績や、自治体の充実度などを表現するときに用いられる。