第3章　2変量データの記述統計学基礎　2011年度.

Slides:

Advertisements

Similar presentations

1 変量データの記述（度数分布表とヒストグラム）経済データ解析 2009 年度後期. あるクラスのテストの点数が次のようになっていたとする。このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.

Advertisements

確率・統計学の基礎データの特性を表すパラメータとは？ 2 つのデータの関係性を表す式の導出方法.

中学校段階での相関関係の指導宮崎大学教育文化学部藤井良宜. 概要現在の学習指導要領における統計の扱いこれまでの相関関係の指導相関関係の指導のポイント相関関係.

2014 年 10 月 17 日初級ミクロ経済学 1 初級ミクロ経済学－消費者行動理論－ 2014 年 10 月 17 日古川徹也.

2016 年度計量経済学講義内容担当者：河田正樹

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

エクセルと SPSS によるデータ分析の方法社会調査法・実習資料. 仮説の分析に使う代表的なモデル１クロス表２ｔ検定（平均値の差の検定）３相関係数.

第2章　1変量データの記述統計学基礎　2011年度.

データ分析入門（12）第12章　単回帰分析廣野元久.

ローレンツ曲線とジニ係数度数分布表の応用ローレンツ曲線の意味ローレンツ曲線の作成ジニ係数.

初級ミクロ経済学－消費者行動理論－ 2014年9月29日古川徹也 2014年9月29日初級ミクロ経済学.

第1章記述統計の復習統計学　2007年度.

時系列の予測時系列：観測値を時刻の順に並べたものの集合

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

補章時系列モデル入門ｰ計量経済学ｰ.

第3章　2変量データの記述統計学基礎　2010年度.

第1章記述統計の復習統計学　2011年度.

重回帰分析入門経済データ解析　2009年度.

データ解析静岡大学工学部安藤和敏

実証分析の手順経済データ解析　2011年度.

標本の記述統計専修大学　経済学部経済統計学（作間逸雄）.

月曜3限 1132教室担当者：河田正樹年度経済データ解析講義内容月曜3限　1132教室担当者：　河田　正樹

第2章単純回帰分析ｰ計量経済学ｰ.

第1章記述統計の復習統計学　2010年度.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

第４回 (10/16) 授業の学習目標先輩の卒論の調査に協力する。２つの定量的変数間の関係を調べる最も簡単な方法は？

第5章回帰分析の諸問題（２）ｰ計量経済学ｰ.

第5章回帰分析の諸問題（２）ｰ計量経済学ｰ.

重回帰分析入門経済データ解析　2011年度.

心理統計学 II 第７回 (11/13) 授業の学習目標相関係数のまとめと具体的な計算例の復習相関係数の実習.

初歩的情報リテラシーとアンケート集計のためのExcel・SPSS講座

第3章　二つの変数の記述統計二つの変数を対象として変数同士の関係を捉える量的変数どうしの関係質的変数どうしの関係.

相関と回帰：相関分析２つの変量それぞれが正規分布にしたがってばらつく量であるとき，両変数の直線的な関係を相関分析する．例：兄弟の身長

第６章　数量化Ｉ類.

第3章重回帰分析ｰ計量経済学ｰ.

第3章重回帰分析ｰ計量経済学ｰ.

統計学第３回　10/11 担当：鈴木智也.

第5章回帰分析入門統計学　2006年度.

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

主成分分析　　　　　　　　　　　　　　　　　　　　結城　　隆　　　.

第3章補足ローレンツ曲線とジニ係数統計学基礎　2010年度.

月曜3限 1141教室担当者：河田正樹年度経済データ解析講義内容月曜3限　1141教室担当者：　河田　正樹

回帰分析／多変量分析 1月18日.

1変量データの記述経済データ解析　2006年度.

需要の価格弾力性価格の変化率と需要の変化率の比.

第5章回帰分析の諸問題（２）ｰ計量経済学ｰ.

データ解析静岡大学工学部安藤和敏

市場規模の予測.

第６章連立方程式モデルｰ計量経済学ｰ.

担当者河田正樹 2010年度統計学基礎講義内容担当者　河田正樹

　統計学講義　第11回　　　　相関係数、回帰直線　　　決定係数.

4章までのまとめｰ計量経済学ｰ.

市場規模の予測.

部分的最小二乗回帰 Partial Least Squares Regression PLS

第3章補足2 多変量データの記述統計学基礎　2010年度.

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

第７章単回帰で「消費関数」を計測する１．所得の定義１．１国民純生産国内総生産（GDP) ⇔ 所得

回帰分析（Regression Analysis)

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

データ解析静岡大学工学部安藤和敏

相関分析 2次元データと散布図共分散相関係数.

1変量データの記述（度数分布表とヒストグラム）

プログラミング論相関

重回帰分析入門経済データ解析　2008年度.

税金や社会福祉などによって再分配機能が充実した国の場合、初期所得（税引き前の給与）でのジニ係数と、所得再配分後のジニ係数が異なる。

重回帰分析入門 (第5章補足) 統計学　2007年度.

回帰分析入門経済データ解析　2011年度.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

Presentation transcript:

第3章　2変量データの記述統計学基礎　2011年度

目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 Ⅲ 2変量データの分析 Ⅳ 多変量データ分析の初歩 Ⅰ　表・グラフによる記述 1)　分割表（クロス集計表）と2次元ヒストグラム 2)　散布図 Ⅱ　特性値による記述 1)　相関係数 Ⅲ　2変量データの分析 1)　不平等度の分析 ⅰ）　ローレンツ曲線 ⅱ）　ジニ係数 2)　回帰分析 ⅰ）　相関関係と因果関係 ⅱ）　最小2乗法 ⅲ）　予測値と残差 ⅳ）　決定係数 Ⅳ　多変量データ分析の初歩 1)　重回帰分析入門 2)　レーダーチャート

2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述＋ 2変量の関係の記述 2変量データ　→　2つの対になったデータ（例）なでしこJAPANの身長と体重 ※　なでしこJAPANの身長と男子日本代表の体重は2つのデータであるが、対になっていない。 ※　2変量データはその組合せを変えることはできない　→　澤の身長と川澄の体重を組み合わせても、意味がない。 2変量データの記述 →　それぞれ1変量の記述＋ 2変量の関係の記述

Ⅰ 表・グラフによる記述 2変量についてクロス集計した度数分布表のことを、分割表（またはクロス集計表）という。 Ⅰ　表・グラフによる記述 1)　分割表（クロス集計表）・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表（またはクロス集計表）という。質的変量、または離散変量で取りうる値の少ないものは、それぞれに対応する度数を数えればよい。例)　血液型と性別でクロス集計したもの

一方、連続データや離散データでとりうる値の多いものは、2次元の度数分布表となる。なでしこジャパンロンドン五輪予選ベンチ入りメンバー　　2次元の度数分布表は、右のように2次元ヒストグラム（グラフは3D）であらわすことができる。

２）　散布図連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわした散布図であらわされることも多い。なでしこジャパンロンドン五輪予選ベンチ入りメンバー

Ⅱ 特性値による記述相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 Ⅱ　特性値による記述　1)　相関係数ｘとyの共分散Ｘの標準偏差 yの標準偏差相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。　r＞０　正の相関　1に近いほど関連度が強い　r＜０　負の相関　-1に近いほど関連度が強い　r＝０　無相関

Ⅰ 各点のx座標と平均との差　　　　　　と、y座標と平均との差　　　　　　を考える。　　　 Ⅱ Ⅳ Ⅲ 点が、Ⅰの部分にあるとき　　　　　　　　　　　　　は、＋×＋＝＋となる。点が、Ⅱの部分にあるとき　　　　　　　　　　　　　は、－×＋＝－となる。点が、Ⅲの部分にあるとき　　　　　　　　　　　　　は、－×－＝＋となる。点が、Ⅳの部分にあるとき　　　　　　　　　　　　　は、＋×－＝－となる。

相関係数と散布図は密接な関係があり、右上がりの散布図は相関係数が＋であり、右下がりの散布図は相関係数が－である。また、相関係数が±１に近いほど、散布図は直線に近くなる。正の相関（r＞0) Xが大きな値をとるほど、Yも大きな値をとる。負の相関（r＜0) Xが大きな値をとるほど、Yは小さな値をとる。　無相関（r=0) Xの値とYの値に一定の傾向がみられない。

Ⅲ 2変量データの分析この分布は、少数の大金持ちと多数の庶民がいる状態を示している。このような状態は不平等であると考える。 Ⅲ　2変量データの分析 1)　不平等度の分析第2章で示した、貯蓄現在高階級別の世帯分布は、下のようになっていた。この分布は、少数の大金持ちと多数の庶民がいる状態を示している。このような状態は不平等であると考える。すべての人の資産†が等しい状態を平等‡とし、そこからどの程度離れているかを知りたい。 †　所得面から平等をみることもある。 ‡　平等を定義することは容易ではないが、ここではこのように定義する。出典：総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

5人兄弟が遺産を相続するとき、 † 5人兄弟の遺産相続の例 †　5人兄弟の遺産相続の例 5人兄弟が遺産を相続するとき、 (a) は、5人兄弟がそれぞれ5分の1ずつ相続するという例。 (b) は、5人兄弟がそれぞれ異なった取り分を相続する例。 (c) は、長男がすべての遺産を相続するという例。 (a) は、5人が平等に相続しているのに対して、(b)や(c) は、不平等である。

(b)のパターンを例に取り上げる。このパターンを、取り分の小さい順に並べかえ、人数の比率と金額(遺産の取り分)の比率の累積を計算してみる。累積－それ以前のものをすべて加えるということ。 (例) (b)の三男の累積金額比率「五男の取り分」＋「四男の取り分」＋「三男の取り分」となるので、1/15 + 2/15 + 3/15 = 6/15 となる。

横軸に累積人数比率を、縦軸に累積金額比率をとり、線でつないだものが下の図である。 ⅰ)　ローレンツ曲線横軸に累積人数比率を、縦軸に累積金額比率をとり、線でつないだものが下の図である。この曲線は、ローレンツ曲線とよばれ、不平等の度合いを表す曲線である。

遺産相続の3つのパターンについて、取り分の小さい順に並べかえ、人数の比率と金額(遺産の取り分)の比率の累積を計算してみた。 45度線が完全平等線といわれる。 (この例では(a)のグラフが該当する。) 不平等度が大きいほど、グラフが完全平等線から右下方に離れる。　　→　（ｂ）より（ｃ）の方が不平等

ローレンツ曲線の完全平等線からの離れぐあいを数値で表したもの完全平等線とローレンツ曲線で囲まれる部分の面積を2倍したもの ⅱ)　ジニ係数ローレンツ曲線の完全平等線からの離れぐあいを数値で表したもの完全平等線とローレンツ曲線で囲まれる部分の面積を2倍したものこの面積の2倍灰色の四角の面積が1なので、0と1の間の値をとり、1に近いほど不平等度が大きい

残りの部分を台形に分割し、正方形から引くジニ係数の計算方法残りの部分を台形に分割し、正方形から引く台形の面積の公式 (上底＋下底)×高さ÷２を使う。下底上底高さ

このような台形（1番左は直角三角形）の面積を全部加え、その2倍を正方形から引く遺産相続の例　(b) 0.267 遺産相続の(b)で、次のような台形がある。　上底　－　三男までの累積金額比率（6/15）　下底　－　次男までの累積金額比率（10/15）　高さ　－　三男と次男の累積人数比率の差（1/5）この台形の面積は (6/15 + 10/15)×1/5÷2 = 8/75 このような台形（1番左は直角三角形）の面積を全部加え、その2倍を正方形から引く　1－(1/150 + 2/75 + 3/50 + 8/75 + 1/6) × 2 = 1－11/30×2 = 4/15 =　0.2666…

年間収入の例　(平成22年　家計調査　2人以上世帯) (例)　(0.00725+0.02361)×(0.07189-0.02788)÷2 = 0.00068 ジニ係数 1－0.35231×2 = 0.2954

2) 回帰分析 ⅰ) 相関関係と因果関係左の表は日本の実質家計可処分所得(所得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年までのデータである。このデータを横軸に所得、縦軸に消費をとった散布図であらわすと、下の図のようになる。 (単位: 兆円) データ出典: 内閣府経済社会研究所『国民経済計算』

所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。所得が多くなれば、消費も多くなる。所得が少なくなれば、消費も少なくなる。さらに、所得と消費の関係は相関関係だけではなく、所得を原因、消費を結果とする因果関係が成り立っている。因果関係一方が原因となって、もう一方が結果となる関係。原因と結果を反対にすることはできない。（例）所得が高い（原因）⇒消費が多い（結果）相関関係因果関係

風が吹く（原因）⇒ 桶屋が儲かる（結果） ※ 風が吹くと桶屋が儲かる最終的には風が吹くと砂ぼこりが立つ ※　風が吹くと桶屋が儲かる風が吹くと砂ぼこりが立つ →　砂ぼこりで目を痛めて失明する人が増える →　失明した人はよく三味線を弾くのでその需要が増える →　三味線には猫の皮を張るので猫が捕獲されて数が減る →　するとねずみが増えるので桶がたくさんかじられる →　だから桶屋が儲かるいくつもの因果関係が連鎖したもの。最終的には風が吹く（原因）⇒　桶屋が儲かる（結果）となる。

このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。経済理論はこのような因果関係の積み重ねである。 (例)　「ある商品の価格を下げると、販売数量は増加する」　このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。これから一歩踏み込んで、「ある商品の価格を○％下げると、販売数量が○％増加する」　というように、数量的な把握をするものが定量的分析である。このような定量的分析をおこなうために、統計データが用いられる。　（例）　風速○メートルの風が吹けば、失明する人が○人増えて　（中略）　桶屋が○○円儲かる。

統計データを用いた定量的分析のことを、計量分析という。経済分析における計量分析が計量経済分析である。計量経済分析をおこなうことによって、経済理論が現実経済に合致しているかどうかのチェックをおこなうことができる。因果関係の定量的分析には回帰分析という統計手法がよく用いられる。

ⅱ) 最小2乗法回帰分析は、XとYとの関係を、数式をあてはめることによって分析するものである。回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子の身長の関係に注目したところ、直線であらわすことができることを発見したことが始まりである。なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身長の方がより親より平均に近くなること。すなわち非常に高身長な父親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親より高くなることを見出したことによる。（平均への「回帰」が語源である。）

Xを独立変数（説明変数）とよび、Yを従属変数（被説明変数）とよぶ。回帰分析では、最初に、最も適当と考えられる数式の形（回帰モデルという）を選ぶことからおこなわれる。回帰モデルの例　（どのような式が最適かは、散布図や経済理論などから総合的に判断される）　Xを独立変数（説明変数）とよび、Yを従属変数（被説明変数）とよぶ。 Y=a+bX Y=a+bX2 Y=a/(X+b)

回帰係数の推定値は最小2乗法という方法で求めることができる。最小2乗法はデータの各点と直線との距離（これを残差という）の2乗和が最小となるように直線を引く方法である。推定値は次のような式で求められる。こうして、YとXの関係をもっともよくあらわす、　　　　　　　　という式を求める。 Xが1増加したとき、Yはおおよそ　　増加する。

残差はYからを引いたものである。あるXに対応する直線上の点を予測値(または理論値)といい、であらわす。 ⅲ) 予測値と残差あるXに対応する直線上の点を予測値(または理論値)といい、　　　　　　であらわす。予測値は、すべてのデータが推定された回帰直線上にあるとした場合に、あるXに対応したYの値であり、データとして現有していないXに対するYの値の予測となる。残差はYから　　を引いたものである。

所得と消費の例ではY=a+bXという線形のモデルを考える。このモデルはケインズ型消費関数といわれるモデルである。この例において、回帰係数の推定値を求めると、となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。残差は 173 - 177.13 = -4.13 である。 Y=-23.21+0.945X

この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。 ⅳ) 決定係数右の表のような数値例を考えてみよう。この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。 Y=3+0.5X Y=3+0.5X

この2つの図を比べると、データに対する回帰直線のあてはまりが異なること(データが直線の近くに位置しているか、直線から離れて位置しているか)がわかる。そのあてはまり具合を数値で表したものが決定係数R2である。この2つの例の、左はR2=0.998、右はR2=0.685となる(導出方法は後述)。決定係数は、　と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。

具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点（予測値）と平均の差の2乗和の比をとったものである。　回帰直線上の点（予測値）と平均の差、この2乗和が回帰によって説明される変動となる。　　この2つの比が決定係数R2となる。　　決定係数の式は次のようになる。

消費額の大小は、所得の大小が原因となっている。 Ⅳ　多変量データ分析の初歩 1)　重回帰分析入門所得と消費との間に、Ｙ（消費）　＝　ａ　＋　ｂ　Ｘ（所得） ↑ ↑ 結果原因という因果関係が存在することを、ケインズが提唱した。これは、消費額の大小は、所得の大小が原因となっている。ということである。（例）　毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。

しかし、消費額の大小を決定する原因は所得だけでよいであろうか？（例）　毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。　　　　ここで、毎月のバイト代が5万円の人が2人いたとしよう。その2人のうち1人は貯蓄が0円、もう1人は100万円の貯蓄があったとする。　　　　この2人の所得は等しい。なので、消費額は同じぐらいになるはずであるが、100万円の貯蓄がある人は、その貯蓄を崩して消費することも可能である。　　　　すなわち、消費額の大小は、所得だけでなく、資産（預貯金以外に、株式などを含めたもの）の大小によって決定されるのではないであろうか？Ｙ（消費）　＝　ａ　＋　ｂ　Ｘ（所得）＋ｃＷ（資産） ↑ ↑ ↑ 結果原因１原因2 †　このようなモデルはトービンによって提唱された

説明変数が複数ある回帰モデルのことを重回帰モデルといい、重回帰モデルを用いた分析のことを重回帰分析という。（説明変数が1つのモデルは単回帰モデル（または単純回帰モデル）といい、単回帰モデルを用いた分析のことを単回帰分析（または単純回帰分析）という）重回帰モデルは次のような式で表される。Ｙ = a + bX + cW + dZ + ・・・ Y = a + b1X1 + b2X2 + b3X3 + ・・・　　　　　（説明変数とその係数を添え字つきの変数で表したもの） Y = b0 + b1X1 + b2X2 + b3X3 + ・・・　　　　　（上の式の定数の部分も添え字つきの表現をしたもの）重回帰モデルの中には説明変数が多数のモデルもあるので、別々のアルファベットで表現するには不十分となり、添え字つきの変数で表現されることがある。

※ 3変数（説明変数が2つ）の場合の重回帰モデル ※　3変数（説明変数が2つ）の場合の重回帰モデル Y 3変数の場合には回帰直線ではなく、回帰平面になる。この場合、最小2乗法は各点と回帰平面との垂直方向の距離（これが残差）の2乗和が最小になるように平面を描くことである。最小2乗法で求めた回帰平面の係数推定値は次のようになる。 W × × × × 回帰平面　Y=a+bX+cW X

2) レーダーチャートスポーツテストでは、多種目についてテストをおこなう。 2)　レーダーチャートスポーツテストでは、多種目についてテストをおこなう。そのテストの結果（個人、クラス平均など）をあらわすのに最適なものがレーダーチャートである。レーダーチャートによって、その個人やクラスの長所と弱点を一目でとらえることが可能になる。他には、5教科のテストの成績や、自治体の充実度などを表現するときに用いられる。