第3章 2変量データの記述 統計学基礎 2010年度
目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 Ⅲ 2変量データの分析 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅱ 特性値による記述 1) 相関係数 Ⅲ 2変量データの分析 1) 回帰分析 ⅰ) 相関関係と因果関係 ⅱ) 最小2乗法 ⅲ) 予測値と残差 ⅳ) 決定係数
2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 2変量データ → 2つの対になったデータ (例)サッカー日本代表の身長と体重 ※ 日本代表の身長と韓国代表の体重は2つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 川島の身長と長谷部の体重を組み合わせても、意味がない。 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述
Ⅰ 表・グラフによる記述 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 質的変量、または離散変量で取りうる値の少ないものは、それぞれに対応する度数を数えればよい。 例) 血液型と性別でクロス集計したもの
一方、連続データや離散データでとりうる値の多いものは、2次元の度数分布表となる。 サッカー日本代表 南アW杯(2010)ベンチ入りメンバー 2次元の度数分布表は、右のように2次元ヒストグラム(グラフは3D)であらわすことができる。
2) 散布図 連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわした散布図であらわされることも多い。 サッカー日本代表 南アW杯(2010)ベンチ入りメンバー
Ⅱ 特性値による記述 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 Ⅱ 特性値による記述 1) 相関係数 xとyの共分散 Xの標準偏差 yの標準偏差 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 r>0 正の相関 1に近いほど関連度が強い r<0 負の相関 -1に近いほど関連度が強い r=0 無相関
Ⅰ 各点のx座標と平均との差 と、y座標と平均との差 を考える。 Ⅱ Ⅳ Ⅲ 点が、Ⅰの部分にあるとき は、+×+=+となる。 点が、Ⅱの部分にあるとき は、-×+=-となる。 点が、Ⅲの部分にあるとき は、-×-=+となる。 点が、Ⅳの部分にあるとき は、+×-=-となる。
相関係数と散布図は密接な関係があり、右上がりの散布図は相関係数が+であり、右下がりの散布図は相関係数が-である。 また、相関係数が±1に近いほど、散布図は直線に近くなる。 正の相関(r>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(r<0) Xが大きな値をとるほど、Yは小さな値をとる。 無相関(r=0) Xの値とYの値に一定の傾向がみられない。
Ⅲ 2変量データの分析 1)回帰分析 ⅰ) 相関関係と因果関係 左の表は日本の実質家計可処分所得(所得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年までのデータである。 このデータを横軸に所得、縦軸に消費をとった散布図であらわすと、下の図のようになる。 (単位: 兆円) データ出典: 内閣府経済社会研究所『国民経済計算』
所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。 所得が多くなれば、消費も多くなる。 所得が少なくなれば、消費も少なくなる。 さらに、所得と消費の関係は相関関係だけではなく、所得を原因、消費を結果とする因果関係が成り立っている。 因果関係 一方が原因となって、もう一方が結果となる関係。原因と結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係
風が吹く(原因)⇒ 桶屋が儲かる(結果) ※ 風が吹くと桶屋が儲かる 最終的には 風が吹くと砂ぼこりが立つ ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる いくつもの因果関係が連鎖したもの。 最終的には 風が吹く(原因)⇒ 桶屋が儲かる(結果) となる。
このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 経済理論はこのような因果関係の積み重ねである。 (例) 「ある商品の価格を下げると、販売数量は増加する」 このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 これから一歩踏み込んで、 「ある商品の価格を○%下げると、販売数量が○%増加する」 というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用いられる。 (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。
統計データを用いた定量的分析のことを、計量分析という。経済分析における計量分析が計量経済分析である。 計量経済分析をおこなうことによって、経済理論が現実経済に合致しているかどうかのチェックをおこなうことができる。 因果関係の定量的分析には回帰分析という統計手法がよく用いられる。
ⅱ) 最小2乗法 回帰分析は、XとYとの関係を、数式をあてはめることによって分析するものである。 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子の身長の関係に注目したところ、直線であらわすことができることを発見したことが始まりである。 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身長の方がより親より平均に近くなること。すなわち非常に高身長な父親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親より高くなることを見出したことによる。(平均への「回帰」が語源である。)
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 ⅱ) 最小2乗法 回帰分析では、最初に、最も適当と考えられる数式の形(回帰モデルという)を選ぶことからおこなわれる。 回帰モデルの例 (どのような式が最適かは、散布図や経済理論などから総合的に判断される) Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 Y=a+bX Y=a+bX2 Y=a/(X+b)
回帰係数の推定値は最小2乗法という方法で求めることができる。 最小2乗法はデータの各点と直線との距離(これを残差という)の2乗和が最小となるように直線を引く方法である。 推定値は次のような式で求められる。
残差はYから を引いたものである。 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 ⅲ) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 予測値は、すべてのデータが推定された回帰直線上にあるとした場合に、あるXに対応したYの値であり、データとして現有していないXに対するYの値の予測となる。 残差はYから を引いたものである。
所得と消費の例ではY=a+bXという線形のモデルを考える。このモデルはケインズ型消費関数といわれるモデルである。 回帰係数の推定値は となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 残差は 173 - 177.13 = -4.13 である。 Y=-23.21+0.945X
決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。 ⅳ) 決定係数 決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。
この2つの例に回帰分析を適用すると、ともにY=3+0 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。ところで、散布図に回帰直線を書き入れたものが下図である。
この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0 この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0.998、右はR2=0.685である。 決定係数は、 と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。
具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗和の比をとったものである。 回帰直線上の点(予測値)と平均の差、この2乗和が回帰によって説明される変動となる。 この2つの比が決定係数R2となる。 決定係数の式は次のようになる。