第5章 回帰分析入門 統計学 2006年度
Ⅰ 経済の統計的分析 Ⅱ 記述統計としての回帰分析 Ⅲ 回帰分析の統計的推論 a) 経済学における統計学の役割 b) 相関関係と因果関係 Ⅰ 経済の統計的分析 a) 経済学における統計学の役割 b) 相関関係と因果関係 c) 計量経済分析とは Ⅱ 記述統計としての回帰分析 a) 回帰係数の導出 1) 最小2乗法 2) 予測値と残差 b) 決定係数 Ⅲ 回帰分析の統計的推論 a) 回帰係数の区間推定 b) 回帰係数の有意性検定
Ⅰ 経済の統計的分析 経済学における統計学の果たす役割としては主に2つある。 統計データによる現実経済の理解 経済理論の検証 Ⅰ 経済の統計的分析 a) 経済学における統計学の役割 経済学における統計学の果たす役割としては主に2つある。 統計データによる現実経済の理解 各世帯の貯蓄額をヒストグラムであらわす 失業率の誤差がどの程度か考える 目標精度にあわせた標本調査の設計 経済理論の検証 経済理論における因果関係の分析 記述統計、推測統計ともに経済学に貢献をしている。
b) 相関関係と因果関係 左の表は日本の実質家計可処分所得(所得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年までのデータである。 このデータを横軸に所得、縦軸に消費をとった散布図であらわすと、下の図のようになる。
所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。 所得が多くなれば、消費も多くなる。 <参考> 「第1章 記述統計の復習」より 正の相関(r>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(r<0) Xが大きな値をとるほど、Yは小さな値をとる。 無相関(r=0) Xの値とYの値に一定の傾向がみられない。 所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。 所得が多くなれば、消費も多くなる。 所得が少なくなれば、消費も多くなる。
所得と消費の関係は相関関係だけではなく、所得を原因、消費を結果とする因果関係が成り立っている。 一方が原因となって、もう一方が結果となる関係。原因と結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係
風が吹く(原因) ⇒ 桶屋が儲かる(結果) ※ 風が吹くと桶屋が儲かる 最終的には 風が吹くと砂ぼこりが立つ ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる 最終的には 風が吹く(原因) ⇒ 桶屋が儲かる(結果)
このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 c) 計量経済分析とは 経済理論はこのような因果関係の積み重ねである。 (例) 「利子率を下げると消費が拡大し、需要が喚起される」 このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 これから一歩踏み込んで、 「利子率を○%下げると消費が拡大し、○○円程度の需要が喚起される」 というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用いられる。 (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。
統計データを用いた定量的分析のことを、計量分析という。経済分析における計量分析が計量経済分析である。 計量経済分析をおこなうことによって、経済理論が現実経済に合致しているかどうかのチェックをおこなうことができる。 因果関係の定量的分析には回帰分析という統計手法がよく用いられる。
Ⅱ 記述統計としての回帰分析 a) 回帰係数の導出 1) 最小2乗法 Xが原因で、Yが結果であるという因果関係が成り立っている場合、数式の形(回帰モデルという)で表し、分析をおこなう。 回帰モデルの例 (どのような式が最適かは、散布図や経済理論などから総合的に判断される) Y=a+bX Y=a+bX2 Y=a/(X+b) Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。
å å å å å å å å å å å 回帰係数の推定値は最小2乗法という方法で求めることができる。 最小2乗法はデータの各点と直線との距離(これを残差という)の2乗和が最小となるように直線を引く方法である。 推定値は次のような式で求められる。 å å å ˆ n XY - X Y b = å å n X 2 - ( X ) 2 å å å å X 2 Y - X XY ˆ a = å å n X 2 - ( X ) 2
あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 2) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 予測値は、すべてのデータが推定された回帰直線上にあるとした場合に、あるXに対応したYの値であり、データとして現有していないXに対するYの値の予測となる。 Y ˆ Y 残差はYから を引いたものである。 ˆ Y ˆ Y
所得と消費の例ではY=a+bXという線形のモデルを考える。このモデルはケインズ型消費関数といわれるモデルである。 回帰係数の推定値は となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 残差は 173 - 177.13 = -4.13 である。 21 . 23 ˆ 945 - = a b
決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。 b) 決定係数 決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。
この2つの例に回帰分析を適用すると、ともにY=3+0 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。ところで、散布図に回帰直線を書き入れたものが下図である。
この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0 この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0.998、右はR2=0.685である。 決定係数は、 と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。 回帰によって説明され る変動 R 2 = Y の全変動
具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗和の比をとったものである。 回帰直線上の点(予測値)と平均の差、この2乗和が回帰によって説明される変動となる。 この2つの比が決定係数R2となる。 決定係数の式は次のようになる。 å ˆ ( Y - Y ) 2 R 2 = å ( Y - Y ) 2
Ⅱ 回帰分析における統計的推論 推論 Y=a+bX ˆ ˆ Y = a ˆ + b X 真の回帰関係 推定された回帰式
Y 推定された回帰式(その2) 真の回帰式 Y=a+bX 推定された回帰式(その1) X
各点における残差を とし、 を考えると、 が自由度n-2のt分布にしたがう。 e = Y - ˆ Y e + L e s = n - 2 ˆ a) 回帰係数の区間推定 各点における残差を とし、 を考えると、 が自由度n-2のt分布にしたがう。 e = Y - ˆ Y i i i e 2 + L e 2 s 2 = 1 n n - 2 ˆ b - b t = s 2 ( x 2 + + L x 2 ) 1 n
よって、回帰係数bを信頼係数95%で区間推定すると、信頼区間は となる。 (ここで、t0.95は自由度n-2のt分布の95%点) s 2 s 2 ˆ ( b - ˆ t , b + t ) . 95 ( x 2 + + L x 2 ) . 95 ( x 2 + + L x 2 ) 1 n 1 n
回帰係数の推定値 は、最小2乗法によって求めることは、計算式に当てはめれば簡単に求めることができる。 b) 回帰係数の有意性検定 回帰係数の推定値 は、最小2乗法によって求めることは、計算式に当てはめれば簡単に求めることができる。 しかし、定数項や説明変数が回帰式の中で本当に意味を持つものであるかどうか、検定する必要がある。 良くおこなわれる検定は次の2つである。 H0: a=0 vs. H1: a≠0 の検定 定数項が0であるかどうかの検定。 H0が成り立つとき、X=0の時のYは0となる。この場合、回帰線は原点を通る。 消費関数でH0が成り立てば、所得が0の時の消費は0となる。この検定は経済理論の検証の場合が多い。
Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=aとなる。 H0: b=0 vs. H1: b≠0 の検定 Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=aとなる。 この式は、「Yの大きさはXの値にかかわらず一定値aをとる」ということを表している。 回帰分析は、Xの大きさが大きくなることが原因となってYが大きくなる(または小さくなる)ときに行う分析であるので、 H0が採択された場合には、「この分析は行う意味がなかった」ということになってしまう。 Y Y= a a X
が自由度n-2のt分布に従うという性質を用いればよい。 H0: b=0の検定について、 という統計量を考えると、tは自由度n-2のt分布にしたがう。 よって、 またH0: a=0 の検定には が自由度n-2のt分布に従うという性質を用いればよい。 ) ( ˆ 2 1 n x s b t + = - L を棄却 のとき、 または を採択 0.95 H t > - < £ a ˆ - a t = 1 X 2 s 2 ( + ) n x 2 + L + x 2 1 n