第2章 単純回帰分析 ー 計量経済学 ー
第1節 線形関係 第2節 最小2乗法 1 経済2変数の関係 2 線形関係(1) 3 線形関係(2) 4 撹乱項 5 撹乱項の性質 第1節 線形関係 1 経済2変数の関係 2 線形関係(1) 3 線形関係(2) 4 撹乱項 5 撹乱項の性質 第2節 最小2乗法 1 記号の準備 2 最小2乗法 3 回帰線が原点を通るケース 4 最小2乗法の性質 (1) 不偏性 (2) 一致性 (3) 効率性 (4) 線形性 5 決定係数 6 検定 7 単純回帰の実際の例 -レクリエーション等の消費関数-
第1節 線形関係 1.経済2変数の関係 経済の動きをあらわす経済指標には、関連のあるものが多くある。 たとえば所得と消費の関係を考えると、 第1節 線形関係 1.経済2変数の関係 経済の動きをあらわす経済指標には、関連のあるものが多くある。 (例) 利子率と設備投資、GDPと輸入 たとえば所得と消費の関係を考えると、 所得↑ → 消費↑ 所得↓ → 消費↓ という関係が考えられる。このような関係を分析する方法が回帰分析である。
所得と消費の関係を分析する場合、分析目的に応じて、2種類の統計データのうちどちらかがを用いられる。 時系列データ データを時間の順序にならべたものであり、過去の変動から現状を把握し、将来を予測するなどの目的に用いる。 データの発生間隔により、年次データ、四半期データ、月次データなどがある ※ 四半期データ - 1年を1月~3月、4月~6月、7月~9月、10月~12月の4つに分けたもので、それぞれを第Ⅰ四半期、第Ⅱ四半期、第Ⅲ四半期、第Ⅳ四半期という。 クロスセクションデータ ある1時点において何らかの属性に関してならべたものであり、地域差などの現状を把握するために用いる。 都道府県別データ、世帯の収入階級別データ、企業の従業員規模別データなどがある。
2.線形関係(1) CとYDを散布図に表した場合、この両者に直線の関係が見られる。そこで、C = a + bYD という1次式を想定する。 この はYDが1単位増加したときのCの増分であり、 限界消費性向といわれる。
3.線形関係(2) 散布図からY(ここではC)とX(ここではYD)の関係を数式の形で表す。 このYを被説明変数または従属変数、Xを説明変数または独立変数という。 両者の関係がY = a + bX + cZというように被説明変数が説明変数の1次の項と定数項の和の形で表現できるものを線形関係という。
しかし、散布図から導かれるYとXの関係は線形なものばかりではない。 線形でない非線形な式は次の2つに分類できる。 線形な式に変換できるもの 線形な式に変換できないもの 線形な式に変換できるものの例として、次のような式がある。 これらの式は対数変換し、変数の置き換えをおこなうことによって線形な式として取り扱える。
被説明変数Yと説明変数Xを両方対数変換したもの回帰係数bを考えると、 <弾力性> 被説明変数Yと説明変数Xを両方対数変換したもの回帰係数bを考えると、 となり、この値は弾力性を表す。 弾力性とは、Xが1%増加したときにYが何%増加するかを表す値である。 (例) X: 20(万円)→28(万円) (28-20)/20 = 0.4 すなわち40%増加 Y: 15(万円)→18(万円) (18-15)/15 = 0.2 すなわち20%増加 b=0.2/0.4=0.5 すなわち、Xが1%増加したとき、Yは0.5%増加する。
<数学的補足(1)>(初学者はとばしてください) 自然対数logについて Y=logXとは、ある定数e(=2.718…)をX乗したものがYとなること。 eX=Yとあらわすことができる。 自然対数であること(eのかわりに10を用いたものを常用対数という)を明確にするため、lnと表記することもある。 logの計算規則 log(XY) = logX + logY log(X/Y) = logX - logY log(Xa) = a logX この計算規則をY=aXbに適用すると
<数学的補足(2)>(初学者はとばしてください) logの微分 logXをXで微分すると となる。したがって、 である。 このことから であることがわかる。 この値は としたときの、弾力性の極限の値であり、弾力性の値に等しい。
2つの経済変数の動きを考えると、完全に直線の形になることはまれである。 理由としては 4.撹乱項 2つの経済変数の動きを考えると、完全に直線の形になることはまれである。 理由としては 説明変数以外の他の要因が考えられる。 人間の行動は理論どおりにいかない。 測定誤差の問題。 などが考えられる。 これらのさまざまな理由を全て吸収したものを u という確率変数で表して、Y = a + bX + u というモデルを考える。 このuのことを撹乱項(または誤差項)とよぶ。
撹乱項は、ある年のXに対する直線上の値と、実際のYの値とのズレを確率変数としてあらわしたもの。 5.撹乱項の性質 YとXのデータが1,2,…,n 年分あったとする。 撹乱項は、ある年のXに対する直線上の値と、実際のYの値とのズレを確率変数としてあらわしたもの。 撹乱項もu1,u2,…,unというように、各X1,X2,…,Xnに対して存在する。 撹乱項の性質として その分布が正規分布 平均値がゼロ 分散がσ2 撹乱項は相互に独立 という仮定がおかれる。 un u2 u1 X1 X2 Xn
第2節 最小2乗法 1.記号の準備 パラメータa,bの推定値を求めるために、最小2乗法が用いられる。 推定された回帰関係 真の回帰関係
算術平均に関して 偏差を小文字で表す。 偏差2乗和と偏差交差積の和は次のようになる。
2.最小2乗法 推定値 を用いて求められる は推定された回帰直線上の点である。この のことを予測値(または理論値)という。 実際のYから予測値を引いたものが残差であるが、この2乗和が最小になるように を定める方法が最小2乗法である。 最小2乗パラメータ推定値は である。
Y 推定された回帰式(その2) 真の回帰式 Y=a+bX × 残差 推定された回帰式(その1) X 残差=撹乱項の実現値の推定値
3.回帰線が原点を通るケース 経済理論などの制約により、回帰線が必ず原点を通るということを想定することがある。すなわち、X = 0 のとき、Y = 0 となる。 このときの回帰モデルはY = bX + u となるので、残差2乗和Gは となるので、これを最小化する は、 である。
回帰係数の推定値 を求める方法は、最小2乗法以外にもいくつかの方法が存在する。 4.最小2乗推定量の性質 回帰係数の推定値 を求める方法は、最小2乗法以外にもいくつかの方法が存在する。 しかし、最小2乗法によって求められた は、他の推定量よりすぐれた性質を持っている。どちらの推定量がすぐれているかを判断する基準として、 不偏性 一致性 効率性 というものがある。
(1) 不偏性 の算術平均が真の回帰係数bに一致するということ。すなわち、 となることである。 一般的に推定量tが不偏性を持つということは が満たされることである。(θは母数) (2) 一致性 一致性とは標本に含まれるデータを増やしたときに推定量が母数に近づくということであり、この場合は が真の回帰係数bに近づく。
(3) 効率性 がともに推定量であったとすると、その中で分散が一番小さい推定量が望ましいということ。 がともに不偏推定量であり、 となるとき、 は より効率的であるという。 最小2乗推定量 はもっとも効率的な推定量である。 以上3つの性質を満たすことから、 は最小分散不偏推定量である
(4) 線形性 最小2乗推定量 にはもう1つの重要な性質があり、それは線形性と呼ばれるものである。 線形性とは推定量がデータの線形結合で表現できることであり、この場合は と表現できることから、線形性が成り立っている。 3つの性質に加え、この線形性の性質を満たすことから、 最小2乗推定量は最良線形不偏推定量(Best Linear Unbiased Estimator)であるといわれる。
5.決定係数 決定係数は回帰モデルのあてはまり具合を示す尺度である。次のような数値例を考えてみよう。
この2つの例に回帰分析を適用すると、ともにY=3+0 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。ところで、散布図に回帰直線を書き入れたものが下図である。
この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0 この2つの図を比べると、データに対する回帰直線のあてはまりが異なることがわかる。それを数値で表したものが決定係数R2であり、左はR2=0.998、右はR2=0.685である。 決定係数は、 と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。
具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗和の比をとったものである。 回帰直線上の点(予測値)と平均の差、この2乗和が回帰によって説明される変動となる。 この2つの比が決定係数R2となる。 決定係数の式は次のようになる。 これを変形すると となる。
もう少し詳細にみてみよう となるので、Yの全変動は となる。ところで、 となることから、 となる。よって、 となる。Yの全変動の3番目の項は、
となる。よって、Yの全変動は 回帰で説明されない部分 回帰で説明される部分 に分解される。決定係数は であるが、 となる。
<相関係数> となる。これを相関係数という。 決定係数の平方根をとると、 相関係数は-1と1の間の値をとり、次のような関係を表している。 となる。これを相関係数という。 相関係数は-1と1の間の値をとり、次のような関係を表している。 正の相関(R>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(R<0) Xが大きな値をとるほど、Yは小さな値をとる。 無相関(R=0) Xの値とYの値に一定の傾向がみられない。
回帰係数の推定値 を、最小2乗法によって求めることは、計算式に当てはめれば簡単に求めることができる。 6.検定 回帰係数の推定値 を、最小2乗法によって求めることは、計算式に当てはめれば簡単に求めることができる。 しかし、定数項や説明変数が回帰式の中で本当に意味を持つものであるかどうか、検定する必要がある。 良くおこなわれる検定は次の2つである。 H0: a=0 vs. H1: a≠0 の検定 定数項が0であるかどうかの検定。 H0が成り立つとき、X=0の時のYは0となる。この場合、回帰線は原点を通る。 消費関数でH0が成り立てば、所得が0の時の消費は0となる。この検定は経済理論の検証の場合が多い。
H0: b=0 vs. H1: b≠0 の検定 Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=aとなる。 この式は、「Yの大きさはXの値にかかわらず一定値aをとる」ということを表している。 回帰分析は、Xの大きさが大きくなることが原因となってYが大きくなる(または小さくなる)ときに行う分析であるので、 H0が採択された場合には、「この分析は行う意味がなかった」ということになってしまう。 Y Y= a a X
が自由度n-2のt分布に従うという性質を用いればよい。 <検定統計量> 検定をおこなう場合に撹乱項の分散σ2が必要となるが、この値はわからないので残差からその推定量を考える。 この推定量を用いて、 を考えると、tは自由度n-2のt分布に従う。H0: b=0の検定にはこの検定統計量を用いればよい。 またH0: a=0 の検定には が自由度n-2のt分布に従うという性質を用いればよい。