重回帰分析入門 (第5章補足) 統計学 2007年度
消費額の大小は、所得の大小が原因となっている。 a) 重回帰分析とは 所得と消費との間に、 Y(消費) = a + b X(所得) ↑ ↑ 結果 原因 という因果関係が存在することを、ケインズが提唱した。 これは、 消費額の大小は、所得の大小が原因となっている。 ということである。 (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。
しかし、消費額の大小を決定する原因は所得だけでよいであろうか? (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。 ここで、毎月のバイト代が5万円の人が2人いたとしよう。その2人のうち1人は貯蓄が0円、もう1人は100万円の貯蓄があったとする。 この2人の所得は等しい。なので、消費額は同じぐらいになるはずであるが、100万円の貯蓄がある人は、その貯蓄を崩して消費することも可能である。 すなわち、消費額の大小は、所得だけでなく、資産(預貯金以外に、株式などを含めたもの)の大小によって決定されるのではないであろうか? Y(消費) = a + b X(所得) + c W(資産) ↑ ↑ ↑ 結果 原因1 原因2 † このようなモデルはトービンによって提唱された
説明変数が複数ある回帰モデルのことを重回帰モデルといい、重回帰モデルを用いた分析のことを重回帰分析という。 (説明変数が1つのモデルは単回帰モデル(または単純回帰モデル)といい、単回帰モデルを用いた分析のことを単回帰分析(または単純回帰分析)という) 重回帰モデルは次のような式で表される。 Y = a + bX + cW + dZ + ・・・ Y = a + b1X1 + b2X2 + b3X3 + ・・・ (説明変数とその係数を添え字つきの変数で表したもの) Y = b0 + b1X1 + b2X2 + b3X3 + ・・・ (上の式の定数の部分も添え字つきの表現をしたもの) 重回帰モデルの中には説明変数が多数のモデルもあるので、別々のアルファベットで表現するには不十分となり、添え字つきの変数で表現されることがある。
b) 3変数(説明変数が2つ)の場合の重回帰モデル Y 3変数の場合には回帰直線ではなく、回帰平面になる。 この場合、最小2乗法は各点と回帰平面との垂直方向の距離(これが残差)の2乗和が最小になるように平面を描くことである。 最小2乗法で求めた回帰平面の係数推定値は次のようになる。 W × × × × 回帰平面 Y=a+bX+cW X
決定係数は、説明変数の数を増やせば増やすほど、説明変数と被説明変数の間に因果関係が見られなくても1に近づく c) 自由度修正済み決定係数 単回帰分析において、回帰モデルのあてはまり具合の尺度として決定係数を紹介した。 重回帰分析においても、決定係数は回帰モデルのあてはまり具合の尺度となる。 しかし、決定係数には次のような欠点がある。 決定係数は、説明変数の数を増やせば増やすほど、説明変数と被説明変数の間に因果関係が見られなくても1に近づく すなわち、Y(消費)=a+bX(所得)+cW というモデルの変数Wに、全く関係ないデータ(たとえば、阪神タイガースの順位のデータとか、交通事故死亡者数のデータとか)を用いても、単回帰モデルより決定係数が1に近づく。
そこで、決定係数に説明変数の数を考慮して修正を加えた、自由度修正済み決定係数が用いられる。 自由度修正済み決定係数は次のように定義される。 ただし、 である。 自由度修正済み決定係数と決定係数には、次のような関係がある。 k: 変数の数
自由度修正済み決定係数 は負の値をとることもある。 自由度修正済み決定係数 は負の値をとることもある。 (例) n=4, k=3,R2=0.5 のとき 自由度修正済み決定係数は、説明変数の数が異なる複数のモデルで、どちらのモデルが回帰のあてはまりが良いかを判断するときなどに用いられる。 たとえば消費関数において、 のいずれのモデルが良いかを判断するためには、決定係数ではなく、自由度修正済み決定係数が有効である。
重回帰分析においても、個々の回帰係数についての仮説検定をおこない、それぞれの変数が回帰モデルに含まれるべきかどうかを検討する。 d) 仮説検定 重回帰分析においても、個々の回帰係数についての仮説検定をおこない、それぞれの変数が回帰モデルに含まれるべきかどうかを検討する。 (Y=a+bX+cWというモデルであれば、 H0: b=0 vs. H1: b≠0 の検定と、 H0: c=0 vs. H1: c≠0 の検定をおこなう) 重回帰モデルの場合は、複数の回帰係数が同時に0であるという検定もおこなうことが可能である。 すなわち、 H0: b=c=0 という検定仮説の検定である。(対立仮説は簡単に表現できない。各自考えてみよ) この場合、検定統計量がF分布にしたがうので、それを用いた検定をおこなう。