Presentation is loading. Please wait.

Presentation is loading. Please wait.

相関と回帰 専修大学経済学部 「経済統計学」 作間逸雄.

Similar presentations


Presentation on theme: "相関と回帰 専修大学経済学部 「経済統計学」 作間逸雄."— Presentation transcript:

1 相関と回帰 専修大学経済学部 「経済統計学」 作間逸雄

2 多変数のデータ いままでは、1変数データの記述(平均・分散・標準偏差・ヒストグラム等々)、分析。
このパワーポイントでは多変数(多変量)のデータを記述、分析することを考える。 変数 個体名 所持金(円) 通学時間(分) サークル ゼミ 2521 70 1 918 40 30062 100 15321 30 9771 90 1550 レコード

3 2変数データを記号であらわす 小文字は、「偏差」をあらわす。

4 散布図

5 相関係数のアイディア 散布図を4区画にわけ、 の符号を考察する。

6 相関係数のアイディア - + - + 正の相関(順相関) 負の相関(逆相関) の正負によって上図の+領域にある
                     の正負によって上図の+領域にある データが多いか、-領域にあるデータが多いかがわかる

7 相関係数のアイディア 共分散 比較せよ! 分散(nで割る算式) (参考)変動 標準偏差 データのスケールや単位に依存する!

8 相関係数のアイディア(続) 相関係数とは、2つの変数が直線的にどの程度関連しているかを示す尺度。
スケールや単位に依存する共分散(sXY)を標準偏差の積(sXsY)でわると、スケールや単位の取り方から自由な尺度を作ることができる。

9 相関係数の性質 証明はあとまわし! 1に近いほど正の相関が強く、ー1に近いほど負の相関が強い。 0に近いと相関が弱い。

10 回帰

11 回帰 回帰(regression) 生物統計学者であり、「優生学」の創始者、フランシス・ゴールトン(F.Galton,1822-1911)の着想による。 ゴールトンは次のようなことを主張した。たとえば、背の高い親を持つ子の身長は親ほどには高くない。逆に、背の低い親を持つ子の身長は親ほどには低くない。このように、集団平均からのずれの著しい親の子は親よりずれが小さくなる傾向がある。第2世代は平均の方向にもどってゆく(子の回帰)。このような先祖返りが「回帰」と呼ばれた。

12 回帰直線 直線の傾きが集団遺伝学上の「回帰」。 回帰bが0<b<1であることがゴールトンの主張 子の身長 子の平均からのずれ
親の平均からのずれ 親の身長

13 統計学上の「回帰」 現在の統計学では、2変数データ(一般に多変数データ)に関数関係をあてはめることを「回帰」と呼ぶ。
経済学でも、消費関数C=a+bYの推計等、さまざまな分野で使われる。 関数における「独立変数」(…を決めれば)、「従属変数」(…が決まる)の区別に対応するのが「説明変数」、「被説明変数」。ただし、若干意味がちがう。 たとえば、C=a+bY+cY2の場合、独立変数はYだが、説明変数は、YとY2である。

14 どうやって回帰直線をひくか? 最小二乗法OLS
データ点と回帰直線との垂直距離の2乗の合計を最小にしよう!

15 未知数はa、bである。 回帰直線は、(Xの平均、Yの平均)の点を通る。

16

17 相関係数の幾何学的解釈 θ 2データの場合、この図はありない!偏差ベクトルの要素の符号は、たとえば、正、負のようになるはず。

18 余弦定理の復習 A B C a b c θ P

19 残差分散の分解による方法

20 回帰計算のワークシート 1人当たりGNI( X) 米ドル表示 2001年 ユニセフ資料 女性成人非識字率(Y) % 2000年 ユニセフ資料

21 回帰計算のワークシート(続)

22 決定係数 どんな散布図でも、回帰直線は引けてしまう。
あてはまりのよさの尺度がほしい。それが決定係数である。直感的に、それは、相関係数と密接な関係にある。

23

24

25 決定係数と相関係数との関係

26

27 ※内閣府男女共同参画局編『少子化と男女共同参画に関する社会環境の国際比較報告書』(国立印刷局、2005年) の5頁に同じものがある。

28 合計特殊出生率(TFR)とは? ふつう、「出生率」といえば、これ。
女性が出産可能な年齢を15歳から49歳までと規定し、それぞれの出生率を出し、足し合わせることで、人口構成の偏りを排除し、一人の女性が一生に産む子どもの数の平均を求めたもの。 ある年において、f(x)を「年齢xの女性が一年間に産んだ子どもの数」、g(x)を「年齢xの女性の数」とすると、その年の合計特殊出生率は 「特殊」とは、「年齢を特定した」意味にとればよいだろう。

29 合計特殊出生率の計算

30 合計特殊出生率(TFR)とは? TFR=Total Fertility Rate
合計特殊出生率がおよそ2( 2.08 人口置換水準)であれば人口は横ばいを示し、これを上回れば自然増、下回れば自然減となる。 1990年の「1.57ショック」以降、少子化対策が政府の重要課題となっている。

31 世界の合計特殊出生率

32 合計特殊出生率の推移

33 相関分析・回帰分析の注意点 共通の第三変数が影響 コウノトリの減少 出生率の低下
相関分析を行うこと、回帰直線をひくことは、2つの変数の間に因果関係が存在することを示すものではない。原因・結果は、分析者がモデルの中で構想するものである。 みかけの相関(疑似相関) 「コウノトリの数が多いところでは(夫婦)の子供の数も多い!」 都市化 共通の第三変数が影響 コウノトリの減少 出生率の低下

34 横断面vs時系列 スウェーデンの奇跡 スウェーデン・モデルの失敗

35 線形回帰の範囲は広い(1) 関数をあてはめるといっても、これまでは、その関数は、1次関数に限られていた。線形回帰である。しかし、線形回帰の範囲は広い。 この部分をXと変換すれば、線形回帰の範囲内。

36 重回帰 単回帰(単純回帰)が定数項のほか、説明変数が1つしかない回帰であるのに対して、重回帰は、定数項のほか、説明変数2つ以上の回帰である。
消費関数の推計でも、(可処分)所得以外に、たとえば、前期の消費を説明変数にとり入れる可能性がある。 最小二乗法の考え方は、単回帰の場合と同じ。

37 修正決定係数 重回帰の場合、決定係数については、要注意。
説明変数をふやしてゆくと、決定係数は自動的に増加する。あてはまりのよさを誇張して示してしまう。 そこで、決定係数を修正して使う。それが修正済み決定係数あるいは自由度調整済み決定係数             である。

38

39 重相関と偏相関 重相関係数Rは決定係数R2の平方根である。 重相関係数は説明変数全体と被説明変数との関係の強さを示す。
説明変数一つ一つと被説明変数との関係の強さを測るのが偏相関係数。 X0, X1, X2の3変数データの場合、 X0とX1をX2に対して回帰させたときの残差をX0・2およびX1・2と書く。この両者の相関係数を偏相関係数と呼ぶ。

40 偏相関係数の計算 ふつうの相関係数(単純相関係数)がわかっていれば、偏相関係数は、次式から計算できる(証明は略)。

41 回帰の推測統計的側面 記述統計としての回帰(平均や分散を計算するのと同じように、データを整理する作業である!) 整理の仕方が回帰式
  を使っていて複雑だっただけ。 ここでは、推測統計としての回帰を考える。そのなかで、検定という統計的推測の手法を説明してみよう。 母集団(=現実の経済)がどうなっているかをモデルとして思い描く。実際に得られたデータによって、そのモデルが支持されるかどうかをテストするわけである。

42 標準線形回帰モデル まず、次のような標準線形回帰モデルが母集団に妥当すると仮定する。 説明変数は、確率変数ではない。 説明変数 被説明変数
誤差項 確率変数

43 標準線形回帰モデル(2) モデルは、データが生み出される構造。
たとえば、Xが原因であり、Yが結果であるという因果関係が分析者の頭の中で想定されている。 誤差項がつくことに関しては、2通りの説明がある。1)測定誤差 2)説明変数以外の要因の影響の総和

44 標準線形回帰モデル(3) ――誤差項に関する仮定――

45 標準線形回帰モデル(4) kは説明変数の数 n-k-1は自由度ともいう。

46 回帰モデルの仮説検定(1) ――t検定―― 「t値」(t-value)は、最小二乗法によって推定された回帰係数(や切片)が「有意である」かどうかを判定するために用いられる統計量である。 「有意である」とは、回帰係数が統計学的にゼロでないと判定されることである。 そのため、「検定」の手法が用いられる。「検定」では、「帰無仮説」が設定され、それがテストされる。 β=0という仮説が設定される。それがテストの結果、だめだということになれば(「棄却」されれば)、β≠0、つまり、説明変数は被説明変数に「有意に」影響を与えているということになる。

47 回帰モデルの仮説検定(2) ――t検定―― 標準正規線形回帰モデルのもとで、
回帰モデルの仮説検定(2) ――t検定―― 標準正規線形回帰モデルのもとで、  (b-β)/sbは、自由度n-k-1のt分布に従うことが知られている。 帰無仮説(β=0)のもとでのtの値b/sbをt値またはt比という。たとえば、tがある大きな値   t1をとるとき、t分布表を使って、tがそのような値あるいはさらに大きな値を取る確率   P(|t|≧|t1|)を計算できる。

48 回帰モデルの仮説検定(3) ――t検定―― その確率(P値)があまりに小さければ、帰無仮説は疑わしいことになるであろう。
回帰モデルの仮説検定(3) ――t検定―― その確率(P値)があまりに小さければ、帰無仮説は疑わしいことになるであろう。 仮説検定では、「有意水準」と呼ばれる確率をあらかじめ(5%とか1%とか)定めておいて、その確率とうえの確率を比較する。そのさい、t分布表で臨界値を調べておくとよい。 有意水準は、分析者が判定ミスを犯す確率でもある。

49 回帰モデルの仮説検定(3) ――t検定―― めやすは、t値>2.0。 仮説検定には、両側検定と片側検定がある。
回帰モデルの仮説検定(3) ――t検定―― めやすは、t値>2.0。 仮説検定には、両側検定と片側検定がある。 どちらを選ぶかは、「対立仮説」の問題。 重回帰モデルの検定には、t検定以外に、複数の回帰係数をまとめて検定するF検定がある。 もし、t値が小さい場合、多重共線性(「マルチコ」)の危険がある。

50 回帰結果のあらわし方 賃金関数1965-80年についての神代和欣(かずよし)氏の推計
X 春季賃上げ率=  + 9.974(有効求人倍率)            (-4.76)   (7.62)           +0.766(消費者物価上昇率:全国)            (9.07)            (卸売物価相対比:工業製品/原材料)            (4.28)        Y Z たとえば、 150/120 =1.25

51 重回帰の例と回帰結果の表し方 データ Water Companies Profit (million pounds), 2005-06
Leakage(million liters per day), Capital Expenditure, Seven Trent 412 502 2200 United Utilities 481 500 2500 Yorkshire 224 293 1450 Northumbrian 217 222 839 Anglican 108 214 1460 Southern 100 92 1560 South West 175 83 762 Wessex 73 755

52 相関行列 相関行列 Leakage (million liters per day), Capital Expenditure, Profit (million pounds), Leakage(million liters per day), 1.0000 0.8584 0.9338 0.7858

53 重回帰の結果(被説明変数=利潤 説明変数=漏水量、資本支出)
重回帰式 変数名 偏回帰係数 T 値 P 値 判 定 標準誤差 偏相関 単相関 Leakage(million liters per day), 3.1726 0.0247 * 0.8174 0.9338 Capital Expenditure, 0.1938 0.8540 0.7858 定数項 0.6430 0.5486 *5%有意 **1%有意

54 重回帰結果 精度 決定係数 0.8730 修正済決定係数 0.8222 重相関係数 0.9344 修正済重相関係数 0.9068
ダービンワトソン比 2.4409 赤池のAIC


Download ppt "相関と回帰 専修大学経済学部 「経済統計学」 作間逸雄."

Similar presentations


Ads by Google