相関と回帰 専修大学経済学部 「経済統計学」 作間逸雄.

Slides:



Advertisements
Similar presentations
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
Advertisements

統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
第4章 回帰分析の諸問題(1) ー 計量経済学 ー.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
第4章 回帰分析の諸問題(1) ー 計量経済学 ー.
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
第3章 2変量データの記述 統計学基礎 2010年度.
男性の育児が肥満に与える影響 富山大学 経済学部 経済学科 孫田 篤 専門ゼミ-報告会.
重回帰分析入門 経済データ解析 2009年度.
データ解析 静岡大学工学部 安藤和敏
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
第2章 単純回帰分析 ー 計量経済学 ー.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
重回帰分析入門 経済データ解析 2011年度.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
確率・統計Ⅱ 第7回.
回帰分析.
日本の少子化問題:その原因と対策 ~県別のパネルデータでの分析~.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 12/13(木).
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
離婚が出生数に与える影響 -都道府県データを用いた計量分析
補章 時系列モデル入門 ー 計量経済学 ー.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
部分的最小二乗回帰 Partial Least Squares Regression PLS
1.母平均の検定:小標本場合 2.母集団平均の差の検定
第3章補足2 多変量データの記述 統計学基礎 2010年度.
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第7章 単回帰で「消費関数」を計測する 1.所得の定義 1.1 国民純生産 国内総生産(GDP) ⇔ 所得
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
回帰分析(Regression Analysis)
データ解析 静岡大学工学部 安藤和敏
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
Presentation transcript:

相関と回帰 専修大学経済学部 「経済統計学」 作間逸雄

多変数のデータ いままでは、1変数データの記述(平均・分散・標準偏差・ヒストグラム等々)、分析。 このパワーポイントでは多変数(多変量)のデータを記述、分析することを考える。 変数 個体名 所持金(円) 通学時間(分) サークル ゼミ A 2521 70 1 B 918 40 C 30062 100 D 15321 30 E 9771 90 F 1550 レコード

2変数データを記号であらわす 小文字は、「偏差」をあらわす。

散布図

相関係数のアイディア - + - + 散布図を4区画にわけ、 の符号を考察する。

相関係数のアイディア - + - + 正の相関(順相関) 負の相関(逆相関) の正負によって上図の+領域にある                      の正負によって上図の+領域にある データが多いか、-領域にあるデータが多いかがわかる

相関係数のアイディア 共分散 比較せよ! 分散(nで割る算式) (参考)変動 標準偏差 データのスケールや単位に依存する!

相関係数のアイディア(続) 相関係数とは、2つの変数が直線的にどの程度関連しているかを示す尺度。 スケールや単位に依存する共分散(sXY)を標準偏差の積(sXsY)でわると、スケールや単位の取り方から自由な尺度を作ることができる。

相関係数の性質 証明はあとまわし! 1に近いほど正の相関が強く、ー1に近いほど負の相関が強い。 0に近いと相関が弱い。

回帰 - + - +

回帰 回帰(regression) 生物統計学者であり、「優生学」の創始者、フランシス・ゴールトン(F.Galton,1822-1911)の着想による。 ゴールトンは次のようなことを主張した。たとえば、背の高い親を持つ子の身長は親ほどには高くない。逆に、背の低い親を持つ子の身長は親ほどには低くない。このように、集団平均からのずれの著しい親の子は親よりずれが小さくなる傾向がある。第2世代は平均の方向にもどってゆく(子の回帰)。このような先祖返りが「回帰」と呼ばれた。

回帰直線 直線の傾きが集団遺伝学上の「回帰」。 回帰bが0<b<1であることがゴールトンの主張 子の身長 子の平均からのずれ 親の平均からのずれ 親の身長

統計学上の「回帰」 現在の統計学では、2変数データ(一般に多変数データ)に関数関係をあてはめることを「回帰」と呼ぶ。 経済学でも、消費関数C=a+bYの推計等、さまざまな分野で使われる。 関数における「独立変数」(…を決めれば)、「従属変数」(…が決まる)の区別に対応するのが「説明変数」、「被説明変数」。ただし、若干意味がちがう。 たとえば、C=a+bY+cY2の場合、独立変数はYだが、説明変数は、YとY2である。

どうやって回帰直線をひくか? 最小二乗法OLS データ点と回帰直線との垂直距離の2乗の合計を最小にしよう!

未知数はa、bである。 回帰直線は、(Xの平均、Yの平均)の点を通る。

相関係数の幾何学的解釈 θ 2データの場合、この図はありない!偏差ベクトルの要素の符号は、たとえば、正、負のようになるはず。

余弦定理の復習 A B C a b c θ P

残差分散の分解による方法

回帰計算のワークシート 1人当たりGNI( X) 米ドル表示 2001年 ユニセフ資料 女性成人非識字率(Y) % 2000年 ユニセフ資料

回帰計算のワークシート(続)

決定係数 どんな散布図でも、回帰直線は引けてしまう。 あてはまりのよさの尺度がほしい。それが決定係数である。直感的に、それは、相関係数と密接な関係にある。

決定係数と相関係数との関係

※内閣府男女共同参画局編『少子化と男女共同参画に関する社会環境の国際比較報告書』(国立印刷局、2005年) の5頁に同じものがある。

合計特殊出生率(TFR)とは? ふつう、「出生率」といえば、これ。 女性が出産可能な年齢を15歳から49歳までと規定し、それぞれの出生率を出し、足し合わせることで、人口構成の偏りを排除し、一人の女性が一生に産む子どもの数の平均を求めたもの。 ある年において、f(x)を「年齢xの女性が一年間に産んだ子どもの数」、g(x)を「年齢xの女性の数」とすると、その年の合計特殊出生率は 「特殊」とは、「年齢を特定した」意味にとればよいだろう。

合計特殊出生率の計算

合計特殊出生率(TFR)とは? TFR=Total Fertility Rate 合計特殊出生率がおよそ2( 2.08 人口置換水準)であれば人口は横ばいを示し、これを上回れば自然増、下回れば自然減となる。 1990年の「1.57ショック」以降、少子化対策が政府の重要課題となっている。

世界の合計特殊出生率

合計特殊出生率の推移

相関分析・回帰分析の注意点 共通の第三変数が影響 コウノトリの減少 出生率の低下 相関分析を行うこと、回帰直線をひくことは、2つの変数の間に因果関係が存在することを示すものではない。原因・結果は、分析者がモデルの中で構想するものである。 みかけの相関(疑似相関) 「コウノトリの数が多いところでは(夫婦)の子供の数も多い!」 都市化 共通の第三変数が影響 コウノトリの減少 出生率の低下

横断面vs時系列 スウェーデンの奇跡 スウェーデン・モデルの失敗

線形回帰の範囲は広い(1) 関数をあてはめるといっても、これまでは、その関数は、1次関数に限られていた。線形回帰である。しかし、線形回帰の範囲は広い。 この部分をXと変換すれば、線形回帰の範囲内。

重回帰 単回帰(単純回帰)が定数項のほか、説明変数が1つしかない回帰であるのに対して、重回帰は、定数項のほか、説明変数2つ以上の回帰である。 消費関数の推計でも、(可処分)所得以外に、たとえば、前期の消費を説明変数にとり入れる可能性がある。 最小二乗法の考え方は、単回帰の場合と同じ。

修正決定係数 重回帰の場合、決定係数については、要注意。 説明変数をふやしてゆくと、決定係数は自動的に増加する。あてはまりのよさを誇張して示してしまう。 そこで、決定係数を修正して使う。それが修正済み決定係数あるいは自由度調整済み決定係数             である。

重相関と偏相関 重相関係数Rは決定係数R2の平方根である。 重相関係数は説明変数全体と被説明変数との関係の強さを示す。 説明変数一つ一つと被説明変数との関係の強さを測るのが偏相関係数。 X0, X1, X2の3変数データの場合、 X0とX1をX2に対して回帰させたときの残差をX0・2およびX1・2と書く。この両者の相関係数を偏相関係数と呼ぶ。

偏相関係数の計算 ふつうの相関係数(単純相関係数)がわかっていれば、偏相関係数は、次式から計算できる(証明は略)。

回帰の推測統計的側面 記述統計としての回帰(平均や分散を計算するのと同じように、データを整理する作業である!) 整理の仕方が回帰式   を使っていて複雑だっただけ。 ここでは、推測統計としての回帰を考える。そのなかで、検定という統計的推測の手法を説明してみよう。 母集団(=現実の経済)がどうなっているかをモデルとして思い描く。実際に得られたデータによって、そのモデルが支持されるかどうかをテストするわけである。

標準線形回帰モデル まず、次のような標準線形回帰モデルが母集団に妥当すると仮定する。 説明変数は、確率変数ではない。 説明変数 被説明変数 誤差項 確率変数

標準線形回帰モデル(2) モデルは、データが生み出される構造。 たとえば、Xが原因であり、Yが結果であるという因果関係が分析者の頭の中で想定されている。 誤差項がつくことに関しては、2通りの説明がある。1)測定誤差 2)説明変数以外の要因の影響の総和

標準線形回帰モデル(3) ――誤差項に関する仮定――

標準線形回帰モデル(4) kは説明変数の数 n-k-1は自由度ともいう。

回帰モデルの仮説検定(1) ――t検定―― 「t値」(t-value)は、最小二乗法によって推定された回帰係数(や切片)が「有意である」かどうかを判定するために用いられる統計量である。 「有意である」とは、回帰係数が統計学的にゼロでないと判定されることである。 そのため、「検定」の手法が用いられる。「検定」では、「帰無仮説」が設定され、それがテストされる。 β=0という仮説が設定される。それがテストの結果、だめだということになれば(「棄却」されれば)、β≠0、つまり、説明変数は被説明変数に「有意に」影響を与えているということになる。

回帰モデルの仮説検定(2) ――t検定―― 標準正規線形回帰モデルのもとで、 回帰モデルの仮説検定(2) ――t検定―― 標準正規線形回帰モデルのもとで、  (b-β)/sbは、自由度n-k-1のt分布に従うことが知られている。 帰無仮説(β=0)のもとでのtの値b/sbをt値またはt比という。たとえば、tがある大きな値   t1をとるとき、t分布表を使って、tがそのような値あるいはさらに大きな値を取る確率   P(|t|≧|t1|)を計算できる。

回帰モデルの仮説検定(3) ――t検定―― その確率(P値)があまりに小さければ、帰無仮説は疑わしいことになるであろう。 回帰モデルの仮説検定(3) ――t検定―― その確率(P値)があまりに小さければ、帰無仮説は疑わしいことになるであろう。 仮説検定では、「有意水準」と呼ばれる確率をあらかじめ(5%とか1%とか)定めておいて、その確率とうえの確率を比較する。そのさい、t分布表で臨界値を調べておくとよい。 有意水準は、分析者が判定ミスを犯す確率でもある。

回帰モデルの仮説検定(3) ――t検定―― めやすは、t値>2.0。 仮説検定には、両側検定と片側検定がある。 回帰モデルの仮説検定(3) ――t検定―― めやすは、t値>2.0。 仮説検定には、両側検定と片側検定がある。 どちらを選ぶかは、「対立仮説」の問題。 重回帰モデルの検定には、t検定以外に、複数の回帰係数をまとめて検定するF検定がある。 もし、t値が小さい場合、多重共線性(「マルチコ」)の危険がある。

回帰結果のあらわし方 賃金関数1965-80年についての神代和欣(かずよし)氏の推計 X 春季賃上げ率=-32.909 + 9.974(有効求人倍率)            (-4.76)   (7.62)           +0.766(消費者物価上昇率:全国)            (9.07)           +29.176(卸売物価相対比:工業製品/原材料)            (4.28)        Y Z たとえば、 150/120 =1.25

重回帰の例と回帰結果の表し方 データ Water Companies Profit (million pounds), 2005-06 Leakage(million liters per day),2004-05 Capital Expenditure, 2005-10 Seven Trent 412 502 2200 United Utilities 481 500 2500 Yorkshire 224 293 1450 Northumbrian 217 222 839 Anglican 108 214 1460 Southern 100 92 1560 South West 175 83 762 Wessex 73 755

相関行列 相関行列 Leakage (million liters per day),2004-05 Capital Expenditure, 2005-10 Profit (million pounds), 2005-06 Leakage(million liters per day),2004-05 1.0000 0.8584 0.9338 0.7858

重回帰の結果(被説明変数=利潤 説明変数=漏水量、資本支出) 重回帰式 変数名 偏回帰係数 T 値 P 値 判 定 標準誤差 偏相関 単相関 Leakage(million liters per day),2004-05 0.831952982 3.1726 0.0247 * 0.2622325 0.8174 0.9338 Capital Expenditure, 2005-10 -0.013559322 0.1938 0.8540 0.0699753 -0.0863 0.7858 定数項 38.73122355 0.6430 0.5486 60.239608 *5%有意 **1%有意

重回帰結果 精度 決定係数 0.8730 修正済決定係数 0.8222 重相関係数 0.9344 修正済重相関係数 0.9068 ダービンワトソン比 2.4409 赤池のAIC 93.0394