事例研究(ミクロ経済政策・問題分析 I) - 規制産業と料金・価格制度 - (#402 – 離散型選択分析の基礎 (Logit/Tobit等)) 2017年 12月 戒能一成
0. 本講の目的 (手法面) - 応用データ解析の手法のうち、離散型選択モデ ル (二項選択型、Tobit型、Heckman二段推計型 など) の概要を理解する (内容面) - 計量経済学・統計学を実戦で応用する際の 留意点を理解する
1. 離散型選択モデルの基礎 1-1. 離散型選択モデルの概念 - 離散型選択モデルとは、被説明変数が離散的 な値をとる場合(二項選択型)や、非連続的な値を とる場合(Tobit型他)に、当該被説明変数の値の 分布が観察対象のどのような選択行動の結果と して生じたものかを分析するモデルを指す - 当該モデルの典型的な手法の多くは、選択の確 率(Probability)を用いて離散型選択を連続型確率 に変換することにより解を得ている - 唯一の例外がMonte-Carlo法(確率論的方法) 3
- 二項選択型 Binary Outcome Model - 多項・多段階選択型 Multi-nominal/-Stage M. 1. 離散型選択モデルの基礎 1-2. 離散型選択モデルの種類(1) (単純選択型) ← 選択の結果のみを扱う場合 - 二項選択型 Binary Outcome Model 例: 就職、大学進学、出産、企業増資、任意清算 - 多項・多段階選択型 Multi-nominal/-Stage M. 例: 職業選択、学校選択、旅行経路選択、企業提携選択 (不連続(切断)型) ← 選択の結果として選択後の生産・消費などの 変数が切断され不連続となった場合 - Tobit型モデル Tobit Type Model 例: 職業別所得、経路別旅費支出、企業提携後収益 4
(内生的選択型)(← 不連続(切断)型と因果が逆) ← 観察指標に応じて選択肢の選択結果が内生 的に決定されている場合 1. 離散型選択モデルの基礎 1-3. 離散型選択モデルの種類(2) (続き) (内生的選択型)(← 不連続(切断)型と因果が逆) ← 観察指標に応じて選択肢の選択結果が内生 的に決定されている場合 - Heckman二段推計型モデル “Heckit” Model 例: 貧困者職業訓練効果、薬物中毒更生率、倒産企業債務残高 (計数型) ← 選択肢の選択結果に加え結果指標も少数の 離散的な計数値となる場合(複合問題を含む) - 計数型モデル Count Data Model 例: 交通事故死者数、公務員汚職件数、企業任意清算数 ( ← Poisson分布を用いた回帰分析を行う (説明省略)) 5
- 離散値 Di の選択が、ある観察可能な変数 zi で 決まる確率に従う場合、当該過程は 二項選択モデ 2. 単純選択モデル 2-1. 二項選択モデル - 離散値 Di の選択が、ある観察可能な変数 zi で 決まる確率に従う場合、当該過程は 二項選択モデ ル (Binary Outcome Model)が適用可 (離散値 Di の選択) 1 - 例: zi 家計の所得 Di 太陽光発電の導入有無 (導入=1, 非導入=0) Pr(Di=1,zi’・β) 所得zi の世帯が太陽光発電を行う確率 (係数 β) Di = Di = Pr(Di=1, zi’・β) +εi 選択確率 誤差 6
- Probit関数・Logit関数など確率密度関数の選択に おいては、単純な二項選択の分析の場合であれば 2. 単純選択モデル 2-2. 二項選択の確率密度関数 - Probit関数・Logit関数など確率密度関数の選択に おいては、単純な二項選択の分析の場合であれば 優劣はないため、数学的に簡単なLogit関数が多用 される (← 不連続(複合)型などでは逆(後述)) Pr(Di=1,zi’・β) =∫-∞(zi-z0)’β/σ (2πσ2)-1/2 * exp(-1/2*s2/σ2)ds Probit ; 正規分布関数 φ((zi-z0)’β/σ)の積分値 (= Φ) 確率密度関数 φ((zi-z0)’β/σ) zi の限界効果 φ((zi-z0)’β/σ) ・βi Pr(Di=1, zi’・β) = (1 + exp(-zi’・β))-1 Logit; 対数確率分布関数 Λ(zi’・β) (= 「積分済」)) 確率密度関数 exp(z’・β)/(1 –exp(z’・β)) zi の限界効果 Λ(z’・β)・(1 –Λ(z’・β))・βi 7
2. 単純選択モデル 2-3. Logit関数とProbit関数 - Probit関数とLogit関数は、いずれも無限遠で0 及び 1となる関数であるが、曲率と分散の大きさが異なる ので推計された係数は直接比較できない ← 先行研究と係数を比較・参照する場合要注意 Probit関数 – 平均0, 分散1 の正規確率密度関数 の積分値 Logit関数 - 平均0, 分散 √3/π の対数密度関 数の積分値(= 対数分布関数) - どうしても必要な場合 0.625で補正(雨宮(1981)) 8
2. 単純選択モデル 2-4. 二項選択モデルの概念 「脳 内」 「現 実」 確率密度関数 Pr (正規確率密度 関数の場合) 二択変数 「脳 内」 「現 実」 確率密度関数 Pr (正規確率密度 関数の場合) 二択変数 Di 措置群 (Di =1) 1 選択確率関数 Pr (Di=1, zi’β) = 確率密度関数の積分値 (-∞ で0, +∞で 1) 選択結果 Di (1 or 0) 対照群 (Di =0) -∞ (zi – zo)’β/σ 説明変数 (zi-z0)’β/σ Zi 説明変数 zi z0 (zi の平均) 9 (例: Di - 家計 i 太陽光発電の有無の選択 zi - 家計 i の所得)
2. 単純選択モデル 2-5. 何故単純な線形回帰を用いないのか - 単純な線形回帰で選択の確率密度関数を近似す ると、確率が1を超えたり 0 より下になるという「異常値」 が生じてしまう場合あり ← 「折れ線」による近似な どの回避策はあるが、 確率密度関数の一般性 がなくなってしまい分析 手法の適用条件複雑化 ・相互比較不能化 線形回帰 Logit回帰 二択変数 Di 措置群 (Di =1) 1 選択確率関数 Pr (Di=1, zi’β) 選択結果 Di (1 or 0) 対照群 (Di =0) Zi 説明変数 zi 10
3. 不連続(切断)型モデル 3-1. Tobit型モデル(ダミー変数モデル)(Tobin(1958)) - 離散値 Di の選択に応じ、Di = 1 の場合のみ 結果指標 yi が zi により決定され観察できる場 合では、Tobit型モデルなどが適用できる (第1段階: 離散値 Di の選択: ex.太陽光発電有無) 1 if Di* > 0 ; 0 if Di* ≦ 0 ; (第2段階: 結果指標 yi の決定: ex. 売電所得) yi* if Di* > 0 ; yi* = zi2’β2 +ε2i - if Di* ≦ 0 ; ( ← 観察不能 ) Di* = zi1’β1 +ε1i ( 通常 誤差ε1i は正規分布と 仮定し Probit型で β1 を推定 ) Di = yi = 11
3-2. Tobit型モデルの種類 (利用頻度順, 雨宮(1985)による分類) 3. 不連続(切断)型モデル 3-2. Tobit型モデルの種類 (利用頻度順, 雨宮(1985)による分類) - Tobit モデル (Tobit-Type 2) ・ 選択の結果による対照群(非選択群)の結果指標が観察できない場合 ・ 第1段階・第2段階の誤差が二元正規分布に従うと仮定し、第1段階の Probit型推計の結果(補正係数 λ1,誤差ε1) を用い、第2段階を推計 1 if Di* > 0 0 if Di* ≦ 0 yi* if Di* > 0 -- (観察不能) - Tobit モデル (Tobit-Type 3 “Heckit Model”) (← 後述する Heckman二段階推計型, 先に発見したHeckmanの方が著名 Type 2 と選択と観察指標の因果関係が逆 ) Di= yi= 12
3-3. Tobit型モデルの種類 (利用頻度順, 雨宮(1985)による分類)(続き) 3. 不連続(切断)型モデル 3-3. Tobit型モデルの種類 (利用頻度順, 雨宮(1985)による分類)(続き) - Tobit モデル (Tobit-Type 5 “Roy Model”) ・ 選択の結果による対照群(非選択群・排反)の結果指標が観察できる場合 ・ 処置効果評価での利用例多, Regression Discontinuity か Switch回帰 1 if Di* > 0 0 if Di* ≦ 0 yi* if Di* > 0 yi** if Di* ≦ 0 - Tobit モデル (Tobit-Type 1,4) (二項選択モデルやType-2・-3 に変換できるので殆ど使われていない) (- Two Part モデル (実例稀少)) 第1段階を Probit型で推計し、第2段階で正の観察値のみ回帰推計 (=第1段階での選択有無(= 第2段階が不存在か “0”が存在か )を要識別) Di= yi= 13
3. 不連続(切断)型モデル 3-4. Tobit型モデルの概念 (Type-2の場合) 「脳 内」 「現 実」 選択ダミー変数 の誤差 ε1i = Di* - zi’β1 (正規分布を仮定) 結果指標 yi (観察可) ダミー変数 Di, Di* (観察不可) 措置群 (Di =1) 措置群 (Di =1) 1 yi 結果指標の誤差 ε2i (ε1i との関 係を仮定) 選択ダミ-関数 Di* = zi’β1 + ε1i 結果指標 yi* = zi’β2 + ε2i (or 0 ) 選択ダミー Di (1 or 0) 対照群 (Di =0) 結果指標の確率密度の「切断」による歪み) → 補正(λt) 選択結果が結果指標を決定 対照群 (Di =0) → yi = 0 Zc (Di* = 0) Zc ( ? ) 説明変数 zi (観察可) 説明変数 zi (観察可) 14 (例: yi - 家計 i の売電収入 Di – 太陽光発電有無(観察不可の場合有) zi - 家計 i の所得)
3-5. 逆ミルズ比とTobit型モデルの解法(1) - 逆ミルズ比 λi (Inverse Mill’s Ratio) 3. 不連続(切断)型モデル 3-5. 逆ミルズ比とTobit型モデルの解法(1) - 逆ミルズ比 λi (Inverse Mill’s Ratio) λi (zi’・β) ≡ φ(zi’・β)/Φ(zi’・β) φ 正規確率密度関数, Φ 当該関数の積分値(分布関数) ← 選択によって生じた「切断」が確率密度の分 布に与えた歪みの影響を説明する変数 15
3. 不連続(切断)型モデル 3-6. 逆ミルズ比とTobit型モデルの解法(2) - 但し Tobit型モデルでは下記変数を用いる ∵ Tobit型で観察される yi は「切断された残り」 λti(zi’・β) = φ(zi’・β)/[1 -Φ(zi’・β)] ([注意] Heckit では逆ミルズ比自体を用いる) - Tobit型モデルの分析式 (解法) ← 下記分析式を最大尤度法(ML)で推計 但し誤差εi は不均一分散 yi | yi >0 = zi’・β + λti・γ + εi - STATAでは切断点(UL;上限, LL;下限)を指定可 16
3. 不連続(切断)型モデル 3-7. Tobit型モデルにおける仮定・検定と注意点 - Tobit型モデルでは、少なくとも第1段階の選択 過程の誤差が正規分布に従うと仮定 → 誤差の正規性検定 (- linktestなど) が必須 → 実はポアソン分布 17
4-1. Heckman二段推計型モデル “Heckit” M.(1974) - 観察指標 yi の値に応じて離散値 Di の選択が 4. 内生的選択型モデル 4-1. Heckman二段推計型モデル “Heckit” M.(1974) - 観察指標 yi の値に応じて離散値 Di の選択が 決定され、Di = 1 の場合のみ結果指標 yi が観察 できる場合では、Heckit型モデルが適用できる ← 選択と観察指標の因果関係が Tobit型(Type -2)の不連続(複合)型モデルと「逆」 であり、 観察指標が選択を左右している場合に有効 (例: 経営不振企業の損益と倒産, 低所得者の職業訓練) ← 現実には最初から不連続(複合)型か内生的 選択型かを識別することは困難であり、一定 の試行錯誤が必要 18
4. 内生的選択モデル 4-2. Heckman二段推計型モデルの概念 「脳 内」 結果指標が選択を決定 結果指標 yi (観察可) 「現 実」 ダミー変数 Di, Di* (観察不可) 観察可能な対象 (Di =1) 観察可能な対象 (Di =1) 1 yi 結果指標の誤差 ε2i (選択関 数の誤差 ε1iと相関) 選択関数 Di* = φ(zi’β) 結果指標 yi* = zi“β2 + ε2i (or 0 ) 選択ダミー Di (1 or 0) 逆ミルズ比の推計 λi = φ(zi’β)/Φ(zi’β) 選択関数の誤差 = ε1i 結果指標の確率密度の観察可能確率 → 逆ミルズ比で説明 (対照群は存在しない) Zc (Di* = 0) Zc ( ? ) 説明変数 zi (観察可) 説明変数 zi” (観察可) 19 (例: yi - 倒産企業 i の債務残高 Di – 倒産の有無 zi – 倒産企業の売上高利益率)
- 第1段階: 試料から yiが観察可能となる正規確 率を最大尤度法(ML)で求め、更に逆ミ ルズ比 λi を推計 4. 内生的選択型モデル 4-3. Heckman二段推計型モデルの解法 - 第1段階: 試料から yiが観察可能となる正規確 率を最大尤度法(ML)で求め、更に逆ミ ルズ比 λi を推計 Di | Di>0 = Φ(zi’・β) ← Probitモデル使用 λi (zi’・β) = φ(zi’・β) / Φ(zi’・β) - 第2段階:下記分析式を最小二乗法(OLS)推計 yi | yi(or Di) >0 = zi“・β” + λi・γ + εi ← 誤差不均一分散 - 実際にはSTATAコマンド “heckman” を使用 20
4. 内生的選択型モデル 4-4. Heckman二段推計型モデルの問題点・注意点 - 第1段階の説明変数 zi’と第2段階の説明変数 zi”の大部分が重複する場合には、多重共線性 (Multicoliniarity)により妥当な結果が得られない (縄田(1997), 北村(2005)) ex. 第二段階 yi | yi>0 = zi“・β” + λi(zi’・β)・γ + εi ← 最初の選択を「二項選択モデル」で解いてお き、当該推計の結果から各段階の説明変数 を重複しないように決める方法が有効 21
5. 離散型選択モデルの実戦的活用 5-1. 米国の州別犯罪率・死刑制度と執行率 被説明変数 (・選択変数) (McManus W. (1985), 1950年米国44州での調査) 被説明変数 (・選択変数) x 州別死刑執行率 (分析対象) d 州別死刑制度の有無 説明変数( 対数化処理により “l**” ) m 人口10万人当殺人犯罪認知数 p 殺人事件有罪率 t 殺人容疑者平均拘置日数 y 平均所得 ($1,000- @1950) f 平均有業率 (= 1 –[失業率]) 22
5. 離散型選択モデルの実戦的活用 5-2. 米国の州別犯罪率・死刑制度と家計所得 注意: 相関≠因果 件数 制度有 所得 制度無 件数 制度有 制度無 所得 23
5-3. 州別死刑制度有無の二項選択モデル分析(1) 5. 離散型選択モデルの実戦的活用 5-3. 州別死刑制度有無の二項選択モデル分析(1) reg d lm lp lt ly lf, robust AIC=30.91 → 線形: 殆どの説明変数が有意 (但し あくまで参考) Linear regression Number of obs = 44 F(5, 38) = 6.57 Prob > F = 0.0002 R-squared = 0.4469 Root MSE = .3228 ------------------------------------------------------------------------------ | Robust d | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lm | .4350748 .0823588 5.28 0.000 .2683481 .6018014 lp | .1307851 .1232539 1.06 0.295 -.1187294 .3802995 lt | .3788957 .1323878 2.86 0.007 .1108906 .6469008 ly | .4889962 .2129757 2.30 0.027 .0578494 .9201431 lf | -1.907909 1.064082 -1.79 0.081 -4.06203 .2462121 _cons | -2.901463 .9877775 -2.94 0.006 -4.901114 -.9018122 24
5-4. 州別死刑制度有無の二項選択モデル分析(2) 5. 離散型選択モデルの実戦的活用 5-4. 州別死刑制度有無の二項選択モデル分析(2) logit d lm lp lt ly lf AIC=33.30 → Logit; m(殺人犯罪件数), t(拘置日数)が有意 Logistic regression Number of obs = 44 LR chi2(5) = 23.28 Prob > chi2 = 0.0003 Log likelihood = -10.650989 Pseudo R2 = 0.5222 ------------------------------------------------------------------------------ d | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- lm | 4.801747 1.768599 2.72 0.007 1.335357 8.268138 lp | .6182211 1.19164 0.52 0.604 -1.71735 2.953792 lt | 4.246125 1.898825 2.24 0.025 .5244973 7.967753 ly | 6.013893 4.193384 1.43 0.152 -2.204987 14.23277 lf | -16.76363 18.61397 -0.90 0.368 -53.24633 19.71908 _cons | -36.92763 18.89653 -1.95 0.051 -73.96414 .1088826 25
5-5. 州別死刑制度有無の二項選択モデル分析(3) 5. 離散型選択モデルの実戦的活用 5-5. 州別死刑制度有無の二項選択モデル分析(3) probit d lm lp lt ly lf AIC=32.81 → Probit; m(殺人犯罪件数), t(拘置日数)が有意 Probit regression Number of obs = 44 LR chi2(5) = 23.77 Prob > chi2 = 0.0002 Log likelihood = -10.40572 Pseudo R2 = 0.5332 ------------------------------------------------------------------------------ d | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- lm | 2.804682 1.011972 2.77 0.006 .8212538 4.788109 lp | .3935249 .689552 0.57 0.568 -.9579721 1.745022 lt | 2.48898 1.100532 2.26 0.024 .3319775 4.645982 ly | 3.577456 2.479807 1.44 0.149 -1.282876 8.437789 lf | -10.75029 10.40882 -1.03 0.302 -31.15121 9.650625 _cons | -22.20609 10.95852 -2.03 0.043 -43.6844 -.7277841 26
5. 離散型選択モデルの実戦的活用 5-6. 州別死刑執行率のTobitモデル分析 tobit x lm lp lt ly lf, ll(0) AIC=-54.55 Tobit regression Number of obs = 44 LR chi2(5) = 14.50 Prob > chi2 = 0.0127 Log likelihood = 34.274291 Pseudo R2 = -0.2682 ------------------------------------------------------------------------------ x | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lm | .0614433 .0209258 2.94 0.006 .0191169 .1037697 lp | .0146554 .0276493 0.53 0.599 -.0412706 .0705814 lt | .073979 .031501 2.35 0.024 .0102622 .1376957 ly | .009091 .0615264 0.15 0.883 -.1153579 .1335399 lf | .4891608 .2833126 1.73 0.092 -.0838931 1.062215 _cons | -.0651 .267022 -0.24 0.809 -.605203 .4750029 /sigma | .0711114 .0089375 .0530336 .0891893 27
5-7. 州別死刑執行率のHeckitモデル分析(1) 5. 離散型選択モデルの実戦的活用 5-7. 州別死刑執行率のHeckitモデル分析(1) heckman x lm lp ly lf, select( d= lm, lt) Heckman selection model Number of obs = 44 (regression model with sample selection) Censored obs = 9 Uncensored obs = 35 Wald chi2(4) = 1.02e+08 Log likelihood = 42.5235 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- x | lm | -.0192589 .0170156 -1.13 0.258 -.0526088 .014091 lp | .0033842 .0231807 0.15 0.884 -.0420491 .0488176 ly | -.0609771 .0534961 -1.14 0.254 -.1658276 .0438734 lf | .8553731 .1524768 5.61 0.000 .5565241 1.154222 _cons | .6983817 .1486508 4.70 0.000 .4070315 .9897319 28
5-8. 州別死刑執行率のHeckitモデル分析(2) 5. 離散型選択モデルの実戦的活用 5-8. 州別死刑執行率のHeckitモデル分析(2) heckman x ly lf, select( d= lm, lt) AIC=-67.67 Heckman selection model Number of obs = 44 (regression model with sample selection) Censored obs = 9 Uncensored obs = 35 Wald chi2(2) = 2.64e+08 Log likelihood = 41.83379 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- x | ly | -.0176457 .0399363 -0.44 0.659 -.0959194 .060628 lf | .8065375 .0259226 31.11 0.000 .7557302 .8573448 _cons | .610406 .0390826 15.62 0.000 .5338055 .6870066 d | lm | 2.277606 .2531577 9.00 0.000 1.781426 2.773786 lt | 2.020581 .2472685 8.17 0.000 1.535944 2.505218 _cons | -11.1779 1.326496 -8.43 0.000 -13.77778 -8.578015 29