実証分析の手順 経済データ解析 2011年度
実証分析とは 実証分析とはこれらの理論や仮説が正しいかどうかを、統計データを用いて検証する方法である。 経済学をはじめ、経営学、心理学などではさまざまな理論が提唱されている。 また、これらの理論に加え、知識や経験をもとに、ある問題についての仮説を考えることができる。 実証分析とはこれらの理論や仮説が正しいかどうかを、統計データを用いて検証する方法である。 実証分析の結果は、過去の理論の修正や新しい理論の構築に用いられる。 実証分析には回帰分析がよく用いられる。 一致すれば理論や仮説が正しいとみなされ、不一致の場合には再検討をおこなう。 一致? さまざまな 理論・仮説 統計データによる 分析結果 不一致?
実証分析の手順 <ステップ1> モデルの定式化 <ステップ2> モデルに含まれる変数と実際のデータの対応 <ステップ3> パラメータの推定と統計量の算出 <ステップ4> モデルの検討 合格 不合格 <ステップ5> 政策・予測への応用 <ステップ3>のパラメータの推定と統計量の算出というのは、Y=a+bXというモデルを想定した回帰分析において、係数推定値a,bや決定係数などを算出することである。Excelの分析ツールで計算できる。
→ Y(消費) = a + b X(所得) <ステップ1> モデルの定式化 <ステップ1> モデルの定式化 分析目的が数式の形(これをモデルという)であらわされていることが実証分析の出発点である。 (例) 「消費が増大する原因には、所得の増大がある」 すなわち、 (所得↑ → 消費↑) を分析目的とするなら、 → Y(消費) = a + b X(所得) ↑ ↑ 結果 原因 という形のモデルに定式化できる。 「消費が増大する原因には、所得の増大がある」 ⇒ 消費関数といわれる、経済理論の中の1つ これは消費関数という理論が、現実経済に適合しているかどうかを検証する実証分析である。
このような理論がないか、探せない場合 ⇒ 自分の知識、経験にもとづいて仮説をたて、これをモデルとして定式化する。 (例)死亡率は都道府県によって異なる。なぜこのような違いが出るのか、その原因を分析したい。
死亡率を決定する理論が見つけられなかった場合、自分で仮説を立てる。 ここでは、おもな原因として次の3つを考えた。 寿命 - 高齢者の多い県は死亡率が高いはずである 医療 - 医療機関が充実していれば死亡率は低いはずである 衛生 - 衛生状態が悪いと死亡率が高いはずである この仮説を定式化すると次のモデルになる。 Y(死亡率)=a+bX(寿命)+cZ(医療)+dW(衛生) 考えた3つの原因が3つの説明変数になる
定式化されたモデルを分析するためには、モデルに含まれる変数に適当なデータを対応させる必要がある。 <ステップ2> モデルに含まれる変数と実際のデータとの対応 定式化されたモデルを分析するためには、モデルに含まれる変数に適当なデータを対応させる必要がある。 最初に分析目的に応じて、2種類の統計データのうちどちらを用いるかを決める。 時系列データ データを時間の順序にならべたものであり、過去の変動から現状を把握し、将来を予測するなどの目的に用いる。 クロスセクションデータ ある1時点において何らかの属性に関してならべたものであり、地域差などの現状を把握するために用いる。
などが候補になる。 次に各変数に対応する適当なデータを探す 死亡率の大小を表す原因として、「医療の充実」という原因を考えたが、これを表すデータとしてどのようなものがあるか? 医師数 病院数 病床数 などが候補になる。 これらの候補の中で、どのデータが最適であるかを考えてみる。 一方で、入手可能かどうかも重要な点となる。 ⇒ 以上のことから「人口10万対医師数」のデータを「医療の充実」を表すデータとして用いる。
死亡率の分析では、各変数に次のようなデータを対応させることにしよう。 Y(死亡率) - 人口千人あたりの死亡率 X(寿命) - 高齢者比率(65歳以上人口/総人口) Z(医療) - 人口10万対医師数 W(衛生) - し尿処理水洗化率 これらのデータは、代表的な統計資料集である『日本統計年鑑』から得ることができる。 総務省統計局のホームページには日本統計年鑑のすべての表がExcel形式で掲載されている。
モデルの変数に対応する適切なデータが見つかったら、分析ツールで分析をおこなえば良い。 <ステップ4> モデルの検討 モデルの変数に対応する適切なデータが見つかったら、分析ツールで分析をおこなえば良い。 ⇒ これが<ステップ3> 分析ツールの結果で、最初に見るのは次の2点 係数推定値 - モデル定式化の際に想定した因果関係と分析結果が一致するかどうか、その符号に着目する。 決定係数および自由度修正済み決定係数 - 決定係数が1に近ければ分析をおこなう意味があったといえるが、0.6以下などの場合には、その他の説明変数を加える必要があったと考えられる。また、重回帰の場合には、自由度修正済み決定係数も見る。
高齢者比率の高い都道府県ほど、死亡率は高いはずである。 分析ツールで分析をおこなった結果、 X(高齢者比率)の係数推定値の符号は+となった。 ※ 係数推定値の符号の検討 一致? さまざまな 理論・仮説 統計データによる 分析結果 不一致? 高齢者比率の高い都道府県ほど、死亡率は高いはずである。 ⇒ X(高齢者比率)の係数推定値の符号は+となるはず。 分析ツールで分析をおこなった結果、 X(高齢者比率)の係数推定値の符号は+となった。 一致 人口10万対医師数の多い都道府県ほど、死亡率は低いはずである。 ⇒ Z(人口10万対医師数)の係数推定値の符号は-となるはず。 分析ツールで分析をおこなった結果、 Z(人口10万対医師数)の係数推定値の符号は+となった。 不一致
という2つの原因が考えられる。 分析結果がよくない場合 定式化の際の誤り(元になった理論や各自の知識、経験などが誤り) データや分析手法の誤り という2つの原因が考えられる。 「係数推定値の符号が想定したものと異なる」「決定係数(または自由度修正済み決定係数)の値が小さい」場合には、モデルをどのように改良すべきかを考えてみる。 ⇒ 実際の分析をおこなうときのことで、この講義のレポートとしては、そこまで要求しない。