国際連合論(第1回) 計量分析入門 久保田徳仁.

Slides:



Advertisements
Similar presentations
環境経済論 第 7 回目 ヘドニック・アプローチ. Court (米国自動車工業会 ) による自動車 価格変化の研究、 1939 – 自動車価格とさまざまな特性(馬力、長さな ど)との数量的関係 – 財の諸特性が快楽( hedonic pleasure )を生 み出すと考える – ヘドニック要因で説明される価格(又はその.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
格差 と 幸福度 南山大学 外国語学部 英米学科 前田 拓馬 平岩ゼミ 土田 健太 西村 和摩 長江 友里香.
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
EXCELで学ぶマーケティング統計 第4章 経営学研究科 M1  真島 健.
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
第4章 回帰分析の諸問題(1) ー 計量経済学 ー.
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
第4章 回帰分析の諸問題(1) ー 計量経済学 ー.
パネル分析について 中村さやか.
検定 P.137.
重回帰分析入門 経済データ解析 2009年度.
実証分析の手順 経済データ解析 2011年度.
初級ミクロ経済学 -生産者行動理論- 2014年10月20日 古川徹也 2014年10月20日 初級ミクロ経済学.
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
アジア開発銀行(ADB)の 融資による途上国の経済成長への影響
重回帰分析入門 経済データ解析 2011年度.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
確率・統計Ⅱ 第7回.
回帰分析.
日本の少子化問題:その原因と対策 ~県別のパネルデータでの分析~.
貧困と出産の関係.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
12月4日 伊藤 早紀 重回帰分析.
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
離婚が出生数に与える影響 -都道府県データを用いた計量分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
シミュレーション論 Ⅱ 第15回 まとめ.
相関分析.
データ解析 静岡大学工学部 安藤和敏
第6章 連立方程式モデル ー 計量経済学 ー.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
2a グラフの用法.
予測に用いる数学 2004/05/07 ide.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
部分的最小二乗回帰 Partial Least Squares Regression PLS
第3章補足2 多変量データの記述 統計学基礎 2010年度.
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
データ解析 静岡大学工学部 安藤和敏
クロス表とχ2検定.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
回帰分析(Regression Analysis)
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
データ解析 静岡大学工学部 安藤和敏
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
重回帰分析入門 経済データ解析 2008年度.
構造方程式ゼミナール 2012年11月14日-11月21日 構造方程式モデルの作成.
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
経済学入門 ミクロ経済学とマクロ経済学 ケインズ経済学と古典派マクロ経済学 経済学の特徴 経済学の基礎概念 部分均衡分析の応用.
Presentation transcript:

国際連合論(第1回) 計量分析入門 久保田徳仁

政治学の雑誌でよく見かける表

数字が出てくる2つのパターン モデル化(ゲーム理論、意思決定論など) →複雑な世界を単純化して示すための手段  →理屈に矛盾がないことを示す(内部整合性)=数理分析 実証(統計分析)  →理論が現実とあっているかを証明する手段  (外部整合性)=計量分析 ここで扱うのは後者の計量分析

実証研究 目的:ある理論が空想の産物ではなく、実態をきちんと表現していることを証明する。 理論の例:民主的平和(民主主義国同士は戦争をしない) さまざまな方法:事例分析、計量分析、比較事例分析(Structured Focused Comparison: SFC法)

なぜ計量分析? 事例研究、比較事例研究には大きな欠点がある 事例選択が恣意的になりやすい(理論に合致するものばかりを選ぶ傾向がある) 現実はさまざまな要素が作用しているので、どの要素が重要なのかは1,2の事例を見ただけでは判別できない。 例)戦後日本とアメリカの間に戦争が起きていないことを例に挙げて民主的平和論が証明されたといえるか?

計量研究の利点 数量化することでできるだけ多くの事例を扱えるようにする(事例選択の恣意性を排除する) 各事例に作用していると思われる要素すべてをモデルに入れて効果のあるものを判定することができる(変数のコントロール)

変数 考慮されるものは、数ではないものも含めてすべて「変数(variable)」と呼ばれる 従属変数(被説明変数:dependent variable):理論において「結果」と考えられる現象 例)戦争の発生 独立変数(説明変数:independent variable):理論において「原因」と考えられる現象 例)民主主義の成熟度、GDP、対立の歴史・・・ 通常従属変数はひとつ、独立変数は複数

基本の発想(例) 世界各国のすべての2国間関係を調べたときそれぞれの国が経験した戦争の頻度は民主主義の進展と負の比例の関係にあるか? 民主主義の成熟度

データ化 どういうデータがあればよいか? 戦争の頻度(回) 民主主義の成熟度(恣意的ではない方法で数値化) PolityIVというデータバンクではー10~+10という指標で各国の民主主義を評価している 2国間なので小さいほう(民主主義が未熟なほう)のデータを使う(これは恣意的に)

データの例(仮想の事例) 事例 国 民主主義の成熟度 戦争の頻度 1 A国ーB国 10 2 B国ーC国 0 5 3 C国ーA国 4 D国ーA国 D国ーB国 6 D国ーC国

図にしてみると・・・

どうやら2つの変数の間には相関関係がありそう

数式化(単回帰) 数式化すると・・・ 戦争の頻度= ー0.24×(民主主義の成熟度)+4.3  戦争の頻度=    ー0.24×(民主主義の成熟度)+4.3 ではこの「-0.24」や「4.3」はどうやって出たのか? →最小二乗法(コンピュータが計算してくれるので心配しなくてよい)

最小二乗法(念のため) 基本の数式が Y=βX+α しかしすべての現象には誤差がある Y=βX+α+ε 誤差が一番少なくなるようにβとαを決める 誤差ε=Y-βX-α 誤差は正負の両方に生じるので2乗して符号をそろえる ε2=(Y-βX-α)2 YとXの値を事例1から6まですべて当てはめて合計  Σε2=Σ(Y-βX-α)2 =(2-β10-α)2+(5-β0-α)2+… これをαとβでそれぞれ偏微分して0とおいた答えが-0.24と4.3

「影響がある」とはどういうことか? 民主主義の指標を2倍してみたら係数が半分になった(-0.12)。でも関係の強さは同じ。単位の問題。

影響があるとはどういうことか?(t値) 指標の単位に影響されないようにするために開発された数値が「標準誤差(S.E.)」。 例1の民主主義の標準誤差は0.11 例2の民主主義の標準誤差は0.06 これらの値に対して係数の絶対値が大きければその変数は従属変数と強い相関関係があるということになる。 -0.24/0.11=-0.12/0.06 つまり関係の強さは同じで負の効果がある 係数を標準誤差で割った値(t値)は単位に依存しないため影響力の強さを比較することができる

関係の強さと係数、標準誤差 係数=-0.12 係数=0.06 標準誤差=0.11 標準誤差=0.2 T値=-2.02 T値=0.28 右側のほうがはっきりと関係を示している 左側はランダムに点を打ってもそんな形になりそう

でたらめと言い切れるか?(検定) T値の絶対値が小さいとき「影響がない=でたらめにサンプルをとってもそのような結果になる」と疑われる T値の絶対値が大きいと、さすがに「でたらめ」とはいいがたい でたらめに点を打ったときのT値が出る確率はコンピュータが計算してくれる:P値  (サンプルの数によるが、±2.5を超えると奇跡に近い) 通常確率が5%以下になるともはや奇跡としかいえなくなるので、やはりでたらめではなく、独立変数は従属変数に影響があると認めざるを得ない。(独立変数は有意水準5%で有意) こうした方法を統計的検定と呼ぶ。

検定 係数=0.06 標準誤差=0.2 T値=0.28 P値=0.7 係数=-0.12 標準誤差=0.11 T値=-2.02 P値=0.1 右の例がランダムに起きる確率は10%(5%以下ではないので微妙) 左の例はランダムにやっても70%の確率でおきるので有意ではない

表にすると・・・ 要は係数の符号と星の数を見ればよい 例1(有意ではない) 例2(微妙に有意) 切片 4.3** (1.06) 4.3*** (0.59) 民主主義の成熟度 0.06 (0.21) -0.24† (0.11) N(事例の数) 6 † P<0.1 *P<0.05 **P<0.01 ***P<0.001 ()内は標準誤差 要は係数の符号と星の数を見ればよい

変数のコントロール でも経済的な豊かさも戦争の頻度と関係しているのでは? →経済的な豊かさを「コントロール」する 戦争の頻度 豊かさ 民主主義の成熟度 例)豊かさも民主主義も重要

コントロール(続き) 戦争の頻度 戦争の頻度 豊かさ 豊かさ 民主主義の成熟度 民主主義の成熟度 例)豊かさをコントロールすると 民主主義は逆効果 例)豊かさをコントロールすると 民主主義は無関係

複数の変数を考慮することをモデルに表すと・・・(重回帰分析) ヒント:先の図では三次元の面のグラフを求めた 答え: (戦争の頻度)=β1×(民主主義の成熟度)            +β2×(豊かさ)+α このように係数×変数を数式に入れるだけでよい。3個以上の独立変数を入れることもできる あとは標準誤差もT値もP値もコンピュータが計算してくれる ただし、ここでのβやT値はほかの変数が一定だったとき(コントロール済み)の値 民主主義が1上がるとβ1だけ戦争の頻度が変化し、豊かさが1上がるとβ2だけ戦争の頻度が変化する

重回帰分析に必要なデータ 事例 国 民主主義の成熟度 豊かさ 戦争の頻度 1 A国ーB国 10 3 2 B国ーC国 0 8 5 C国ーA国 4 D国ーA国 D国ーB国 6 D国ーC国

数じゃない変数だったら? 「アジアの国」や「独裁国家の国」といった数字で表せない場合は・・・ ダミー変数を作る(アジアの国=1、それ以外の国=0) 独立変数がダミー変数である場合は普通に回帰分析を行うことができる。 係数はその条件を満たす場合とそうでない場合の差を表している。

ダミー変数 事例 国 民主主義の成熟度 豊かさ アジア 戦争の頻度 1 A国ーB国 10 3 2 B国ーC国 0 8 5 C国ーA国 4 D国ーA国 D国ーB国 6 D国ーC国

独立変数に条件がつく場合 例)アジアの国だけは民主主義の成熟度に比例して戦争が起きる(という仮説) アジアの国(1or0)というダミー変数がある。 民主主義の成熟度という変数もある。 これをかけると・・・    アジアの国×民主主義の成熟度  という変数ができる(これを相互作用項:interaction termと呼ぶ)。この係数の有意性検定をすればよい。 このとき、「アジアの国」という変数も、「民主主義の成熟度」という変数もモデルに入れておくこと。

相互作用項 事例 国 民主主義の成熟度 豊かさ アジア アジア×民主主義 戦争の頻度 1 A国ーB国 10 3 10 2 B国ーC国 0 8 5 C国ーA国 4 D国ーA国 5 D国ーB国 6 D国ーC国

重回帰分析の結果 サンプルが少ないのでまともな分析ではないが・・・ Nが小さいとPが十分小さくならない。(なぜでしょう?) 独立変数 係数(標準誤差) 切片 3.97* (0.52) 民主主義の成熟度 -0.01 (0.10) 豊かさ 0.11 (0.05) アジア -2.14* (0.21) アジア×民主主義 -0.00 (0.07) N 6 サンプルが少ないのでまともな分析ではないが・・・ Nが小さいとPが十分小さくならない。(なぜでしょう?) †P<0.1, *P<0.05, **P<0.01, ***P<0.001

重回帰分析で気をつけなければならないこと 変数が多くなると、コンピュータが係数やP値を推定するのにたくさんのデータが必要になる。 30以上の独立変数を扱うためには1000や2000のデータを集める必要がある。 独立変数同士が相関関係を持ってしまうと(豊かさと民主主義の成熟度)どちらの効果かコンピュータも判断できなくなる(多重共線性問題:マルチコ:Multicolinearity)→むやみに変数を入れない

従属変数が特殊なとき 従属変数がダミー変数(戦争した/しない 等) 時系列(や比較事例と時系列のミックス)を扱う場合 従属変数がダミー変数(戦争した/しない 等) 最小二乗法では扱うことができない(条件が満たされない)  →ロジットモデル、プロビットモデルなどが使われる。直線の変わりにS字曲線が当てはめられる(係数は単純な読み方ができない) でも表の見方は同じ。係数の正負と星の数。 時系列(や比較事例と時系列のミックス)を扱う場合 さまざまなモデルが用いられる(覚えなくてよい)

では最初の表から何がわかるか?

計量分析の難点・問題点 データを集めるのが大変(1000の事例をどうやって集めるか)。 時間で区切って毎年観察する。200カ国×10年=2000 インターネット上のデータセットを利用する  COW、ICOW、Polity データを生成してくれるソフトもある(EUGENE) どうしてもデータがない場合「欠損値」が生じるが、(アフガニスタンのGDPなど)これはソフトで補完する

計量研究の難点・問題点2 データ化する際に恣意的になりやすい(この国の民主主義の成熟度は本当に「5」なのか?) データを公開し多くの人に批評してもらう PolityやCOWは、批判があるものの数十年間使われ続けている。

計量研究の問題点3 統計モデルにどの変数を入れるかでP値が大きく変わってくる。 さまざまな妥当なモデルを作って、それでも有意であることを示す必要がある。