寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp 社会統計 第4回:分割表の分析(第4章) 寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp.

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
寺尾 敦 青山学院大学社会情報学部 R での連関測度の計算方法 寺尾 敦 青山学院大学社会情報学部
第4章補足 分散分析法入門 統計学 2010年度.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
ホーエル『初等統計学』 第8章1節~3節 仮説の検定(1)
第7回 独立多群の差の検定 問題例1 出産までの週数によって新生児を3群に分け、新生児期黄疸の
検定 P.137.
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
Microsoft Excel 2010 を利用した 2項分布の確率計算
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
カイ二乗検定の応用 カイ二乗検定はメンデル遺伝の分離比や計数(比率)データの標本(群)の差の検定にも利用できる 自由度
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
クロス集計とχ2検定 P.144.
寺尾 敦 青山学院大学社会情報学部 社会統計 第8回:多重比較 寺尾 敦 青山学院大学社会情報学部
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
analysis of survey data 第2回 堀 啓造
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
第11回授業(12/11)の学習目標 第8章 分散分析 (ANOVA) の学習 分散分析の例からその目的を理解する 分散分析の各種のデザイン
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
1.母平均の検定:小標本場合 2.母集団平均の差の検定
社会統計 第11回 多重分割表分析の論理(第10章)
analysis of survey data 堀 啓造
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
尤度の比較と仮説検定とを比較する ~P値のことなど~
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
Microsoft Excel 2010 を利用した 2項分布の確率計算
Presentation transcript:

寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp 社会統計 第4回:分割表の分析(第4章) 寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp

第4章:クロス集計表 クロス集計表(分割表) 独立性の検定 適合度検定

変数の値の変動と因果仮説 社会科学者の関心は,分布の変動を説明すること. 大学教育を受けようとする若者もいれば,そうでない若者もいるのはなぜか? 共和党,あるいは,民主党の支持者もいれば,支持政党のない人もいるのはなぜか? ある変数 Y の変動を説明するために,原因となる変数 X を考える.変数 X の変動が変数 Y の変動を生じさせると考える.

関心,仮説,調査 関心:大学教育を受けようとする若者もいれば,そうでない若者もいるのはなぜか? 仮説:大学に進学するかしないかを決めている有力な要因のひとつは,性別かもしれない. 調査方法:高校3年生の母集団から標本を抽出し,性別(男女)と,大学進学の意思(あり・なし)をたずねる.

クロス集計表 複数の質的変数(離散変数)の間の関係を視覚的に把握するために,クロス集計表(crosstabulation)を構成する.分割表(contingency table )とも呼ぶ. 2つの質的変数(離散変数)がとる反応カテゴリの値の分布を同時に表示したもの.

クロス集計表の例(表4.2) 周辺分布 行周辺度数 性別 合計 男 女 大学進学予定 あり 4 2 6 なし 7 14 11 9 20 セル (marginal distribution) 行周辺度数 (row marginals) 性別 合計 男 女 大学進学予定 あり 4 2 6 なし 7 14 11 9 20 セル 列周辺度数 (column marginals)

百分率クロス集計表 百分率クロス集計表(percentage crosstabulation):クロス集計表での度数を百分率に書き直した表. 百分率は独立変数のカテゴリーごとに計算する.(例:性別が独立変数ならば男女ごと) 共変動(covariation)がわかりやすくなる一方で,分布の安定性がわからなくなる危険がある.100人:100人の50%:50%は標本が変わっても大きく変化しないが,1人:1人は偶然の要素が大きい.

百分率クロス集計表の例 性別 合計 男 女 大学進学予定 あり 36.4% 22.2% 30.0% なし 63.6% 77.8% 70.0% 100.0% 2変数が無関係なら,男女別のあり・なし比率はどうなるはず? 分布は信頼できるものとして,表からわかることは?

因果関係の同定 2つの変数間に共変動関係が認められても,因果関係の同定は必ずしも容易でない. 変数 A と B に共変動関係があるとき,考えうる因果関係は3通り:A → B,A ← B,第3の変数 C がA と B の両方に影響.( A → C → B という関係もあるが,ここでは A → B に含めて考えておく)

地位変数である男女が,大学進学意志の影響を受けることはない.よって,性別が原因,進学意志が結果と考えられる. しかし,性別そのものが大学進学意志に影響するわけではない.社会的な期待や性役割の違いの反映だろう.

共通原因の例 若者人口 因果 共変動 都市化の程度 (見かけの相関) 大気の汚染度 因果 参考:こうした疑似関係の分析は第10章で学習する. 例の出典:豊田秀樹・前田忠彦・柳井晴夫(1992)原因をさぐる統計学 講談社

命題と仮説 研究理論を構成する命題 検証可能な操作仮説(GSSの調査項目を利用) 命題P1:エスニシティ(民族集団意識)は,政治的指向と関係がある. 命題P2:宗教は,政治的指向と関係がある. 検証可能な操作仮説(GSSの調査項目を利用) 仮説H1:先祖がどこの国の出身であるかは,支持政党と関係がある. 仮説H2:どの宗教を信仰しているかは,支持政党と関係がある. エスニシティ:主にエスニック集団の特性の総体やエスニック集団自体をさす語。この場合のエスニック集団とは,近代国民国家の枠組の中で,他の同種の集団とは区別された独自の文化的アイデンティティと〈われわれ意識〉を共有する人々の集団.(『百科事典マイペディア』より)

仮説の明確さ 操作仮説よりも,もっと具体的な仮説を提示することもある. 仮説をどれほど明確に述べるかは,調査によって異なる. 例:どの民族がどの政党を支持するかまで言及するか,これら2変数に関連があると言うにとどめるか. 調査から得られるデータによって,「明らかにしたいこと」がわかるかどうかをよく考える.

クロス集計表(テキスト表4.3,4.4) 支持政党 合計 出身民族 民主党 支持政党なし 共和党 ドイツ系 56 (27.2%) 80 (38.8%) 70 (34.0%) 206 (100.0%) イギリス系 52 (24.9%) 73 (34.9%) 84 (40.2%) 209 (100.0%) アイルランド系 61 (38.6%) 60 (38.0%) 37 (23.4%) 158 (100.0%) イタリア系 21 (30.9%) 33 (48.5%) 14 (20.6%) 68 (100.0%) スカンジナヴィア系 15 (28.8%) 14 (26.9%) 23 (44.2%) 52 (99.9%) 東ヨーロッパ系 45 (51.1%) 30 (34.1%) 13 (14.8%) 88 (100.0%) 西ヨーロッパ系 24 (39.3%) 16 (26.2%) 21 (34.4%) 61 (99.9%) スペイン系 35 (54.7%) 25 (39.1%) 4 (6.3%) 64 (100.1%) 東洋系 3 (21.4%) 6 (42.9%) 5 (35.7%) 14 (100.0%) アフリカ系 61 (67.8%) 24 (26.7%) 5 (5.6%) 90 (100.1%) その他 52 (45.6%) 44 (38.6%) 18 (26.2%) 114 (100.0%) 425 (37.8%) 405 (36.0%) 294 (26.2%) 1124 (100.0%) 出身民族別で,支持率が最も高いところに赤線.アイルランド系は2か所を赤線にした(度数の差が1しかない).その他,支持政党別で高いところに緑線.東洋系は数が少ないので,強調なし.

クロス集計表(テキスト表4.5) 2つの操作仮説はいずれも支持された. 支持政党 合計 信仰する宗教 民主党 支持政党なし 共和党 プロテスタント 329 (36.0%) 301 (32.9%) 284 (31.1%) 914 (100.0%) カトリック 166 (44.5%) 142 (38.1%) 65 (17.4%) 373 (100.0%) ユダヤ教 9 (34.6%) 10 (38.5%) 7 (26.9%) 26 (100.0%) 無宗教 29 (27.9%) 63 (60.6%) 12 (11.5%) 104 (100.0%) その他 10 (55.6%) 8 (44.4%) 0 (0.0%) 18 (100.0%) 543 (37.8%) 524 (36.5%) 368 (25.6%) 1435 (99.9%) 2つの操作仮説はいずれも支持された.

独立性のカイ二乗検定 母集団において2つの変数間に関連があるか,統計的仮説検定を行うことができる. 帰無仮説:2つの変数が統計的に独立(statistical independence) 分割表において,一方の変数のカテゴリごとに見た,もう一方の変数の比率が同じになる.(独立の定義) この仮説から計算される度数を期待度数(expected frequency)と呼ぶ. 対立仮説:2つの変数は独立でない. 独立の定義については,あとで簡単に述べる.

統計的に独立な2変数 性別 合計 男 女 大学進学予定 あり 30.0% なし 70.0% 100.0%

2×2分割表での期待度数 性別 合計 男 女 大学進学予定 あり f1. なし f2. f.1 f.2 N

期待度数の計算例 性別 合計 男 女 大学進学予定 あり 6 なし 14 11 9 20

独立の定義 変数 A のカテゴリを Ai,変数 B のカテゴリを Bj と表す. 母集団でのカテゴリ Ai および Bj の出現確率を,それぞれ P(Ai ), P(Bj ) とする. 2変数 A,Bが独立であるとは,P(Ai ) が変数 B のカテゴリに依存しないことである.条件つき確率を使って表すと,

2変数 A,Bが独立であるとき,Ai と Bj の結合確率について,以下の関係が成り立つ.これを2変数の独立の定義としてもよい. 「 P(Bj ) が変数 A のカテゴリに依存しないこと」といってもよい. 2変数 A,Bが独立であるとき,Ai と Bj の結合確率について,以下の関係が成り立つ.これを2変数の独立の定義としてもよい.

母集団での真の確率はわからないので,データから推定される. B 合計 B1 B2 A A1 f1. A2 f2. f.1 f.2 N

性別と大学進学予定が独立ならば,P(男 and あり) = P(男) × P(あり) なので,以下のように期待度数を計算することができる.

検定統計量 帰無仮説(2つの変数は独立)が正しければ,期待度数と観測度数は同じような値になる可能性が高い. 期待度数と観測度数のずれは偶然によるもの 期待度数と観測度数の違いが大きくなるにつれ,帰無仮説はあやしくなる. 検定統計量として,期待度数と観測度数との差を反映した統計量が考えられる.

R行C列の分割表において,第 i 行第 j 列のセルの期待度数を Eij,実際の観測度数を Oij とする.このとき,以下のカイ二乗統計量は,N が大きいとき,自由度 (R-1) (C-1) のカイ二乗分布に従う. テキストの表4.6および表4.7の一部を,電卓で計算せよ.

自由度 分割表のカイ二乗統計量における自由度は,周辺度数(「合計」)を固定した時に,値を変えることのできるセルの数. C1 C2 C3 合計 R1 f1. R2 f2. f.1 f.2 f.3 N

カイ二乗分布の確率密度関数 (テキスト図4.2) df=2 curve(dchisq(x, 2),from=0,to=20, xlab="カイ二乗", ylab="確率密度") curve(dchisq(x, 8),from=0,to=20, col="Blue", add=T) curve(dchisq(x, 22),from=0,to=20, col="Red", add=T) df=8 df=22

帰無仮説が正しければ,期待度数と観測度数は同じような値となる(ずれは偶然によるもの)ので,カイ二乗統計量の値は小さくなる. 厳密には,カイ二乗分布の平均は自由度に等しい.(テキスト p.99 訳注) 帰無仮説が誤りであれば,カイ二乗統計量の値は大きくなる. よって,カイ二乗分布の右すそに棄却域を設定すればよい.

カイ二乗分布での棄却域 (テキスト p.375 参照) df=1 curve(dchisq(x,1),from=0,to=6, xlab="カイ二乗", ylab="確率密度") abline(v=qchisq(0.05, 1, lower.tail=F)) 面積 = 0.05 3.8414

カイ二乗分布表(テキスト p.375) df 有意水準 .100 .050 .025 .010 … 1 2.7055 3.8414 5.0238 6.6349 2 4.6051 5.9914 7.3777 9.2103 3 6.2513 7.8147 9.3484 11.3449 ... 統計ソフトウェアは,帰無仮説(2変数が独立)が正しいときに,データから計算されたカイ二乗値よりも大きなカイ二乗値が得られる確率( p 値)を出力する. 学期末テストのために,分布表を使えるようにしておく.

独立性の検定での注意 カイ二乗統計量は標本の大きさの影響を受ける.各セルの度数を k 倍すると,カイ二乗統計量も k 倍になる. 百分率クロス集計表は変化しない.同じ「パターン」の分割表であっても,カイ二乗統計量の値は度数によって異なる.

小さすぎる期待度数がある場合の対処(テキスト p.100 訳注7) 分割表の独立性の検定では,カイ二乗分布への近似を利用している.期待度数が小さすぎるセル(目安として,5以下)が存在すると.この近似が悪くなる. 小さすぎる期待度数がある場合の対処(テキスト p.100 訳注7) カテゴリをまとめる フィッシャーの直接確率検定を行う イェーツの修正を行う

練習問題1 章末問題18:高校生30人に対し,「テレビをよく見るか」,「勉強を一生懸命しているか」と尋ね,次のような回答が得られた.テレビ視聴と勉強の熱心さとの間には関係があるだろうか? (有意水準を5%とする) テレビをよく見ますか はい いいえ 一生懸命,勉強していますか 5 15 6 4 途中の計算は小数点以下第3位まで,カイ二乗値を小数点以下第2位まで求めよ.

R での,独立性のカイ二乗検定の実行 コード ex4_18 <- matrix(c(5,6,15,4), nrow=2, ncol=2, dimnames = list(Study = c("Yes", "No"), TV = c("Yes","No"))) ex4_18 # クロス集計表を出力 chisq.test(ex4_18, correct=FALSE)

出力 > ex4_18 # クロス集計表を出力 TV Study Yes No Yes 5 15 No 6 4 > > chisq.test(ex4_18, correct=FALSE) Pearson's Chi-squared test data: ex4_18 X-squared = 3.5167, df = 1, p-value = 0.06075 警告メッセージ: chisq.test(ex4_18, correct = FALSE) で: カイ自乗近似は不正確かもしれません

結果の報告例:「テレビをよく見るか」と「勉強を一生懸命しているか」のクロス集計表において,有意水準を5%として独立性の検定を行ったところ,χ2(1) = 3.517,p = 0.061 となり,2変数が独立であるという帰無仮説は棄却されなかった.テレビの視聴時間と,勉強の熱心さには,関係があるとは言えない.

適合度検定 適合度検定(goodness-of-fit test):カイ二乗統計量は,標本がある特定の母集団分布から抽出されたものかどうかを検定するために用いることができる. 例:いかさまサイコロかどうかのテスト.十分な回数の試行を行う.すべての目が1/6の確率で出る(帰無仮説)と仮定して,それぞれの目の期待度数を求める.帰無仮説が正しいとき,カイ二乗統計量は,自由度5のカイ二乗分布に従う.

適合度検定は,これまでに学習してきた統計的仮説検定とは異なり,帰無仮説は棄却されない方が望ましいことが一般的である.

適合度検定の例:メンデルの法則 メンデルによる,エンドウ豆の色と形についてのデータ. データはメンデルの法則に適合している. 表現型 黄色・丸い 黄色・しわ 緑色・丸い 緑色・しわ 合計 観測度数 315 101 108 32 556 確率 9/16 3/16 1/16 1 期待度数 312.75 104.25 34.75 両度数の差 2.25 -3.25 3.75 -2.25 メンデルによる,エンドウ豆の色と形についてのデータ. データはメンデルの法則に適合している. しかし,あまりに適合しすぎていることから,何らかの操作があったのではと考えられている. 出典:東京大学教養部統計学教室(編)(1992)統計学入門 東京大学出版会(p.245) Fisher, R. A. (1936). Has Mendel’s work been rediscovered? Annals of Science, 1, 115-137.

練習問題2 章末問題20:コインを3つ,500回投げて,次のような結果が得られた.このコインが「歪みのない」ものであるとした場合に予想される結果と比べて,このような結果には有意な差があるだろうか. 表 裏 度数 3 50 1 2 150 200 100