keyword クロス集計表 (教科書:47ページ~54ページ,77ページ~81ページ) 観測度数と期待度数 相対度数 独立性 データ解析基礎 6.クロス集計表の関係分析 keyword クロス集計表 (教科書:47ページ~54ページ,77ページ~81ページ) 観測度数と期待度数 相対度数 独立性
復習:統計データの構造 データ解析では調査項目のことを変量と呼ぶ. 質的変量 量的変量(連続的変量) 名義尺度:名前,性別 順序尺度:好きなもの順位など 量的変量(連続的変量) 間隔尺度:温度,成績など 比例尺度:距離,重量,金額など
復習:質的変量の集計 質的変量のデータをどうまとめるか? 単純集計 クロス集計
単純集計とクロス集計 単純集計とは・・・ 複数の項目(変量)について調査が行われた場合,一つ一つの項目を切り離して捉え,それらの度数分布を求めるもの クロス集計とは・・・ 二つ以上の項目に着目し,各項目の取る値のすべての組合せについて,その数(度数)を数え上げ,表にまとめたもの. 質的変数(項目)間の関係を探ることが出来る.
復習:単純集計 頭部損傷の集計表 ヘルメット着用の有無の集計表
復習:クロス集計表 頭部損傷とヘルメット着用の有無のクロス集計表 例えば, (頭部損傷=有,ヘルメット着用=着用) ⇒ 17人 (頭部損傷=有,ヘルメット着用=着用) ⇒ 17人 (頭部損傷=無,ヘルメット着用=非着用) ⇒ 428人
クロス集計表:用語 頭部損傷とヘルメット着用の有無のクロス集計表 セル 周辺度数 項目
単純集計とクロス集計 -出世は実力によるけど,その速度は人並み NHKで放送されたクイズ番組での質問 質問1 「あなたのこれまでの昇進の主な要因は何ですか」 質問2 「あなたのこれまでの昇進の速度は周囲に比べて速いですか遅いですか」 に対して,回答の集計は次の表になった.
単純集計とクロス集計 -出世は実力によるけど,その速度は人並み 表1:中堅サラリーマン100人が答えた自分の昇進についての自己評価 回答結果の批評として・・・ 「自分の出世は実力によるけど,その速度は人並みと考えている人が多い」 質問1と質問2で回答数が一番多かった項目を重ね合わせた結果が上の批評をなった.本当か?
単純集計とクロス集計 -出世は実力によるけど,その速度は人並み 質問1と質問2からクロス集計表を作成した場合を想定して,観測度数(セル)の発生パターンを考えてみた. 表2:2つの質問項目の間で推測される関連の構造(例) 「自分の出世は実力,その速度は人並みと考えている人が多い」といえるか?
単純集計とクロス集計 -出世は実力によるけど,その速度は人並み アナウンサーが犯した誤り 質問1の最頻度の項目と質問2の最頻度の項目の交わった場所⇒ (質問1,質問2)の最頻度と考えていた 最頻度項目 (昇進の主要因)→実力 (昇進の速度)→人並み 1.&2.から(質問1,質問2)→(実力,人並み) 項目相互間の独立性の問題に関連する この論理は現実に成り立たない!!
項目相互間の独立性(従属性) 統計的独立とは・・・ クロス集計表において,2つの項目間の間にまったく関係のない状態 量的な項目間の場合・・・「相関係数がない」に相当 クロス集計表を解析する際に,統計的独立性を調べることは重要 個々の項目について度数分布をいくら眺めても見えない情報も,クロス集計表から得られれることがある
例題:クロス集計表の構造 32人について,関東出身者と関西出身者のうどんつゆの好みについてのデータを調べ,クラス集計表を作成した. 出身地とつゆの好みには,何か関連がありように見えるが・・・ 表:出身地とめんつゆの好みの関係
例題:クロス集計表の構造 出身地とうどんつゆの好みにまったく関係がない(統計的独立である)場合のクロス集計表 表:出身地とめんつゆの好みの関係 このクロス集計表のセルを期待度数と呼ぶ
例題:クロス集計表の構造 出身地とめんつゆの好みが完全に従属している場合(統計的に独立でない場合)のクロス集計表 表:出身地とめんつゆの好みの関係 このクロス集計表のセルを期待度数と呼ぶ
統計的独立の構造1 統計的独立性が成り立つ= 各行内でみた度数の分布(割合)が一定である 関東: 8:12=2:3 表:出身地とめんつゆの好みの関係 関東: 8:12=2:3 関西: 12:18=2:3
統計的独立の構造2 統計的に完全従属性が成り立つ= 対角成分が1以上で非対角成分が0,または 非対角成分が0で非対角成分が1以上 表:出身地とめんつゆの好みの関係
統計的独立性と従属性 2×2のクロス集計表の一般型
クロス集計表の構造-2 クロス集計表のおいて仮定される説(仮説)と,そのときの期待度数の構造について考える. 表:出身地とめんつゆの好みの関係
クロス集計表の構造-2 統計的仮説 [従属性]出身地によりつゆの好みで好き嫌いの傾向がある. [独立性]出身地とつゆの好みは関係ない. [均一性]出身地に関係なく,つゆの好みに傾向がある.
クロス集計表の構造-2 仮説1-独立性 仮説2-従属性 仮説3-均一性
三元クロス集計表の解析 調査項目が3つある場合は,三元クロス集計表による解析が不可欠であるが,一般にはあまり認識されていない. 社会調査では,単純集計の解析後に2元集計表の解析で項目間の関係を調べて終わっているものがある. 3つの項目が関与している現象の中に,2つの項目間のクロス集計表を眺めても,それだけでは見えてこない関係がある.
例題:低学歴層ほど保守的? 「高年齢層ほど保守的であると同時に,低学歴層ほど保守的」ということが次のクロス集計表から言えるか? 表1:年齢と保守性のクロス集計表 表2:学歴と保守性のクロス集計表
例題:低学歴層ほど保守的? 仮説「1)高年齢層ほど保守的であると同時に,2)低学歴層ほど保守的」を検証するためには,三元クロス集計表を用いなければならない!! 表: 学歴と年齢,保守性のクロス集計表
例題:低学歴層ほど保守的? 学歴 年齢 保守性
例題:低学歴層ほど保守的? 仮説「高年齢層ほど保守的であると同時に,低学歴層ほど保守的」を検証 「保守性」の層(弱,中,強)によって,「年齢」と「学歴」のクロス集計表が統計的に同じであるか否かを検証
例題:低学歴層ほど保守的? 「保守性」の層ごとで, 「学歴」と「年齢」の傾向が違うようである. 「保守性」の層ごとで,「学歴」と「年齢」には関連性があると考えられる.
例題:低学歴層ほど保守的? 統計的仮説検定をおこない,項目間の相互関連性を検証 学歴は保守性に直接影響しない!! 年齢 学歴 保守性 モデル選択 学歴は保守性に直接影響しない!!
死刑判決の例 殺人を犯した被告の死刑判決に対する人種の影響を調査した 結果である. 以下の表は 674 人は,1976~1987年にフロリダで殺人罪として 起訴された人で,複数の殺人を犯した人も含まれている. 表:死刑判決と加害者のクロス集計表 人種による違いはないように見えるが・・・
死刑判決の例 表:死刑判決と被害者,加害者のクロス集計表 割合的には,人種による違いはあるようである. ただし,犯罪の内容がわからないので,実際に人種による差別があったかどうかはわからない.
サリドマイド病とは・・・ サリドマイド剤と呼ばれる睡眠・鎮静剤が,(旧)西ドイツのグリューネンタル社によって開発され,1957年以降,世界各国で販売されました. 日本での主な販売会社の大日本製薬は「クセにならない安全なイソミン錠」などのうたい文句で売られました. 同剤を妊娠初期に服用した母親から,手足などに異常のある子供が次々に誕生しました. その数は,世界15カ国で合計6千人以上と推定されています.この事実をつきとめたレンツ博士の報告により,世界の大部分の国では販売が中止されました. 日本では,大日本製薬が「レンツ報告は科学性に乏しい」などとして,その後9ヶ月間売り続け,被害者を倍に増やしてしまった.
サリドマイド問題 (レンツ博士らが行った調査結果の一部) 以下の表は,いわゆる奇形児を産んだ母親にサリドマイド剤(TH)剤を服用したかどうかを聞き取り調査した結果である. 両群(2つのグループ)の母親のTH剤服用率に差があるか? ⇒ 統計的問題 母親のサリドマイド剤服用と奇形児のクロス集計表
サリドマイド問題 データの採り方・・・ 奇形児を産んだ母親と非奇形児を産んだ母親にサリドマイド剤(TH)剤を服用したかどうかを聞き取り調査 このデータをどう読むか? 母親のサリドマイド剤服用と奇形児のクロス集計表
サリドマイド問題
まとめ 単純集計とクロス集計 単純集計:各調査項目ごとで度数などを調べる クロス集計:二つ以上の項目に着目し,項目間の関係を探る. クロス集計表の構造 項目相互間の独立性(従属性)