統計学入門2 関係を探る方法 講義のまとめ
今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士
多変量データ
データの型と関連を探る道具 質的・質的 ・・・ クロス集計表 量的・量的 ・・・ 散布図・相関係 数 質的・量的 ・・・ 条件付分布 グループ別 平均 相関比
クロス集計表の例
クロス集計表
条件付き分布 2つの変数 X, Y があり、 X = x となる場 合にのみ Y の分布を考えたとき、その分 布を X = x があたえられたときの Y の条件付き分布という
条件付き分布 変数 X X=B が与えられたときの、 Y の条件付き分布
周辺分布
同時分布
独立 2つの変数が独立であれば、 周辺分布は、いかなる条件付き分布 とも 同じになる
クロス集計表
クロス集計表 :() 内は %
クロス集計表
練習問題:独立になるように...
積事象の確率 P ( AB) = P ( A) P(B|A ) = P ( B) P(A|B) P(A|B) : B の下での A の条件付確率 P(B|A) : A の下での B の条件付確率
事象 A と B が独立 P(AB) = P(A) P(B) P(A|B) = P(A) P(B|A) = P(B)
独立期待度数
独立であるという仮定の下での (i,j) セルの確率
独立性の検定 観測度数と独立期待度数の比較 ただし、
独立性の検定 観測度数と独立期待度数の比較 独立であるという前提で計算された値と どの程度離れているかを評価する
p 値の計算と検定結果 検定統計量の分布は、自由度 (a-1)(b-1) の 2 分布 2 分布の分布点を求める関数 =CHIDIST( 2, df) p 値を設定された有意水準 ( 通常は 5%) と 比較し、 p 値が小さい場合は独立でない と判断する
量的データの関連を探る 散布図 相関係数 (-1 から 1 の範囲の値 ) 直線的な関係を表す尺度 符号 ・・・ 関係の向き 絶対値 ・・・ 関係の強さ
散布図 ( x i, y i ) xixi yiyi X Y
散布図 点の散らばり具合をみて、変数間の関 連を探る
相関係数 2 つの量的変数の直線的関係の 向き (符号) 強さ (絶対値) をあらわす
Excel での相関係数の計算 ワークシート関数 (X と Y の相関を求める ) =CORREL(X の配列,Y の配列 ) 分析ツール
分析ツール : 相関 入力範囲に分析するデータの範囲を指定 3 つ以上の変数を指定することも可能
相関係数の解釈上の注意点 相関があっても因果があるとは限らな い 非線形の関係は表現できない 第 3 の変数の存在を意識すること 外れ値に対し、頑健でない
確認のための演習 ITLS の下記のページにアクセスして、 頑健性のなさをチェックしてみよう! u.ac.jp/~itls/JAVA/java_ss/1746e/ u.ac.jp/~itls/JAVA/java_ss/1746e/ 注意:アプレットの下の方に提示されている coefficient of determination は、相関係数の2乗の値
量的データと質的データの関 連 一般的な方法 質的データが与えられた下での、連続デー タの条件付分布を比較する 条件付分布が同じであれば ( 似ていれば ) 、 無関係であると判断する
層別グラフ
データの型と関連を探る道具 質的・質的 ・・・ クロス集計表 量的・量的 ・・・ 散布図・相関係 数 質的・量的 ・・・ 条件付分布 グループ別 平均 相関比
3つ以上変数がある場合の分 析 多変量解析 2・3年次以降の関連科目 社会調査法 データサイエンス 社会調査実習 多変量解析 (オペレーションズ・リサーチ)
講義のまとめ:キーワード 確率と分布 2項分布、正規分布( * ) 母集団と標本 標本分布 (*) 統計的推定 標本誤差 (*) 推定 点推定、区間推定 (*) 信頼区間、信頼度 統計的検定 2種類の過誤 (*) 有意水準 (*) 有意確率(p値) (*) 平均と比率の検定
社会調査士 2003 年度 認定機構 設立 社会調査士資格認定機構 指定された科目の単位習得と卒業が資 格取得の条件
必要とされる科目 社会調査法 A, B 統計学入門 (1), (2) データサイエンス・多変量解析から 1 科 目 社会調査実習