第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1 カイ二乗統計量とその修正法について学ぶ。 (1)r×s 分割表の場合 (2)2×2 分割表の場合
2変量データを手にした時の 分布の特徴の記述-8 2変量データを手にした時の 分布の特徴の記述-8 この授業では、これらのうち、 (1)名義尺度レベルの対データの場合の代表的な連関の関連性の検討のための統計量であるピアソンのカイ2乗統計量と、 (2)間隔尺度レベル以上の対データの場合の代表的な2変量間の関連性の指標である共分散及び相関係数 についてのみ、簡単に触れる。
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(1) 表中、黒色の f は度数を表す。 青色の f は行や列それぞれの合計で、 f1•, f2•, …, fr•, 及び f•1, f•2, …, f•s は、すべて周辺度数と呼ばれる。 B1 B2 … Bs 計 A1 f11 f12 f1s f1• A2 f21 f22 f2s f2• : Ar fr1 fr2 frs fr• f•1 f•2 f•s N
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(2)
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(3) カイ二乗統計量における、f は実度数、g は期待度数と呼ばれる。 定義式から明らかなように、カイ二乗統計量は、分割表の各セルの実際に観測される度数 f と両属性間に関連がない時に期待される度数 g の差を二乗し、それを期待度数 g で除したものの総和である。
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(4) 例えば、右表の実度数 3 に対する期待度数は、 厳し過ぎた 適当 もっと厳しく 計 男 27 275 75 377 女 3 124 10 137 計 30 399 85 514 と計算される。
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(5) すなわち、女子で 「厳し過ぎた」 と思った学生の実際の度数(実度数)3名に対して、(2つの属性間に関連がみられないと仮定した時)このセルに期待される度数(期待度数)は、およそ 8 (=7.996)、 ということである。 厳し 過ぎた 適当 もっと厳しく 計 男 27 275 75 377 女 3 124 10 137 計 30 399 85 514
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(6) 同様に、右表の実度数 75 に対する期待度数は、 厳し 過ぎた 適当 もっと厳しく 計 男 27 275 75 377 女 3 124 10 137 計 30 399 85 514 と計算される。
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(7) 最後に、「性と坐禅指導の評価」間の関連性のカイ2乗統計量を計算するために、まず各セルの実度数から期待度数とセルカイ2乗を計算すると、つぎのような表になる。 これをもとに、 「性と坐禅指導の評価」間の関連性のカイ2乗統計量を計算してみよう。
性と坐禅指導の評価間の分割表情報 厳し 過ぎた 適当 もっと 厳しく 計 男 27 22.0 1.13 275 292.6 1.06 75 過ぎた 適当 もっと 厳しく 計 男 27 22.0 1.13 275 292.6 1.06 75 62.3 2.57 377 女 3 8.00 3.12 124 106.4 2.93 10 22.66 7.07 137 30 399 85 514 実度数 期待度数 セルカイ二乗
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(8) うえの情報から、性と坐禅指導の評価の間の関連性のカイ2乗統計量を計算すると、定義より、
基本的な2変量統計量ー1 r×s 分割表の場合のカイ二乗統計量(9) 先の時限で既に紹介した、クラメールの V、チュプロウの T、ピアソンの一致係数 C は、上記カイ二乗統計量を少し修正したもので、つぎのように書ける。ここで、φ2=χ2/N とする:
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(1) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(1) 一般の r×s 分割表に対して、2×2 分割表の一般形を示すと、右の表のようになる。 ここで、セル内の度数は、fij のような形でなく、簡単に a, b, c, d と書くとする。 A/B B1 B2 計 A1 a b a+b A2 c d c+d a+c b+d N
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(2) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(2) 2×2 分割表の場合、r×s 分割表のカイ二乗統計量は、より簡単な形に書くことができる。これが、つぎに示す統計量である:
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(3) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(3) イエーツの修正法 一般に分割表では、セル内のいずれか1つでも期待度数が5以下のものが存在するときは、カイ二乗分布が歪むことをイエーツ(Yates, 1934) が示した。 この歪みの補正は、イエーツの連続性の補正 (Yates’ correction of continuity) と呼ばれる。
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(4) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(4) 2×2分割表の場合のイエーツの修正は、つぎのとおり。 すなわち、上記カイ二乗の分子のカッコ内 ad-b c を、
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(5) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(5) 例えば、右の表の分割表では、カイ二乗値を計算する前に、各セルの期待度数を計算すると、右の赤印の数値となる。 明らかに、この分割表には、期待度数が5以下のセルがある。 A/B B1 B2 計 A1 3 4.05 6 4.95 9 A2 5 6.05 11 20
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(6) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(6) そこで、カイ2乗値は、次のようにイエーツの修正を施す必要がある: すなわち、まず ad-bc を計算すると、a=3、b=6、c=6、d=5 なので、-21となる。一方、N/2=20/2=10 である。そこで、
基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(7) 基本的な2変量統計量ー1 2×2 分割表の場合のカイ二乗統計量(7) そこで、われわれは、イエーツに従い、通常の2×2分割表のカイ二乗値の計算式の分子のカッコ内の ad-bc の代わりに、 としなければならない、すなわち
セル内の期待度数が少ない場合の対処法-2(一般の分割表の場合) 一般の r×c 分割表の場合の、(連続性の)補正方法としては、SAS Institute (1990, p.339) は Fienberg (1977, p.21) のつぎの公式をあげている: ここで、上のカイ二乗統計量の自由度は、補正 前と同一である。
演習(3) 2時限目に作成した、2×2分割表を用いて、イエーツの修正後のカイ二乗統計量を計算せよ。 計算が終わったら、SAS プログラムで計算があっているかどうかを確認しよう。