第2回授業 (10/2)の学習目標 第5章平均値の差の検定の復習を行う。 (詳細を復習したい者は、千野のWEB頁の春学期パワ ーポイントファイルの中の第10回(6/12)及び第11回 (6/19)を参照のこと) (1)平均値の差の検定の目的や意味を再確認する。 (2)平均値の差の検定の大枠を復習する。 (3)平均値の差の検定に先立つ分散の等質性の検定方 法を復習する。 (4)平均値の差の検定方法の復習をする。 (5)平均値の差の検定の再実習をする。
(1)平均値の差の検定の目的や意味ー1 心理学では、検査や実験により得られた得点に、あらかじめ設定した2つの条件間で差が見られるかどうかを検討することがよくある。 例えば、ミラーリエル錯視実験の30度30mm条件と30度45mm 条件の2条件間の錯視量に差がみられるであろうか。 あるいは、30度30mmの条件での錯視量に、男女差は見られるのであろうか。
(1)平均値の差の検定の目的や意味ー2 これらの課題を検討するための1つの客観的・実証的な方法は、既に第3章の後半で少し紹介した統計的仮説検定を行うことである。 これを行うためには、まず第1にそれぞれの条件下で実験を行い、それぞれの条件での測定値を得ることが必要である。統計学では、これを標本を収集するという。 標本は漠然と収集するのではなく、何らかの(統計的)仮説を立て、無作為に収集する必要がある。
(1)平均値の差の検定の目的や意味ー3 例えば、ミラーリエル錯視のある条件下での男子と女子の錯視量がそれぞれ Nx 人、Ny 人づつ無作為に得られたとすると、2群の標本は、一般的には、それぞれつぎのように書ける:
(1)平均値の差の検定の目的や意味ー4 一方、平均値の差の検定における仮説は、帰無 仮説と呼ばれ、両条件の母平均の平均値 μx、μy に 差がない、というものであり、これを数式で書くと次 のようになる:
(1)平均値の差の検定の目的や意味ー5 とは異なり、標本が抽出されるもとの母集団での平均値に差がない、というものである点に注意が必要である。 うえの仮説は、両条件での標本の平均値に差がない、すなわち とは異なり、標本が抽出されるもとの母集団での平均値に差がない、というものである点に注意が必要である。
(2)平均値の差の検定の大枠ー1 2つの群間で平均値に違いがあるかどうかを検討する場合、データが得られるもとの母集団の特徴の違いにより、検定方法が異なる。 (1)1つの方法は、テキスト p.19 の 5.1 節の 「母集団の分布形が未知だが、母分散は既知で、標本 数が大の場合」 (2)他方は、テキスト p.20 の 5.2 節の 「母集団の分布が正規分布で、母分散は未知の場合」 この授業の演習では、後者の方法のみを学ぶ
(2)平均値の差の検定の大枠ー2 帰無仮説のもとで、さらに5.2節の条件の下では、例えばテキスト p.23 の (5.9) 式、すなわち次の量 t がどんな値を取る可能性がどれぐらいであるか、つまり t の分布が理論的にわかっている: つぎのスライドは、その分布を示す:
自由度 v の t-分布とは? -正規分布に近い y 軸対称な分布 確率 t- 分布 斜線部 1-α t - t N-1(α/2) t N-1(α/2)
(2)平均値の差の検定の大枠ー3 つまり、帰無仮説のもとでは、標本から計算され る上記の t の値が上の図の下限値以下か、上 限値以上の範囲に入る可能性は α である。 この α の値は、統計学では通常 0.05 か 0.01 を考えるのが慣習である。
(2)平均値の差の検定の大枠ー4 そこで、もし帰無仮説のもとで標本から計算され た t-値が下限値以下や上限値以上の値を取った ならば、われわれは帰無仮説のもとでは起こり得 そうもないことが起こったとして、帰無仮説を捨て る。統計では、帰無仮説を棄却するという。 平均値の差の検定で、帰無仮説を棄却すること は、両条件の平均値に差があることを意味する。
(2)平均値の差の検定の大枠ー5 一方、同じく帰無仮説のもとでは、標本から計 算される上記の t の値が上の図の下限値から 上限値の範囲に入る可能性は 1-α である。 通常、ここでの α は 0.05 か 0.01 なので、1-α の値は、通常 0.95 か 0.99 である。
(2)平均値の差の検定の大枠ー6 そこで、帰無仮説のもとで、標本から計算された t-値が下限値から上限値の範囲の値を取ったな らば、われわれは帰無仮説のもとでは起こりえそ うなことが起こったとして、帰無仮説を受け入れ る。統計では、帰無仮説を採択するという。 平均値の差の検定で、帰無仮説を採択すること は、両条件の平均値に差がないことを意味する。
(2)平均値の差の検定の大枠ー7 平均値の差の検定では、2群の標本が抽出される元の集団すなわち母集団分布に正規分布が仮定される場合(テキストでは、p.20 からの 5.2 節)には、t-統計量が用いられる。 ただし、この場合、t-統計量そのものが、2つの母集団の分散(母分散)が等しいかどうかで、異なるものになることがわかっている。
(2)平均値の差の検定の大枠ー8 つまり、2群の母集団が正規分布に従うとみなされる時、われわれは平均値の差の検定に先立ち、2つの母集団の分布の分散が等しいかどうかの検定を行わないといけないのである。 この検定は、母分散の等質性の検定と呼ばれ、つぎに示す、テキスト p.21 の最上部の (5.4) 式がそのための統計量であり、F は F-分布に従うことが知られている。
F-分布の標準的な形状 F-分布の標準的な形状は、つぎのとおりである: F-分布 α/2 α/2 上側α/2%点
(2)平均値の差の検定の大枠ー9 F-分布の形は、t-分布と異なり2つの自由度により決まる。テキスト p.21 の (5.4) 式の F-分布の自由度は、テキスト p.20 の末尾の下から2行目にあるように、2群の標本のサンプル数をそれぞれ Nx, Ny とすると、
(2)平均値の差の検定の大枠ー10 結局、平均値の差の検定の一連の手順はつぎのとおり: (1)最初に、両群の分散の等質性の検定を行う。 (1)最初に、両群の分散の等質性の検定を行う。 (2)その結果、両群の分散が等しいと見なさ れる場 合は、(5.9) 式の t の値による平均値の差の検定 を行う。 (3)もし、両群の分散が等しいとみなせない場合は、 (5.10) 式の t’ の値による平均値の差の検定を行 う。
(3)平均値の差の検定に先立つ分散の等質性の検定ー1 平均値の差の検定に先立つ、分散の等質性の検定を 行うには、テキスト p.26 の上部にあるように、 (1)2組の標本の平均を、それぞれ求める。 (2)2組の標本の分散を、それぞれ求める。 (3)一般には(5.4) 式により F-値を計算する。 (4)サンプル数が共に20の場合は、テキスト p.24 の 下方の、F-検定の危険率に対応する棄却点の値 と上の F-値を比較する。
(3)平均値の差の検定に先立つ分散の等質性の検定ー2 ただし、実際のF-統計量の計算には、数表を用いる場合、通常の F-分布表の特徴から、(5.4) 式ではなく (5.5) 式を用いる、すなわち
(3)平均値の差の検定に先立つ分散の等質性の検定ー3 しかし、F は両群のサンプル数 N1 及び N2 が等しい時には、テキスト p.22 の (5.6) 式、すなわち、 となり、両群のサンプルでの標本分散の比の形に書ける。そこで、(5.6)式で計算すればよい。
(3)平均値の差の検定に先立つ分散の等質性の検定ー4 ここで、この式の分子の分散と分母の分散は、順に であるが、前者は、2群の標本での不偏分散の大きい方に対応する分散でないといけないので、注意が必要である。ただし、2群のサンプル数が等しい場合は、単純に分散の大きい方を分子に、小さい方を分母に取ればよい。
(3)平均値の差の検定に先立つ分散の等質性の検定ー5 つぎに、分散の等質性の検定を行い、つぎに平均の差の検定を行う場合、両検定の全体的危険率の考慮が必要である。 とりわけ、両母集団の分散が等しい場合には、分散の等質性の検定統計量 F と、平均値の差の通常の検定統計量 t とは、互いに独立であることが知られている(Hogg, 1961)。 この独立性が成り立つ場合には、両検定の全体的危険率は、個々の危険率を α とすると、ほぼ2倍にインフレする。
(3)平均値の差の検定に先立つ分散の等質性の検定ー6 これを避けるには、個々の検定の危険率 αは、全体の危険率を α* として、 にすればよい。これを実現するには、 (1)α* =0.05 ならば、αはおよそ 0.025 に、 (2)α*=0.01 ならば、 αはおよそ 0.005 に、 それぞれ取ればよい。
(3)平均値の差の検定に先立つ分散の等質性の検定ー7 両群の標本数が共に10の場合、標本での F-値が、つぎの棄却点の値(いずれか一方) 未満ならば、等分散仮説を採択する。この場合、分散は等しいとみなされる。
(3)平均値の差の検定に先立つ分散の等質性の検定ー8 それに対して、標本での F-値が、演習時に指定された危険率に対応する棄却点の値(いずれか一方) 以上ならば、等分散仮説を棄却する。この場合、分散は異なるとみなされる。
(4)平均値の差の検定ー1 (1)両群での分散が等しいとみなされる場合 テキスト pp.22-23 の t-統計量と対応する以下に示した自由度を計算する。 すなわち、
(4)平均値の差の検定ー2 t-統計量を計算し自由度を計算したら、標本で の t の値が、演習時に指定された危険率に対 応するつぎの棄却点の値(いずれか一方) 未満ならば、等平均仮説を採択する。この 場合、両群の平均値は等しいとみなされる。
(4)平均値の差の検定ー3 (等分散仮説採択の場合) (4)平均値の差の検定ー3 (等分散仮説採択の場合) 一方、標本での t の値が、授業中に指定された危険 率に対応するつぎの棄却点の値(いずれか一方) 以上ならば、等平均仮説を棄却する。この 場合、両群の平均値に差があることを意味す る。
(4)平均値の差の検定ー4 (2)両群の分散が異なるとみなされる場合 テキスト p.20 に書いたように、べーレンス・フィッシャー問題と呼ばれており、そのような場合に平均値の差の検定を行うこと自体に無理があると言う研究者もいる。 また、この場合、F-統計量と t’-統計量は互いに独立ではないので、2つの検定を続けて行う場合の全体としての危険率の計算は困難であり、ここでは危険率のコントロールは行わず、通常の F 分布表の制約から次善の策として、t’ 検定の危険率は α で行うこととする。
(4)平均値の差の検定ー5 両群での分散が異なるとみなされる場合は、テキスト pp.22-23 の t-統計量と対応する自由度を計算する。すなわち、
(4)平均値の差の検定ー6 つぎに、この場合の t’-分布の自由度は、テキスト p.23 の下方にいろいろな方法が紹介してあるが、その中で、SAS が標準として用いているところの (b) Satterthwaite (1946) の方法による自由度を計算すること、すなわち:
(4)平均値の差の検定ー7 (等分散仮説棄却の場合) (4)平均値の差の検定ー7 (等分散仮説棄却の場合) t’-統計量を計算し、自由度を計算したら、最後に岩原の副読本の p.434 を開き、 (1)授業中に指定された危険率 α と (2) (5.12) 式で計算した自由度に対応す る棄却点の値を読み取る。 標本での t’-値がこの棄却点の値未満ならば、等平均仮説を採択する。この場合、平均値の差がないことを意味する。
(4)平均値の差の検定ー8 それに対して、標本での t’-値がこの棄却点の値以上ならば、等平均仮説を棄却する。この場合、両群の平均値に差があることを意味する。
(5)平均値の差の検定の再実習 岩原テキスト末尾の乱数表から、各自のデータを抽出し、平均値の差の検定をおこなってみよう。 今日は、標本数は各群とも10とし、各自の学籍に対応する岩原テキストの乱数の位置から数えて5つ下から始まるデータを用いよ。 第1群の10個は p.445から、第2群の10個はp.446の同位置から取り出すこと。 検定の全体的危険率 α* は、0.05とせよ。