確率と統計2010 2010年12月16日(木) Version 3
今日も検定、検定また検定
PROBLEM 全国10歳の女子の身長は、平均μ=140cm、標準偏差 σ=5cmの正規分布に従うことが知られている。いま、あ る地域に住む10歳の女子25名の身長を調べたところ、 平均m=137cmであった。この地域の女子の身長は全 国水準と比べてどうか?
平均μ = 140cm 標準偏差σ = 5cm 平均μ = 137cm 標準偏差
平均μ = 140cm 標準偏差σ = 5cm 平均m = 137cm 標準偏差 標本平均 m = 140cm 標準偏差σX = σ/√n
仮説H0:その地域に関するデータは、全国データの標本で ある。 定理:N(μ=140, σ2=25)から得られる標本に関して、 標本平均の平均はN( μ, σ2 / n ) に従う。 事実(調査結果): 標本の平均m=137cm。 分析: N( μ, σ2 / n ) = N( 140, 52/ 25 ) = N( 140, 1 ) に おいて、平均値mが137cm以下か143以上になる 確率Pを計算する(両側検定)。 判断基準:有意水準を5%とする。 計算(標準化): Z = ( m - μ) / (σ / √n) = -3 および正規分布表より、 P = 0.0027 < 0.05 仮説H0を棄却する。 結論:有意水準5%でその地域の女子の身長は 全国平均よりも低い。
データ分析の練習をしてみよう!
PROBLEM あるガン性疾患Xの疑いのある患者60名のうち、最終的 にガンXの診断が確定した者は20名であった。いま、全 症例についてその血液型を調べ、A型の人数を数えた ところ以下のようになった。ガンXの患者ではA型の人が 多いと言えるか?考察せよ。 ガン陽性(+) ガン陰性(-) 合 計 A + 型 - 15 5 25 30 合 計 20 40 60
考察 2行2列の表になっているので、2×2分割表の検定法 を適用する。
PROBLEM 前立腺ガンの患者150名をランダムに2群に分け、A,B 2種類の方法で治療を試みた。一定期間後、両群の生 存・死亡数を比較したところ以下のようになった。治療法 により生存率が異なると言えるか? 治療法A 治療法B 合計 生存者数 死亡者数 55 20 35 40 90 60 75 150
PROBLEM シャープペンシル用の芯を作っている工場において、 製造した芯の太さの平均値μ(母平均)が0.90mmにな るようにしないと、シャープペンシルに合わない芯が出 て顧客から苦情が来るため、母平均が0.90mmではな くなったときは機械を止めて調整することにしている。 母平均が0.90mmかどうかは、毎日製造される芯の中 から、無作為に100本を取り出して、その太さを測りその 平均値mを計算することで調べている。いまmを求めた ら0.91mmであり、また、標準偏差s=0.03mmであった。 この場合あなたはどういう判断を下しますか? (機械を止めて調整する? まだしない?)
考察 条件設定: 分かっているもの: 母平均μ 標本平均m 標本の大きさn 分かっていないもの: 母標準偏差σ
数学的事実 標本平均Xは、標本の大きさが十分大きければ、 N( μ, σ2/n ) に従う。 従って、Z=(X-μ) / ( σ /√n ) は、N(0, 1) に従う。 【疑問】 この定理が利用できるためには、母平均と母標準偏差 がともに分かっていなければならない。 しかしながら、今の場合には分かっていない! どうすればいいのか?
新たな事実 標本の大きさnが十分大きければ、s≒σ とおける。
考察(続き) 有意水準1%とすると、 |Z0| > 2.576 だから、母平均は0.90mmではない。 機械を止めて調整しよう!
PROBLEM (平均値の差の検定) A社とB社の食料品を、それぞれ無作為に100個ずつ 取り出して、その濃度を測定したところ、ma=45.36%, sa=0.35%, mb=45.24%, sb=0.40% であった。 両社の製品に関する濃度の母平均には差があるだろう か? 統計的に検討しなさい。
仮説H:2つの母平均には差がない。μa = μb。 ma=45.36, mb=45.24, sa=0.35=σa, sb=0.40=σb, na=nb |z0|>1.96だから、有意水準5%でHは棄却。 (A社の方がB社のものより濃度が高い。)
根拠 2つの標本の元の分布が正規分布ならば、 ma-mbの分布もまた正規分布で、 N(μa-μb, σa2/na + σb2 /nb) になる。 また、nが十分大きければ元の分布が正規分布でなくて も、中心極限定理により正規分布とみなしてよい。
(重要) 統計学で重要な定理の紹介 これ以外にもチェビシェフの不等式なども重要な事実 (定理)です。
定理1 x が正規分布 N(μ,σ2) に従うとき、大きさ n の無作為 標本に基づく標本平均 mは、正規分布 N(μ、σ2/n) に従う。 (xの標本分布に関する定理)
定理2(重要) xが任意の分布(平均=μ,分散=σ2)に従うとき、大きさ n の無作為標本に基づく標本平均 m は、 n が無限に 大きくなるとき、正規分布 N(μ、σ2/n) に従う。 (中心極限定理)
問題1 ある学力テストの得点Xは、正規分布N(160,202) に従うとする。いま、大きさ16の標本をとり、その標本 の平均値mの値を求めるとき、 mが165を超える確率は? mが150未満となる確率は?
中心極限定理の利用法 問題1. ある大学の受験生の母集団から無作為に 選んだ1人の受験生の成績を x とする。 いま、過去の経験から、 x は平均 μ= 2.5, 標準偏差 σ = 0.4 であることがわかっているも のする。 このとき、この母集団から 36人の受験生の 標本を採り、標本平均 m を求めるとき、 mが2.4未満となる確率は? mが2.4~2.7となる確率は?
落ち着いて考えよう。 問題1のヒント 中心極限定理より s=σ/√n =0.4/√36 z=(x-m)/s =(2.4-25)・0.067= s=σ/√n =0.4/√36 z=(x-m)/s =(2.4-25)・0.067= P{m<2.4} =P{z<-1.50}= (標準正規分布表を利用) 落ち着いて考えよう。
レポートとアンケート 「レポートNo.3」の提出日は、 平成23年1月14日(木)17時です。 提出先は研A6階レポートボックスです。 授業評価アンケートを1月6日に実施します。 それではよいお歳を! Happy New Year!