第3章 統計的推定 (その1) 統計学 2006年度
(その1) (その2) Ⅰ 標本分布 Ⅱ 点推定 Ⅲ 区間推定 a) 母集団と標本 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本数の決定 母平均の区間推定における標本数の決定 母比率の区間推定における標本数の決定 (その1) (その2)
Ⅰ 標本分布 a) 母集団と標本 ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。
1) 標本調査の利点 費用・時間の削減 得られる情報の増加、精度の向上 全数調査が不可能な場合にも調査可能
標本調査における誤差には次の2つの種類がある 標本誤差 - 標本の偏りによるもの 非標本誤差 - 調査もれ、無回答、記入ミスなど 2) 標本調査における誤差 標本調査における誤差には次の2つの種類がある 標本誤差 - 標本の偏りによるもの ⇒ 統計理論によりコントロール可能 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 統計理論によりコントロール不可能 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題
b) 標本平均の標本分布 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平均や標本平均など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。 しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。
500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全てから標本平均が計算でき、その分布を考えることができる。 一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。
<簡単な例> 中国地方5県の中古車登録台数(乗用車)(2000年)は次のようになっている。 これを10000未満を切り捨て、各都道府県の頭文字をアルファベットで表すと となる。 母平均、母分散は
この5県を母集団とし、その中から2県を選んで標本とすると、選び方はNCn=10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。
次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。 標本平均の度数分布表から、次のように計算できる。 ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数の合計で割れば良い 10
なお、この分散の式は計算式であり、次のようにして求めたものである。 なお、この分散の式は計算式であり、次のようにして求めたものである。 ※ 分散については、{度数×(階級値-平均)2}の総和を度数の合計で割ったものとなる
標本平均の平均、分散と、母平均、母分散の関係として が成り立つ。分散に関しては である。この例では、 ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、 は1に近くなり、 とみなせる。 視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので
次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 c) 標本分散の標本分布 次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
標本分散の平均について考えると、 標本平均の度数分布表から、次のように計算できる。 となる。標本分散の平均と母分散の関係は次のようになっている。
Ⅱ 点推定 a) 点推定 推論 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 Ⅱ 点推定 a) 点推定 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。 ただし、一般に t≠θである。 母平均μ 母分散σ2 標本平均x 標本分散s2 推論 母数θ 標本統計量t
点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 b) 統計量の特性 1) 不偏性 点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 このような性質を不偏性といい、「tはθの不偏推定量である」という。 (例1) 標本平均 は となるので、母平均μの不偏推定量である。 (例2) 標本メディアンmeは、母集団メディアンMeの不偏推定量とはならない。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
(例3) 標本分散s2は、 となり母分散σ2の不偏推定量とはならない。 しかし、 であった。母集団の個体数が十分大きいとき、 とみなせるので、 と変形できる。 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定量のことを不偏推定量という。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
ところで、母分散の不偏推定量は存在しないのであろうか? の両辺に をかけると の両辺に をかけると となって、不偏推定量となる。 標本分散s2は であったので、これに をかけると、 となる。これを標本不偏分散という。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 ※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったものを用いているものもある。
効率性 - 不偏推定量がt1, t2 の2つあったとする。このとき、分散の小さいほうが母数θを推定するのにより効率的である。 2) その他の統計量特性 効率性 - 不偏推定量がt1, t2 の2つあったとする。このとき、分散の小さいほうが母数θを推定するのにより効率的である。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 t2の方が効率的
一致性 - 標本数を大きくしたときに、t がθに近づく。 十分性 - tは標本に含まれるすべての情報を含んでいる。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4