第3章 統計的推定 統計学 2016年度
Ⅰ 標本分布 Ⅱ 点推定 Ⅲ 区間推定 a) 母集団と標本 b) 標本平均の標本分布 c) 標本分散の標本分布 点推定 統計量の特性 Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本の大きさの決定 母平均の区間推定における標本の大きさの決定 母比率の区間推定における標本の大きさの決定
Ⅰ 標本分布 a) 母集団と標本 母集団(個体数N) 標本(個体数n) × × × × × × × × × × ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。
標本調査の例として次のようなものが挙げられる。 労働力調査(完全失業率はこの調査の結果求められる) ⇒ 全国の15歳以上(約1億1千万人)の母集団から、約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査 ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の母集団から、約1000人(新聞社のおこなう内閣支持率調査の場合) その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。
費用・時間の削減 得られる情報の増加、精度の向上 全数調査が不可能な場合にも調査可能 1) 標本調査の利点 1) 標本調査の利点 標本調査をおこなうメリットとして、次のようなことが挙げられる。 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、全数調査をおこなうことは不可能である。
非標本誤差 - 調査もれ、無回答、記入ミスなど 2) 標本調査における誤差 標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の2つの種類のものが組み合わさったものである。 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる 統計理論によりコントロール不可能 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの 統計理論によりコントロール可能 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題
<第2次安倍内閣発足直後の支持率の例> 母集団(有権者1億人) × × 標本1(朝日990人) 59% × × × × × × × × × 標本2(読売1039人) 65% × × 標本3(毎日856人) 52% 2012年12月28日付の朝刊各紙に掲載された第2次安倍内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。 × × 標本4(日経872人) 62% × × 標本5(共同1031人) 62%
b) 標本平均の標本分布 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平均や標本分散など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。 しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。
一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。 500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全て(その数は1.04×1042通りという天文学的数字になる!)から標本平均が計算でき、その分布を考えることができる。 一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。 𝑁 𝐶 𝑛 = 𝑁! 𝑛! 𝑁−𝑛 ! = 𝑁× 𝑁−1 ×⋯×1 𝑛× 𝑛−1 ×⋯×1× 𝑁−𝑛 × 𝑁−𝑛−1 ×⋯×1 = 𝑁× 𝑁−1 ×⋯× 𝑁−𝑛+1 × 𝑁−𝑛 × 𝑁−𝑛−1 ×⋯×1 𝑛× 𝑛−1 ×⋯×1× 𝑁−𝑛 × 𝑁−𝑛−1 ×⋯×1 = 𝑁× 𝑁−1 ×⋯× 𝑁−𝑛+1 𝑛× 𝑛−1 ×⋯×1 ←分母も分子もn個ずつ
中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車除く)は次のようになっている。(単位: 台) <簡単な例> 中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車除く)は次のようになっている。(単位: 台) これを10万台単位で四捨五入し、各都道府県の頭文字をアルファベットで表すと となる。 母平均、母分散は 鳥取 島根 岡山 広島 山口 184958 216744 651448 863016 474582 出典: 中国運輸局『管内保有車両数』 T S O H Y 2 7 9 5 𝜇= 2+2+7+9+5 5 =5 𝜎 2 = 2−5 2 + 2−5 2 + 7−5 2 + 9−5 2 + 5−5 2 5 = 9+9+4+16+0 5 =7.6
この5県を母集団とし、その中から2県を選んで標本とすると、選び方は5C2=10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。 パターン 𝑥 T,S 2,2 2 T,O 2,7 4.5 T,H 2,9 5.5 T,Y 2,5 3.5 S,O S,H S,Y O,H 7,9 8 O,Y 7,5 6 H,Y 9,5 7
次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。 標本平均の度数分布表から、次のように計算できる。 ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数の合計で割れば良い 𝑥 𝑓 𝑖 (度数) 𝑓 𝑖 𝑥 𝑖 𝑓 𝑖 𝑥 𝑖 2 2 1 4 3.5 7 24.5 4.5 9 40.5 5.5 11 60.5 6 36 49 8 64 計 10 50 278.5 𝐸 𝑥 = 𝑓 𝑖 𝑥 𝑖 𝑓 𝑖 = 50 10 =5 𝑉 𝑥 = 𝑓 𝑖 𝑥 𝑖 2 𝑓 𝑖 − 𝐸 𝑥 2 = 278.5 10 − 5 2 =2.85
なお、この分散の式は計算式であり、次のようにして求めたものである。 なお、この分散の式は計算式であり、次のようにして求めたものである。 𝑉 𝑥 = 𝑓 𝑖 𝑥 𝑖 −𝐸 𝑥 2 𝑓 𝑖 = 𝑓 𝑖 𝑥 𝑖 2 −2𝐸 𝑥 𝑓 𝑖 𝑥 𝑖 +𝑛(𝐸 𝑥 ) 2 𝑓 𝑖 = 𝑓 𝑖 𝑥 𝑖 2 −2𝑛𝐸 𝑥 +𝑛(𝐸 𝑥 ) 2 𝑓 𝑖 = 𝑓 𝑖 𝑥 𝑖 2 𝑓 𝑖 − (𝐸 𝑥 ) 2 ※ 分散については、{度数×(階級値-平均)2}の総和を度数の合計で割ったものとなる
標本平均の平均、分散と、母平均、母分散の関係として が成り立つ。分散に関しては である。この例では、 ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、 𝑁−𝑛 𝑁−1 は1に近くなり、 𝑉 𝑥 = 𝜎 2 𝑛 とみなせる。 視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので 𝐸 𝑥 =𝜇 𝑉 𝑥 ≠ 𝜎 2 𝑉 𝑥 = 𝑁−𝑛 𝑁−1 𝜎 2 𝑛 𝑉 𝑥 = 5−2 5−1 × 7.6 2 = 3 4 × 7.6 2 =2.85 𝑁−𝑛 𝑁−1 = 15800000−600 15800000−1 =0.999962≒1
次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 c) 標本分散の標本分布 次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 パターン 𝑠 2 T,S 2,2 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O S,H S,Y O,H 7,9 1 O,Y 7,5 H,Y 9,5 4 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
標本平均の度数分布表から、次のように計算できる。 標本分散の平均について考えると、 標本平均の度数分布表から、次のように計算できる。 𝐸 𝑠 2 = 𝑓 𝑖 𝑠 2 𝑓 𝑖 = 47.5 10 =4.75 となる。標本分散の平均と母分散の関係は次のようになっている。 𝐸 𝑠 2 = 𝑁 𝑁−1 𝑛−1 𝑛 𝜎 2 𝑠 2 𝑓 𝑖 (度数) 𝑓 𝑖 𝑠 2 1 2 2.25 4.5 4 6.25 12.5 12.25 24.5 計 10 47.5
Ⅱ 点推定 a) 点推定 推論 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 Ⅱ 点推定 a) 点推定 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。 ただし、一般に t≠θである。 母平均μ 母分散σ2 標本平均x 標本分散s2 推論 母数θ 標本統計量t
点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 b) 統計量の特性 1) 不偏性 点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 このような性質を不偏性といい、「tはθの不偏推定量である」という。 (例1) 標本平均 𝑥 は 𝐸 𝑥 =𝜇 となるので、母平均μの不偏推定量である。 (例2) 標本メディアンmeは、母集団メディアンMeの不偏推定量とはならない。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
(例3) 標本分散s2は、 𝐸 𝑠 2 ≠ 𝜎 2 となり母分散σ2の不偏推定量とはならない。 しかし、 𝐸 𝑠 2 = 𝑁 𝑁−1 𝑛−1 𝑛 𝜎 2 であった。母集団の個体数が十分大きいとき、 𝑁 𝑁−1 =1 とみなせるので、 𝐸 𝑠 2 = 𝑛−1 𝑛 𝜎 2 = 1− 1 𝑛 𝜎 2 = 𝜎 2 − 𝜎 2 𝑛 と変形できる。 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定量のことを不偏推定量という。 偏り パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
ところで、母分散の不偏推定量は存在しないのであろうか? 𝐸 𝑠 2 = 𝑛−1 𝑛 𝜎 2 の両辺に 𝑛 𝑛−1 をかけると 𝐸 𝑠 2 = 𝑛−1 𝑛 𝜎 2 の両辺に 𝑛 𝑛−1 をかけると 𝐸 𝑛 𝑛−1 𝑠 2 = 𝜎 2 となって、不偏推定量となる。 標本分散s2は であったので、これに 𝑛 𝑛−1 をかけると、 となる。これを標本不偏分散という。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛−1 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛−1 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 ※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったものを用いているものもある。
一致性 - 標本の大きさを大きくしたときに、t がθに近づく。(母数θから離れた標本統計量tが出現する可能性は低くなる) 2) その他の統計量特性 一致性 - 標本の大きさを大きくしたときに、t がθに近づく。(母数θから離れた標本統計量tが出現する可能性は低くなる) 効率性 - 不偏推定量がt1, t2 の2つあったとする。このとき、分散の小さい推定量の方が母数θを推定するのにより効率的(母数θの近くの値を取る可能性が高い)である。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 t2の方が効率的
⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。 ⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。 例: 正規母集団の母平均の推定における標本平均はこれらの基準をすべて満たしている。 また、推定量の性質としては次のようなものも考えられる。 十分性 - tは標本に含まれるすべての情報を含んでいる。 ⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操競技の採点などで、最高点と最低点を除いた平均が得点となるが、これは刈り込み平均の1種である)などは、標本のすべての情報を含んでいないので、十分性を満たさない。 ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可能性はある。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4
Ⅲ 区間推定 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量tの近くの区間を設定し、その区間内に母数θが含まれることを推定する。これを区間推定という。 たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯を標本として調査し、500万円という標本平均を得たとする。この500万円±10万円という区間をとればよいのか、±30万円という区間を取ればよいのかを考えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性に劣る) 母集団(個体数N) × 標本(個体数n) × × × × × × × × × 標本平均x 母平均μ 区間推定
さらに、母集団の個体数(N)が十分大きいとき、 標本調査をおこなう場合、通常は1つの標本についての標本平均がわかるだけであるが、とりうるすべての標本について標本平均を知ることができたなら、その分布を考えることができる。これを標本分布という。 a) 母平均の区間推定 1) 中心極限定理 𝑥 の標本分布について、 が成り立っていた。 さらに、母集団の個体数(N)が十分大きいとき、 が成り立つ 𝐸 𝑥 =𝜇 𝑉 𝑥 = 𝑁−𝑛 𝑁−1 𝜎 2 𝑛 𝑉 𝑥 = 𝜎 2 𝑛
𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。 次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。 ⅰ) 母集団の分布が正規分布の場合 母集団が平均μ、分散σ2の正規分布にしたがっているとする。 標本平均 𝑥 は であり、正規分布にしたがう変数の和(をnという定数で割ったもの)となっている。 したがって、正規分布の再生性†より、 𝑥 は正規分布にしたがう。 † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性という。 𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 𝑛
※ 以上 ⅰ), ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均 𝑥 の分布は正規分布となり、標準化された変数 ⅱ ) 母集団の分布が正規分布ではない場合 母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいとき、次のような定理によって標本平均 𝑥 の分布は正規分布となる。 <中心極限定理> 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均 𝑥 の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 𝑁(𝜇, 𝜎 2 𝑛 ) に近づく。 ※ 以上 ⅰ), ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均 𝑥 の分布は正規分布となり、標準化された変数 の分布は、標準正規分布 N(0, 1) に近づく。 𝑧= 𝑥 −𝜇 𝜎 𝑛
2) 信頼区間 標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は95%である。 よって、 𝑧= 𝑥 −𝜇 𝜎 𝑛 はnが大きいときには、中心極限定理により標準正規分布にしたがうので、 となる。この式のカッコ内を変形すると となり、標本平均 𝑥 は 𝜇±1.96 𝜎 𝑛 の区間内に95%の確率で含まれる。 𝑃(−1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96)=0.95 𝜇−1.96 𝜎 𝑛 ≤ 𝑥 ≤𝜇+1.96 𝜎 𝑛
また 𝑃 −1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96 =0.95 のカッコ内は次のようにも変形できる。 標準化 𝑥 の分布 zの分布 また 𝑃 −1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96 =0.95 のカッコ内は次のようにも変形できる。 標準化 𝑧= 𝑥 −𝜇 𝜎 𝑛 𝜇−1.96 𝜎 𝑛 μ 𝜇+1.96 𝜎 𝑛 -1.96 1.96 −1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96⟺−1.96 𝜎 𝑛 ≤ 𝑥 −𝜇≤1.96 𝜎 𝑛 ⟺1.96 𝜎 𝑛 ≥𝜇− 𝑥 ≥−1.96 𝜎 𝑛 ⟺ 𝑥 +1.96 𝜎 𝑛 ≥𝜇≥ 𝑥 −1.96 𝜎 𝑛
𝜇−1. 96 𝜎 𝑛 ≤ 𝑥 ≤𝜇+1. 96 𝜎 𝑛 と 𝑥 −1. 96 𝜎 𝑛 ≤𝜇≤ 𝑥 +1 𝜇−1.96 𝜎 𝑛 ≤ 𝑥 ≤𝜇+1.96 𝜎 𝑛 と 𝑥 −1.96 𝜎 𝑛 ≤𝜇≤ 𝑥 +1.96 𝜎 𝑛 は次のようなことを意味している。 𝜇−1.96 𝜎 𝑛 μ 𝜇+1.96 𝜎 𝑛 × 𝑥 −1.96 𝜎 𝑛 𝑥 +1.96 𝜎 𝑛 𝑥 × ×
このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 𝑥 を中心に、 𝑥 ±1.96 𝜎 𝑛 という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 この場合、 𝑥 −1.96 𝜎 𝑛 , 𝑥 +1.96 𝜎 𝑛 はμの信頼係数95%の信頼区間である。
(例) 20歳男性の身長を調べるために、100人を標本として選んだところ、標本平均 𝑥 =170であった。σ=8であるとき、母平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は となる。 𝑥 −1.96 𝜎 𝑛 , 𝑥 +1.96 𝜎 𝑛 170−1.96 8 100 , 170+1.96 8 100 170−1.568, 170+1.568 168.43, 171.57
母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。 4) 母分散が未知の場合の区間推定 信頼区間を求める場合、 𝑧= 𝑥 −𝜇 𝜎 𝑛 が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散σ2が分かっているということは、あまり多くない。 (過去の調査において母分散のおおよその値が分かり、それを用いるなどの例外はあるが) 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。
𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛−1 = 𝑥 𝑖 − 𝑥 2 𝑛−1 ※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。 ※ 標本分散s2の代わりに標本不偏分散 を用いれば、 𝑡= 𝑥 −𝜇 𝑠 𝑛 が自由度n-1のt分布にしたがう。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛−1 = 𝑥 𝑖 − 𝑥 2 𝑛−1
自由度とは、自由に値を取ることのできる個体数のことである。 <自由度について> 自由度とは、自由に値を取ることのできる個体数のことである。 この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。 なので、x1, …, xn-1 は自由に値をとることができるが、xn は 𝑥 𝑖 𝑛 = 𝑥 を満たすように決められ、自由度はn-1となる。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛 = 𝑥 𝑖 − 𝑥 2 𝑛
母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、 となる。 t0.95はt分布表からその値を求める。 ※ より正確には、母集団の分布が正規分布にしたがうとき、𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。 しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、𝑡= 𝑥 −𝜇 𝑠 𝑛−1 は近似的に自由度n-1のt分布にしたがうとみなせる。 また、nが十分大きい場合、t分布は正規分布に近づくので、𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が正規分布にしたがうと考えることもある。 𝑥 − 𝑡 0.95 𝑠 𝑛−1 , 𝑥 + 𝑡 0.95 𝑠 𝑛−1
𝑥 の分布 zの分布 標準化 𝑧= 𝑥 −𝜇 𝜎 𝑛 μ -1.96 1.96 変換 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 𝜇−1.96 𝜎 𝑛 𝑧= 𝑥 −𝜇 𝜎 𝑛 𝜇−1.96 𝜎 𝑛 μ 𝜇+1.96 𝜎 𝑛 -1.96 1.96 tの分布 (自由度n-1のt分布) 母分散が分からない場合、 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。 t統計量の95%が含まれる区間の境界値であるt0.95の値を、t分布表から探し出す。 変換 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 -t0.95 t0.95
(解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は (例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均 𝑥 =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。 (解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は となる。 𝑥 − 𝑡 0.95 𝑠 𝑛−1 , 𝑥 + 𝑡 0.95 𝑠 𝑛−1 160−2.262 9 10−1 , 160+2.262 9 10−1 160−2.262×3, 160+2.262×3 160−6.786, 160+6.786 153.21, 166.79
よって 𝑝 の標本分布を考えるためには、まずxの標本分布を考えればよい。 まず、標本比率 𝑝 の標本分布を考えよう。 2) 母比率の区間推定 ⅰ) 標本比率の標本分布 よって 𝑝 の標本分布を考えるためには、まずxの標本分布を考えればよい。 まず、標本比率 𝑝 の標本分布を考えよう。 内閣支持率を例にとると、標本比率 𝑝 とは、標本n人のうちのx人が「内閣を支持する」と答えた割合であり、 𝑝 = 𝑥 𝑛 である。
となる。 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。 また選ばれた人が 「内閣を支持する」人である確率は、母比率pに等しい。 よって、n人の標本を選ぶことは、AかBかという2つの結果しか起こらない試行 をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 2項分布の期待値は E(x) = np、分散は V(x) = npq であるので、これを用いて、 𝑝 の平均、分散を考えてみると、 となる。 𝐸 𝑝 =𝐸 𝑥 𝑛 = 𝐸 𝑥 𝑛 = 𝑛𝑝 𝑛 =𝑝 𝑉 𝑝 =𝑉 𝑥 𝑛 = 𝑉 𝑥 𝑛 2 = 𝑛𝑝𝑞 𝑛 2 = 𝑝𝑞 𝑛
また、「内閣を支持する」人を1、「内閣を支持しない」人を0と表すことを考える。n人の標本の中に「内閣を支持する」人はをx人含まれるので、このようにあらわした場合、 𝑝 = 𝑥 𝑛 は大きさnの標本の平均とみなすことができ、中心極限定理が適用できる。 よって、 𝑝 の分布は、平均𝑝 、分散 𝑝𝑞 𝑛 の正規分布にしたがう。標準化された変数 𝑧= 𝑝 −𝑝 𝑝𝑞 𝑛 は標準正規分布にしたがう。
(解) pの代わりに 𝑝 を用いてpの95%信頼区間を計算すると ⅱ) 母比率の区間推定 𝑧= 𝑝 −𝑝 𝑝𝑞 𝑛 が標準正規分布にしたがうことから、母比率pの95%信頼区間は 𝑝 −1.96 𝑝𝑞 𝑛 , 𝑝 +1.96 𝑝𝑞 𝑛 となる。 (例) 2016年1月2日放送の「第92回 東京箱根間往復大学駅伝競走 往路」の視聴率は28.0%であった。この数値は関東地区の約1600万世帯から600世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の95%信頼区間を求めよう。 (解) pの代わりに 𝑝 を用いてpの95%信頼区間を計算すると となる。 𝑝 −1.96 𝑝𝑞 𝑛 , 𝑝 +1.96 𝑝𝑞 𝑛 0.280−1.96 0.280×0.720 600 ,0.280+1.96 0.280×0.720 600 0.280−0.036, 0.280+0.036 0.244, 0.316
c) 標本の大きさの決定 「第92回 東京箱根間往復大学駅伝競走 往路」の視聴率を信頼係数95%で区間推定すると、7%程度の幅ができる。そのため、1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。 では、視聴率調査の精度を高めるには、推定量の一致性から標本の大きさを大きくすることが考えられる。しかし、標本の大きさを大きくすることはコストの増加を意味している。よって、目標となる精度(どの程度のズレまで許容できるか)を設定し、それに必要な標本の大きさを計算する必要がある。
1) 母平均の推定における標本の大きさの決定 𝑥 −𝜇 の許容限度を E とする。 μ の区間推定を信頼係数 95% でおこなうとき、 𝑥 の分布について、 𝑥 −𝜇 𝜎 𝑛 ≤1.96 が成り立つので、 𝑥 −𝜇 ≤1.96 𝜎 𝑛 ≤𝐸 となればよい。よって 1.96 𝜎 𝑛 ≤𝐸 1.96 𝜎 𝐸 ≤ 𝑛 1.96 𝜎 𝐸 2 ≤𝑛
となり、 𝑛= 1.96 𝜎 𝐸 2 が必要な標本の大きさであることが分かる。 これを求めるために、母標準偏差σが必要となるが、標本の大きさを決定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などからσ2 の推定値を求め、それを利用する。 (例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は8000円であったと見当がつけられているとする。 (解) 信頼係数を95%とすると、必要な標本の大きさは 𝑛= 1.96× 8000 1000 2 = 1.96×8 2 = 15.68 2 =245.8624 となるので、246人となる。
2) 母比率の推定における標本の大きさの決定 𝑝 −𝑝 の許容限度を E とする。 pの区間推定を信頼係数 95% でおこなうとき、 𝑝 の分布について、 𝑝 −𝑝 𝑝𝑞 𝑛 ≤1.96 が成り立つので、 𝑝 −𝑝 ≤1.96 𝑝𝑞 𝑛 ≤𝐸 となればよい。よって 1.96 𝑝𝑞 𝑛 ≤𝐸 1.96 𝑝𝑞 𝐸 ≤ 𝑛 1.96 𝐸 2 𝑝𝑞≤𝑛
となり、 𝑛= 1.96 𝐸 2 𝑝𝑞 が必要な標本の大きさであることが分かる。 これを求めるために、母比率pが必要となる。Pについて何らかの見当がつくなら、その数値を用いるが、pについて何の情報もない場合には𝑝= 1 2 を用いる。なぜなら、𝑝=𝑞= 1 2 のときに、pqが最大となるからである。 (例) 視聴率調査において、1%以内の誤差で推定するために必要な標本の大きさを求めよ。 (解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考えられるので、 𝑝= 1 2 とすると、必要な標本の大きさは 𝑛= 1.96 0.01 2 × 1 2 × 1 2 = 196 2 × 1 4 =9604 となるので、9604世帯となる。