Presentation is loading. Please wait.

Presentation is loading. Please wait.

第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.

Similar presentations


Presentation on theme: "第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>."— Presentation transcript:

1 第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>

2 (その1) (その2) Ⅰ 標本分布 Ⅱ 点推定 Ⅲ 区間推定 a) 母集団と標本 b) 標本平均の標本分布 c) 標本分散の標本分布
Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本数の決定 母平均の区間推定における標本数の決定 母比率の区間推定における標本数の決定 (その1) (その2)

3 Ⅲ 区間推定 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量tの近くの区間を設定し、その区間内に母数θが含まれることを推定する。これを区間推定という。    の標本分布について、    が成り立っていた。また、母集団の個体数(N)が十分大きいとき、    が成り立つ a) 母平均の区間推定 1) 中心極限定理

4 次に、標本平均 の分布がどのような形になるのか考えてみよう。 ⅰ) 母集団の分布が正規分布の場合
  次に、標本平均   の分布がどのような形になるのか考えてみよう。  ⅰ) 母集団の分布が正規分布の場合    母集団が平均μ、分散σ2の正規分布にしたがっているとする。    標本平均  は    であり、正規分布にしたがう変数の和(をnという定数で割ったもの)となっている。    したがって、正規分布の再生性†より、  は正規分布にしたがう。    † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性という。

5 ※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均 の分布は正規分布となり、標準化された変数
 ⅱ) 母集団の分布が正規分布ではない場合   母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいとき、次のような定理によって標本平均  の分布は正規分布となる。 <中心極限定理>   算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均  の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ,  )に近づく。  ※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均  の分布は正規分布となり、標準化された変数 の分布は、標準正規分布 N(0, 1) に近づく。

6 2) 信頼区間   標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は95%である。よって、      はnが大きいときには、中心極限定理により標準正規分布にしたがうので、   となる。この式のカッコ内を変形すると   となり、標本平均  は        の区間内に95%の確率で含まれる。

7     の分布                  zの分布 また                  のカッコ内は次のようにも変形できる。 標準化 μ -1.96 1.96

8                     と                   は次のようなことを意味している。 μ × × ×

9 このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。
    を中心に、        という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 この場合、             はμの信頼係数95%の信頼区間である。

10 3) 母分散が既知の場合の区間推定 (例) 20歳男性の身長を調べるために、100人を標本として選んだところ、標本平均  =170であった。σ=8であるとき、母平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は     となる。

11 4) 母分散が未知の場合の区間推定 信頼区間を求める場合、         が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散σ2が分かっているということは、あまり多くない。 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、        が自由度n-1のt分布にしたがう。

12 ※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。
※ 標本分散s2の代わりに標本不偏分散   を用いれば、      が自由度n-1のt分布にしたがう。

13 <自由度について>   自由度とは、自由に値を取ることのできる個体数のことである。   この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。   なので、x1, …, xn-1 は自由に値をとることができるが、xn は   を満たすように決められ、自由度はn-1となる。

14 母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、
 となる。 t0.95はt分布表からその値を求める。 ※ より正確には、母集団の分布が正規分布にしたがうとき、        が自由度n-1のt分布にしたがう。   しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、        は近似的に自由度n-1のt分布にしたがうとみなせる。   また、nが十分大きい場合、t分布は正規分布に近づくので、     が正規分布にしたがうと考えることもある。

15 (例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均  =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。
(解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は   となる。

16 よって の標本分布を考えるためには、まずxの標本分布を考えればよい。 まず、標本比率 の標本分布を考えよう。
b) 母比率の区間推定   1) 標本比率の標本分布  よって  の標本分布を考えるためには、まずxの標本分布を考えればよい。   まず、標本比率  の標本分布を考えよう。   内閣支持率を例にとると、標本比率  とは、標本n人のうちのx人が「内閣を支持する」と答えた割合であり、    である。

17 となる。 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。
  また選ばれた人が 「内閣を支持する」人である確率は、母比率pに等しい。   よって、n人の標本を選ぶことは、AかBかという2つの結果しか起こらない試行 をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 2項分布の期待値は E(x) = np、分散は V(x) = npq であるので、これを用いて、  の平均、分散を考えてみると、                        となる。

18 また、「内閣を支持する」人を1、「内閣を支持しない」人を0と表すことを考える。n人の標本の中に「内閣を支持する」人はをx人含まれるので、このようにあらわした場合、     は大きさnの標本の平均とみなすことができ、中心極限定理が適用できる。   よって、  の分布は、平均p、分散  の正規分布にしたがう。標準化された変数       は標準正規分布にしたがう。 

19 が標準正規分布にしたがうことから、母比率pの 95%信頼区間は となる。
2) 母比率の区間推定         が標準正規分布にしたがうことから、母比率pの   95%信頼区間は              となる。 (例) World Baseball Classic 決勝 日本-キューバ戦の視聴率は43.4% であった。この数値は関東地区の約1600万世帯から600世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の95%信頼区間を求めよう。 (解) pの代わりに   を用いてpの95%信頼区間を計算すると                                    となる。

20 c) 標本数の決定   WBC決勝戦の視聴率を信頼係数95%で区間推定すると、8%もの幅ができる。そのため、1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。   では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度(どの程度のズレまで許容できるか)を設定し、それに必要な標本数を計算する必要がある。

21 1) 母平均の推定における標本数の決定          の許容限度を E とする。      の区間推定を信頼係数 95% でおこなうとき、  の分布について、   が成り立つので、   となればよい。よって

22   となり、   が必要標本数であることが分かる。   これを求めるために、母標準偏差σが必要となるが、標本数を決定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などからσ2 の推定値を求め、それを利用する。 (例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は8000円であったと見当がつけられているとする。 (解) 信頼係数を95%とすると、必要標本数は   となるので、246人となる。

23 2) 母比率の推定における標本数の決定          の許容限度を E とする。   pの区間推定を信頼係数 95% でおこなうとき、  の分布について、   が成り立つので、   となればよい。よって

24   となり、   が必要標本数であることが分かる。   これを求めるために、母比率pが必要となる。Pについて何らかの見当がつくなら、その数値を用いるが、pについて何の情報もない場合には   を用いる。なぜなら、     のときに、pqが最大となるからである。 (例) 視聴率調査において、1%以内の誤差で推定するために必要な標本数を求めよ。 (解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考えられるので、    とすると、必要標本数は   となるので、9604人となる。


Download ppt "第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>."

Similar presentations


Ads by Google