第3章 統計的推定 統計学 2008年度.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第2章 全数調査と標本調査 ー 経済統計 ー.
第4章 統計的検定 統計学 2007年度.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
第4章補足 分散分析法入門 統計学 2010年度.
      仮説と検定.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1章 統計学の準備 ー 計量経済学 ー.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学 12/3(月).
第2章 単純回帰分析 ー 計量経済学 ー.
4. 統計的検定 保健統計 2009年度.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
経済統計 第三回 5/1 Business Statistics
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計学 11/30(木).
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
統計学 12/13(木).
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第2章 全数調査と標本調査 ー 経済統計 ー.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
第3章 統計的推定 (その1) 統計学 2006年度.
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
数理統計学 西 山.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
母分散の信頼区間 F分布 母分散の比の信頼区間
1.母平均の検定:小標本場合 2.母集団平均の差の検定
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
第4章 統計的検定 (その2) 統計学 2006年度.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第2章 全数調査と標本調査 ー 経済統計 ー.
統計学  第9回 西 山.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
数理統計学 西 山.
推定と予測の違い 池の魚の体重の母平均を知りたい→推定 池の魚を無作為に10匹抽出して調査 次に釣り上げる魚の体重を知りたい→予測
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
Presentation transcript:

第3章 統計的推定 統計学 2008年度

Ⅰ 標本分布 Ⅱ 点推定 Ⅲ 区間推定 a) 母集団と標本 b) 標本平均の標本分布 c) 標本分散の標本分布 点推定 統計量の特性 Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本数の決定 母平均の区間推定における標本数の決定 母比率の区間推定における標本数の決定

Ⅰ 標本分布 a) 母集団と標本 母集団(個体数N) 標本(個体数n) × × × × × × × × × × ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。

標本調査の例として次のようなものが挙げられる。 労働力調査(完全失業率はこの調査の結果求められる)  ⇒ 全国の15歳以上(約1億1千万人)の母集団から、約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査  ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の母集団から、約1000人(新聞社のおこなう内閣支持率調査の場合)   その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。

費用・時間の削減 得られる情報の増加、精度の向上 全数調査が不可能な場合にも調査可能 1) 標本調査の利点 1) 標本調査の利点   標本調査をおこなうメリットとして、次のようなことが挙げられる。 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、全数調査をおこなうことは不可能である。

非標本誤差 - 調査もれ、無回答、記入ミスなど 2) 標本調査における誤差   標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の2つの種類のものが組み合わさったものである。 非標本誤差 - 調査もれ、無回答、記入ミスなど  ⇒ 全数調査でも起こりうる     統計理論によりコントロール不可能 標本誤差 - 標本の偏りによるもの  ⇒ 標本調査に固有のもの     統計理論によりコントロール可能 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題

2007年9月27日付の朝刊各紙に掲載された福田内閣支持率を見ると、異なった結果になっている。 <福田内閣発足直後の支持率の例> 母集団(有権者1億人)   ×  ×    標本1(朝日908人) 53%      ×   ×     ×      ×   ×   ×    ×  ×    ×    標本2(読売926人) 58%   ×  ×    標本3(毎日828人) 57% 2007年9月27日付の朝刊各紙に掲載された福田内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。  ×    ×    標本4(日経660人) 59%   ×  ×    標本5(共同1025人) 57%

b) 標本平均の標本分布 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平均や標本平均など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。 しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。

500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全て(その数は1 500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全て(その数は1.04×1042通りという天文学的数字になる!)から標本平均が計算でき、その分布を考えることができる。 一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。

<簡単な例> 中国地方5県の乗用車登録台数(2006年3月31日現在)は次のようになっている。(単位: 台) これを10万台単位で四捨五入し、各都道府県の頭文字をアルファベットで表すと となる。 母平均、母分散は

この5県を母集団とし、その中から2県を選んで標本とすると、選び方は5C2=10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。

次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。   標本平均の度数分布表から、次のように計算できる。   ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数の合計で割れば良い 10

なお、この分散の式は計算式であり、次のようにして求めたものである。   なお、この分散の式は計算式であり、次のようにして求めたものである。 ※ 分散については、{度数×(階級値-平均)2}の総和を度数の合計で割ったものとなる

標本平均の平均、分散と、母平均、母分散の関係として  が成り立つ。分散に関しては  である。この例では、   ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、   は1に近くなり、     とみなせる。   視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので

次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 c) 標本分散の標本分布 次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

標本分散の平均について考えると、   標本平均の度数分布表から、次のように計算できる。   となる。標本分散の平均と母分散の関係は次のようになっている。

Ⅱ 点推定 a) 点推定 推論 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 Ⅱ 点推定 a) 点推定 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。 ただし、一般に t≠θである。 母平均μ 母分散σ2 標本平均x 標本分散s2 推論 母数θ 標本統計量t

点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 b) 統計量の特性  1) 不偏性 点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 このような性質を不偏性といい、「tはθの不偏推定量である」という。 (例1) 標本平均  は       となるので、母平均μの不偏推定量である。 (例2) 標本メディアンmeは、母集団メディアンMeの不偏推定量とはならない。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

(例3) 標本分散s2は、 となり母分散σ2の不偏推定量とはならない。  しかし、           であった。母集団の個体数が十分大きいとき、      とみなせるので、  と変形できる。 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定量のことを不偏推定量という。 偏り パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

ところで、母分散の不偏推定量は存在しないのであろうか? の両辺に をかけると         の両辺に   をかけると  となって、不偏推定量となる。  標本分散s2は  であったので、これに   をかけると、  となる。これを標本不偏分散という。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 ※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったものを用いているものもある。

一致性 - 標本数を大きくしたときに、t がθに近づく。(母数θから離れた標本統計量tが出現する可能性は低くなる)  2) その他の統計量特性 一致性 - 標本数を大きくしたときに、t がθに近づく。(母数θから離れた標本統計量tが出現する可能性は低くなる) 効率性 - 不偏推定量がt1, t2 の2つあったとする。このとき、分散の小さい推定量の方が母数θを推定するのにより効率的(母数θの近くの値を取る可能性が高い)である。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 t2の方が効率的

⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。  ⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。 例: 正規母集団の母平均の推定における標本平均はこれらの基準をすべて満たしている。  また、推定量の性質としては次のようなものも考えられる。 十分性 - tは標本に含まれるすべての情報を含んでいる。  ⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操競技の採点などで、最高点と最低点を除いた平均が得点となるが、これは刈り込み平均の1種である)などは、標本のすべての情報を含んでいないので、十分性を満たさない。   ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可能性はある。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

Ⅲ 区間推定 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量tの近くの区間を設定し、その区間内に母数θが含まれることを推定する。これを区間推定という。    の標本分布について、    が成り立っていた。また、母集団の個体数(N)が十分大きいとき、    が成り立つ a) 母平均の区間推定 1) 中心極限定理

次に、標本平均 の分布がどのような形になるのか考えてみよう。 ⅰ) 母集団の分布が正規分布の場合   次に、標本平均   の分布がどのような形になるのか考えてみよう。  ⅰ) 母集団の分布が正規分布の場合    母集団が平均μ、分散σ2の正規分布にしたがっているとする。    標本平均  は    であり、正規分布にしたがう変数の和(をnという定数で割ったもの)となっている。    したがって、正規分布の再生性†より、  は正規分布にしたがう。    † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性という。

※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均 の分布は正規分布となり、標準化された変数  ⅱ) 母集団の分布が正規分布ではない場合   母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいとき、次のような定理によって標本平均  の分布は正規分布となる。 <中心極限定理>   算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均  の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ,  )に近づく。  ※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均  の分布は正規分布となり、標準化された変数 の分布は、標準正規分布 N(0, 1) に近づく。

2) 信頼区間   標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は95%である。よって、      はnが大きいときには、中心極限定理により標準正規分布にしたがうので、   となる。この式のカッコ内を変形すると   となり、標本平均  は        の区間内に95%の確率で含まれる。

    の分布                  zの分布 また                  のカッコ内は次のようにも変形できる。 標準化 μ -1.96 1.96

                    と                   は次のようなことを意味している。 μ × × ×

このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。     を中心に、        という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 この場合、             はμの信頼係数95%の信頼区間である。

3) 母分散が既知の場合の区間推定 (例) 20歳男性の身長を調べるために、100人を標本として選んだところ、標本平均  =170であった。σ=8であるとき、母平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は     となる。

4) 母分散が未知の場合の区間推定 信頼区間を求める場合、         が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散σ2が分かっているということは、あまり多くない。 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、        が自由度n-1のt分布にしたがう。

※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。 ※ 標本分散s2の代わりに標本不偏分散   を用いれば、      が自由度n-1のt分布にしたがう。

<自由度について>   自由度とは、自由に値を取ることのできる個体数のことである。   この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。   なので、x1, …, xn-1 は自由に値をとることができるが、xn は   を満たすように決められ、自由度はn-1となる。

母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、  となる。 t0.95はt分布表からその値を求める。 ※ より正確には、母集団の分布が正規分布にしたがうとき、        が自由度n-1のt分布にしたがう。   しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、        は近似的に自由度n-1のt分布にしたがうとみなせる。   また、nが十分大きい場合、t分布は正規分布に近づくので、     が正規分布にしたがうと考えることもある。

(例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均  =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。 (解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は   となる。

よって の標本分布を考えるためには、まずxの標本分布を考えればよい。 まず、標本比率 の標本分布を考えよう。 b) 母比率の区間推定   1) 標本比率の標本分布  よって  の標本分布を考えるためには、まずxの標本分布を考えればよい。   まず、標本比率  の標本分布を考えよう。   内閣支持率を例にとると、標本比率  とは、標本n人のうちのx人が「内閣を支持する」と答えた割合であり、    である。

となる。 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。   また選ばれた人が 「内閣を支持する」人である確率は、母比率pに等しい。   よって、n人の標本を選ぶことは、AかBかという2つの結果しか起こらない試行 をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 2項分布の期待値は E(x) = np、分散は V(x) = npq であるので、これを用いて、  の平均、分散を考えてみると、                        となる。

また、「内閣を支持する」人を1、「内閣を支持しない」人を0と表すことを考える。n人の標本の中に「内閣を支持する」人はx人含まれるので、このようにあらわした場合、     は大きさnの標本の平均とみなすことができ、中心極限定理が適用できる。   よって、  の分布は、平均p、分散  の正規分布にしたがう。標準化された変数       は標準正規分布にしたがう。 

が標準正規分布にしたがうことから、母比率pの 95%信頼区間は となる。 2) 母比率の区間推定         が標準正規分布にしたがうことから、母比率pの   95%信頼区間は              となる。 (例) 名古屋国際女子マラソン(2008.3.9放送)の視聴率は25.7%であった。この数値は関東地区の約1600万世帯から600世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の95%信頼区間を求めよう。 (解) pの代わりに   を用いてpの95%信頼区間を計算すると                                    となる。

c) 標本数の決定   名古屋国際女子マラソンの視聴率を信頼係数95%で区間推定すると、7%もの幅ができる。そのため、1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。   では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度(どの程度のズレまで許容できるか)を設定し、それに必要な標本数を計算する必要がある。

1) 母平均の推定における標本数の決定          の許容限度を E とする。      の区間推定を信頼係数 95% でおこなうとき、  の分布について、   が成り立つので、   となればよい。よって

  となり、   が必要標本数であることが分かる。   これを求めるために、母標準偏差σが必要となるが、標本数を決定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などからσ2 の推定値を求め、それを利用する。 (例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は8000円であったと見当がつけられているとする。 (解) 信頼係数を95%とすると、必要標本数は   となるので、246人となる。

2) 母比率の推定における標本数の決定          の許容限度を E とする。   pの区間推定を信頼係数 95% でおこなうとき、  の分布について、   が成り立つので、   となればよい。よって

  となり、   が必要標本数であることが分かる。   これを求めるために、母比率pが必要となる。Pについて何らかの見当がつくなら、その数値を用いるが、pについて何の情報もない場合には   を用いる。なぜなら、     のときに、pqが最大となるからである。 (例) 視聴率調査において、1%以内の誤差で推定するために必要な標本数を求めよ。 (解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考えられるので、    とすると、必要標本数は   となるので、9604人となる。