Presentation is loading. Please wait.

Presentation is loading. Please wait.

第4章 推測統計の基礎 統計学基礎 2013年度.

Similar presentations


Presentation on theme: "第4章 推測統計の基礎 統計学基礎 2013年度."— Presentation transcript:

1 第4章 推測統計の基礎 統計学基礎 2013年度

2 目次 Ⅰ 全数調査と標本調査 Ⅱ 確率の基礎 Ⅲ 統計的推論入門 1) 標本調査のメリット 2) 標本抽出法 3) 標本調査における誤差
Ⅰ 全数調査と標本調査 1) 標本調査のメリット 2) 標本抽出法 3) 標本調査における誤差 Ⅱ 確率の基礎 1) 確率の計算 2) 確率分布 3) 確率の定義 ⅰ) 先験的確率 ⅱ) 経験的確率 ⅲ) 主観的確率 Ⅲ 統計的推論入門

3 Ⅰ 全数調査と標本調査 「社会生活統計指標 -都道府県の指標-2013」のページには、数多くの都道府県別データがある。
Ⅰ 全数調査と標本調査 「社会生活統計指標 -都道府県の指標-2013」のページには、数多くの都道府県別データがある。 基礎データのところを見ると、中には、人口総数(A1101)のように、調査によってすべて数え上げたものがある。一方で、消費支出(勤労者世帯)(L3211)†のように、県内の一部の世帯について調査をおこなって求めた推計値もある。 † 消費支出は県内のすべての世帯について調査し、その平均をとったものではない。一部の世帯の調査結果から推計したものである。

4 ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。
1) 標本調査のメリット 母集団(個体数N) 標本(個体数n) × × × × × × × × × × ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。

5 標本調査の例として次のようなものが挙げられる。
労働力調査(完全失業率はこの調査の結果求められる)  ⇒ 全国の15歳以上(約1億1千万人)の母集団から、約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査  ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の母集団から、約1000人(新聞社のおこなう内閣支持率調査の場合)   その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。

6 費用・時間の削減 得られる情報の増加、精度の向上 全数調査が不可能な場合にも調査可能
  標本調査をおこなうメリットとして、次のようなことが挙げられる。 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、全数調査をおこなうことは不可能である。

7 母集団の中から無作為(ランダム)に標本を抜き出す方法。具体的に次のような方法がある。
2) 標本抽出法   母集団から標本を抜き出す方法を標本抽出法という。英語ではサンプリング(sampling) であり、マーケティングなどに出てくるこの言葉は、標本抽出法を指している。   標本抽出法は、次の2つに大別できる。 有意抽出法 選ばれた標本が母集団の縮図となるように、調査をおこなう人が主観的に選ぶ方法である。街を歩く人(ただし典型的と思われる人)にアンケートをとるなどの方法であり、抜き出された標本の誤差(後述)には、統計理論でコントロールすることができないほどの偏りが生じることがある。 無作為抽出法 母集団の中から無作為(ランダム)に標本を抜き出す方法。具体的に次のような方法がある。 単純無作為抽出法 - 母集団の中からくじ引きの原理によって標本を抜き出す。 系統抽出法 - 始めに1つ選び、そこから等間隔で選んでいく。電話帳などのリストに有効

8 非標本誤差 - 調査もれ、無回答、記入ミスなど
3) 標本調査における誤差   標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の2つの種類のものが組み合わさったものである。 非標本誤差 - 調査もれ、無回答、記入ミスなど  ⇒ 全数調査でも起こりうる     統計理論によりコントロール不可能 標本誤差 - 標本の偏りによるもの  ⇒ 標本調査に固有のもの     無作為抽出であれば、統計理論によりコントロール可能であるが、有意抽出の場合には、統計理論でコントロールできない標本の偏りが存在する可能性がある。 無作為抽出で得られた標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題

9 結果は、ルーズベルト候補が60%の得票を得て勝利
※ 統計理論でコントロールできない標本の偏りの例 1936年のアメリカ大統領選挙  <候補者> F・ルーズベルト(民主党)現職 A・ランドン(共和党) どちらの候補を支持するかの世論調査 リテラリー・ダイジェスト(週刊誌) 過去5回の大統領選挙の予測を的中 200万人以上の回答から、ランドン候補が57%の得票率で勝利と予想 アメリカ世論研究所(ジョージ・ギャラップ率いる研究所)  世論調査を始めたばかり 3000人の回答から、ルーズベルト候補が54%の得票率で勝利と予想 結果は、ルーズベルト候補が60%の得票を得て勝利

10 なぜ、回答数の多いリテラリー・ダイジェストが外れ、回答数の少ない、ギャラップの方が的中したか? ⇒ 標本抽出の方法の差
 ⇒ 標本抽出の方法の差 リテラリー・ダイジェスト 自誌の購読者(大恐慌の最中になお雑誌購読を続けられる裕福な人たち)を対象に、それから自動車保有者と電話利用者の名簿を使って1000万人もの対象者に郵便を送り、返送された200万以上の回答をただ積み上げた。 ジョージ・ギャラップ率いる研究所  「収入中間層・都市居住者・女性」「収入下位層・農村部居住者・男性」のように互いに重ならないグループに分け、それぞれのグループに対して決まった割合で対象を抽出した。 リテラリー・ダイジェスト ギャラップの研究所 母集団(個体数N) 母集団(個体数N) × 標本(個体数n) × 標本(個体数n) × × × × × × × × × × × × × × × × × × ×

11 ※ 無作為抽出の例   袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、袋の中の割合と同じように、赤球と白球が1個ずつとなる確率を考えてみよう。 母集団 標本 2 9 これは、10人の母集団から2人を標本として選ぶことと同じである。ここで、赤球を「内閣支持」白球を「内閣不支持」と考えると、母集団の内閣支持率は50%であるが、標本について計算した内閣支持率は、100%や0%になることもありうる。 赤球2個 5 9 赤球1個、白球1個 2 9 白球2個

12 2012年12月28日付の朝刊各紙に掲載された第2次安倍内閣支持率を見ると、異なった結果になっている。
<第2次安倍内閣発足直後の支持率の例> 母集団(有権者1億人)   ×  ×    標本1(朝日990人) 59%      ×   ×     ×      ×   ×   ×    ×  ×    ×    標本2(読売1039人) 65%   ×  ×    標本3(毎日856人) 52% 2012年12月28日付の朝刊各紙に掲載された第2次安倍内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。  ×    ×    標本4(日経872人) 62%   ×  ×    標本5(共同1031人) 62%

13 Ⅱ 確率の基礎  1) 確率の計算 (問題) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、袋の中の割合と同じように、赤球と白球が1個ずつとなる確率を考えてみよう。 (解答) 求める確率は次のようになる。 取り出した2個の球が、赤球と白球1個ずつとなる場合の数。すなわち事象Aに該当するものが何通りあるかをこのようにあらわす。 𝑃 𝐴 = 𝑎 𝑛 Aという事象のおこる確率(Probability) をこのようにあらわす。 この場合は、「取り出した球が、赤球と白球が1個ずつとなる」が事象Aである。 10個の球から2個の球を選ぶ場合の数。すなわち全部で何通りあるかをこのようにあらわす。

14 まず、10個の球から2個の球を選ぶ選び方が何通りあるかを考える。 ①②③④⑤①②③④⑤
最初に選ぶ球は、この10個のうちの1つであるので、10通りとなる。 たとえば最初に①を選んだとしよう。このとき、次に選ぶ球は、 ②③④⑤①②③④⑤の9個の中の1つであるので、9通りとなる。 選び方は10(通り)×9(通り)=90通りとなるが、この90通りの中には①③と選んだ場合と、③①と選んだ場合の両方が含まれるなど、全部の組み合わせについて、ダブりが1つずつある。 よって求める場合の数は90÷2=45(通り)である。 すなわち10個の中から2個を選ぶ組み合わせは 10個の球から2個の球を選ぶとき、順番も考えて何通りあるか。 10×9 2×1 = 90 2 =45(通り) ①③ と③① のように、同じ組み合わせで何通りの順番ができるか。

15 n個の中からx個を選ぶ組み合わせの数は次のように計算できる。
この組み合わせの数は、 𝑛 𝐶 𝑥 とあらわすことができる。 𝑛 𝐶 𝑥 の定義は次のようなものである。 ここで、!は階乗を表す記号であり、次のようなものである。 𝑛!=𝑛× 𝑛−1 ×⋯×2×1  よって、 𝑛 𝐶 𝑥 は次のように計算できる。 x個 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 𝑥× 𝑥−1 ×⋯×2×1 x個 𝑛 𝐶 𝑥 = 𝑛! 𝑥! 𝑛−𝑥 ! 𝑛 𝐶 𝑥 = 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 × 𝑛−𝑥 ×⋯×2×1 𝑥× 𝑥−1 ×⋯×2×1× 𝑛−𝑥 ×⋯×2×1 = 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 𝑥× 𝑥−1 ×⋯×2×1 x個 x個

16 また、この分子はn個の中からx個を順番に選びだした場合の数(これを順列という)は、次のように計算できる。
この順列の数は、 𝑛 𝑃 𝑥 とあらわすことができる。 𝑛 𝑃 𝑥 の定義は次のようなものである。 𝑛 𝑃 𝑥 と 𝑛 𝐶 𝑥 のあいだには、次のような関係がある。 また、 𝑛 𝑃 0 、 𝑛 𝐶 0 はこの定義にもとづいては計算できないので、 𝑛 𝑃 0 =1 , 𝑛 𝐶 0 =1と特別に定義する。 x個 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 𝑛 𝑃 𝑥 = 𝑛! 𝑛−𝑥 ! 𝑛 𝐶 𝑥 = 𝑛 𝑃 𝑥 𝑥!

17 次に、取り出した2個の球が、赤球と白球1つずつとなる組み合わせが何通りあるかを考える。 ①②③④⑤①②③④⑤
最初に赤球を選び、次に白球を選ぶ†ことにする。 赤球は①②③④⑤のいずれかから選ぶので、5通りとなる。 白球も同様に①②③④⑤のいずれかから選ぶので、5通りとなる。 よって選び方は5(通り)×5(通り)=25通り‡となる。 よって求める確率は  である。 𝑃 𝐴 = 𝑎 𝑛 = = 5 9 † 順番は関係ないので、このように決めても構わない。順番を考慮するなら、最初に赤球の場合と最初に白球の場合の両方を考えなくてはならない。 ‡ 他の場合として、取り出した2個の球がともに赤球の場合と、ともに白球の場合がある。その組み合わせの数はともに 𝑛 𝐶 𝑥 = 5×4 2×1 =10(通り)となるので、45-10×2=25(通り)と求めることもできる。

18 (例) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、2個とも赤球である確率を考えてみよう。
※ 条件付き確率 (例) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、2個とも赤球である確率を考えてみよう。 5個の赤球から2個の球を選ぶ場合の数 5 𝐶 𝐶 2 = 5×4 2×1 10×9 2×1 = = 2 9 赤球2個 10個の球から2個の球を選ぶ場合の数

19 この確率は、次のような計算で求めることもできる。
事象Aがおこることを条件として、事象Bがおこることを、(Aを条件とする)Bの条件つき確率といい、𝑃 𝐵|𝐴 であらわす。 この場合、 事象A・・・1個目の球が赤球である。 事象B・・・2個目の球が赤球である。 とすると、 𝑃 𝐴∩𝐵 =𝑃 𝐴 ×𝑃 𝐵|𝐴 = 5 10 × 4 9 = となる。 赤球2個 袋から同時に2個球を取り出すことは、球を戻さずに続けて2個球を取り出すことと同じである。そのとき、 5 10 × 4 9 = 2 9 1個目の球が赤球であったという条件のもとで、2個目の球も赤であるという条件付き確率 1個目の球が赤球である確率 AとBが同時に起こる確率であり、AとBの同時確率といわれる。 1個目も2個目も赤球である確率。 1個目の球が赤球である確率 1個目の球が赤球であったという条件のもとで、2個目の球も赤であるという条件付き確率

20 (例) コインを2枚投げて、2枚とも表になる確率を考えてみよう。 この場合、
次に、下のような例を考えてみる。 (例) コインを2枚投げて、2枚とも表になる確率を考えてみよう。 この場合、 事象A・・・1枚目のコインが表になる。 事象B・・・2 枚目のコインが表になる。 とすると、𝑃 𝐴∩𝐵 =𝑃 𝐴 ×𝑃 𝐵 = 1 2 × 1 2 = 1 4  となる。 袋から2個同時に球を取り出す場合、𝑃 𝐴∩𝐵 =𝑃 𝐴 ×𝑃 𝐵|𝐴 であった。 コインの例では𝑃 𝐵|𝐴 ではなく、𝑃 𝐵 となっているが、良いのであろうか?  ⇒ この場合、1枚目のコインが表になろうが、裏になろうが、2枚目のコインが表になる確率に影響を与えない。 すなわち、この例の場合  𝑃 𝐵|𝐴 =𝑃 𝐵 である。 このとき、「事象Aと事象Bは独立である。」という。 1枚目も2枚目も表になる確率 1枚目のコインが表になる確率 2枚目のコインが表になる確率

21 とりうる値のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。
2) 確率分布 とりうる値のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。 (例) 大小2つのサイコロを同時に振るとき、出た目の和を𝑥とすると、𝑥の値と確率の対応関係は下のようになる。  この確率分布から、例えば𝑥が3以上6以下になる確率などを求めることができる。  ⇒  = = 7 18 𝑥 2 3 4 5 6 7 8 9 10 11 12 𝑃(𝑥) 1 36 2 36 3 36 4 36 5 36 6 36

22 確率分布は、いくつかの種類に分類することができる。 離散型確率分布 連続型確率分布
2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・ 連続型確率分布 正規分布、t分布、カイ2乗分布、・・・ 中でも、左右対称のつりがね型(bell curve)をして正規分布は、数学的に望ましい性質を持った分布であり、良く用いられる。 身長や知能指数などがこの分布にしたがうといわれている。 正規分布にしたがう確率変数は、標準化することによって、標準正規分布にしたがうことになる。

23 テストの点数などは、正規分布にしたがっていると仮定される。
英語が平均80、標準偏差10の正規分布、数学が平均50、標準偏差20の正規分布にそれぞれしたがうとする。 このとき、英語は70点から90点のあいだに全体の68.3%が分布しており、数学は30点から70点のあいだに全体の68.3%が、10点から90点のあいだに全体の95.4%が分布していると考えられる。

24 ここまで考えてきた確率は、次のように定義されるものである。
3) 確率の定義  ⅰ) 先験的確率(古典的確率、数学的確率などともいう)の定義 ここまで考えてきた確率は、次のように定義されるものである。 ある行動の起こりうる結果が全部でn通りあり、そのうち事象Aにあてはまる結果がa通りあるとする。それらが同様に確からしく、互いに重複しない場合、𝑃 𝐴 = 𝑎 𝑛 を事象Aの確率とする。 これまでの例では、おこりうるすべての結果が分かり、同様に確からしいとみなせるので、実験を実際におこなってみなくても、確率を評価できる。   よって、先験的確率といわれる。

25 明日、雨が降る確率(降水確率)を先験的確率の定義にしたがって考えると、次のようになる。
ⅱ) 経験的確率 明日、雨が降る確率(降水確率)を先験的確率の定義にしたがって考えると、次のようになる。 起こりうる結果 - 雨が降る、雨が降らない の2通り(n=2) 事象A - 雨が降る あてはまる結果 - 1通り(a=1)      ⇒ 「雨が降る」と「雨が降らない」は同様に確からしいとはいえない。  ⇒ 先験的確率によって確率を定義することの限界 経験的確率 同じ条件のもとで繰り返し十分大きい観察がおこなわれたとき、観察総数nの中で、特定の事象Aとなる場合の数がaであったならば、 𝑃 𝐴 = 𝑎 𝑛 を事象Aの経験的確率という。 𝑃 𝐴 = 1 2

26 これらは、主観的確率の定義には合致する。
ⅲ) 主観的確率 経験的確率の考え方を用いることによって、おこりうる結果が同様に確からしいとはいえない場合や、すべての結果がわからない場合でも確率を求めることができる。 しかし、同じ条件のもとで繰り返し十分大きい観察が不可能な事象については、経験的確率の定義を用いることはできない。 今後おこるであろう、不確実なことがらについて、「確率」という言葉を用いることがあるが、これは不適切なのであろうか?  (例) スポーツの戦術において、「確率の高い方を選ぶ」 これらは、主観的確率の定義には合致する。 事象Aに対する個人の確信の度合いを数値で表したものP(A)を事象Aの主観的確率という。

27 (例)FIFA ワールドカップ 2014 ブラジル大会において、日本が決勝トーナメントに進出する確率は60%である。
 ⇒ 野球などのスポーツにおいて、同じ条件のもとで、繰り返し十分な観察をすることは不可能である。(過去の対戦とは、選手、調子、試合間隔、開催場所などの条件が異なっており、同一条件とはいえない。) 主観的確率は個人の確信によって定まるので、同じ事象に対しても確率の評価は異なる。  ⇒ このことから賭けがはじめて成立する。 (例) 日本シリーズで東北楽天と巨人のどちらが勝つか。 東北楽天に賭ける人 - 東北楽天が勝つ確率(主観的確率)が高い。 巨人に賭ける人 - 巨人が勝つ確率(主観的確率)が高い。  この両者が存在することによって、初めて賭けが成立する。 全員が「東北楽天が勝つ確率が高い」と思っていたら賭けは成立しない。 しかし、勝つ確率が低い方に賭けることもある。それは当たった時にもらえる金額が多くなるからである。 ⇒ 期待値の大きさで判断している。

28 主観的確率 経験的確率 先験的確率

29 Ⅲ 統計的推論入門 (例) 赤球5個、白球5個の計10個の球が入った袋から、2個球を取り出すことは、10個の母集団から2個の標本を選ぶことと同じことである。 標本(個体数n) 母集団(個体数N) 母集団 標本 赤球2個の標本の個数は全体の × 赤球2個 × × 2 9 × × 赤球2個 × 赤球1個 白球1個 × × × × 5 9 × × 赤球1個、白球1個 × 白球2個 × 2 9 白球2個 × 赤球1個 白球1個 × ・・・ 2 9

30 この例において、標本に含まれる赤球の個数をxとすると、xの値と確率の対応関係は下のようになる。
このxの分布は、標本の個体数nが大きくなる時、正規分布に近づく。 ⇒ 中心極限定理 𝑥 1 2 𝑃(𝑥) 2 9 5 9

31   内閣支持率などの比率の調査において、 標本比率 𝑝 = 𝑥 𝑛 の標本分布を考える。
   𝑝 は母比率𝑝を中心とする正規分布になる。   よって、 𝑝 として、 𝑝 からどの程度異なる値が出てくるかがわかる。 母集団(有権者1億人)   有権者のうち、1000人を標本として選ぶ調査で、母集団の内閣支持率が0.6であったとすると、0.57と0.63のあいだに 𝑝 の95%が分布する。   ⇒ この性質を用いて、たとえば 𝑝 =0.62 という結果が得られたなら、この値から、母比率𝑝が含まれるであろう区間を推定できる。    (区間推定)詳しくは「統計学」で 標本(約1000人)      ×   ×     ×      ×   ×   ×    ×   ×  ×    標本比率 𝑝 母比率 p=0.6

32 0.57 𝑝 の分布 標本から求められた内閣支持率は、標本誤差があり、母比率をピタリと当てることは難しい。
𝑝 の分布   標本から求められた内閣支持率は、標本誤差があり、母比率をピタリと当てることは難しい。   そこで、母比率pが含まれるであろう区間を考え、推定する。 95% 0.57 p=0.6 0.63 × 0.61

33 日本全国の平均所得を求めるために、8000世帯を標本として抜き出し、標本平均 𝑥 にもとづいて、全国の平均所得を推定する。
※ その他の例として、次のようなものが考えられる。 日本全国の平均所得を求めるために、8000世帯を標本として抜き出し、標本平均 𝑥 にもとづいて、全国の平均所得を推定する。 ある番組の視聴率が21.3%と出た。これは関東地方600世帯を標本として抜き出した結果である。この番組の関東地方での視聴率は、20%を上回ったといってもよいであろうか。 製造業と金融業の間で、大卒5年目の給与に差があるかどうかを調べるために、それぞれ10人ずつ選んで、給与を調べた。これらの標本から、差があるといえるであろうか。  ⇒ これらは「統計学」(2年配当)で扱います。


Download ppt "第4章 推測統計の基礎 統計学基礎 2013年度."

Similar presentations


Ads by Google