確率と統計 メディア学部2009年 2009年11月26日(木)
今日は若干盛りだくさんです。頑張りましょう! 確率と統計2009
これまでの内容(復習) 統計学の構成 記述統計学 (確率) 推計学(数理統計学) データの整理(効果的な表・図の作り方) 推計学(統計的推論)の基礎 推計学(数理統計学) 推定・検定など 確率と統計2009
統計学の構成 記述統計学 確率の基礎 推計学(数理統計学) 確率と統計2009
1. 記述統計学 データ解析の演習 基本統計量: その他 EXCEL 平均・中央値(メディアン)・最頻値(モード) 分散・標準偏差 確率と統計2009
定義(1) 確率と統計2009
定義(2) 確率と統計2009
問題 分散の定義は次の2つがある。 これら2つの定義の使い分けを 説明しなさい。 確率と統計2009
回答例 分散とはそもそも「データの散らばり具合」を知るための指標である。そこで、定義1では「各データの偏差(基準点からのずれ)の二乗」の平均でもってデータの散らばりを捉えようとしている。一方、定義2では、「各データの偏差の二乗の総和(散らばりの総量)」を自由度で割ることでデータの散らばりを捉えようとしている。 確率と統計2009
E(s2)はσ2の不偏推定値である。教科書P.124-125. 回答例(続き) なお、定義2の方は、数学的に母分散の良い推定値になっているので、統計的推論の際には積極的に使われている。 (注)「良い推定値」とは次の式が成り立つことをここではいう。 E(s2)はσ2の不偏推定値である。教科書P.124-125. 確率と統計2009
証明 自力で証明を考えてみよう。難しければ自分で本などを調べて、ここにまとめておこう。将来のために... 確率と統計2009
2. 確率の基礎 確率の定義 確率の計算 試行・標本点ω・標本空間Ω・事象・確率関数 加法定理・互いに素 乗法定理・独立性 ベイズの定理(事後確率) その他 確率と統計2009
3. 推計学(数理統計学) 推定 検定 など 確率と統計2009
標本平均mの性質(重要) 大きさnの標本から求めた標本平均mの 「平均(期待値)と分散」は、次の性質を持つ。 E(m) =μ V(m) = σ2/n (標本平均mの分散は、母分散σ2の1/n。) 確率と統計2009
標本分散s2の性質(重要) 大きさnの標本から求めた標本分散s2の 平均は、次の性質を持つ。 E(s2) =σ2 (注) E(s) =!=σ 確率と統計2009
確率と統計2009
確率と統計 (続き)
確率と統計2009
今日の内容 推定と検定(続き) 確率と統計2009
推定 推定とは、標本のデータを利用して(標本の分析を通じて)、母集団に関するパラメータ(母平均や母分散など)の値を推測すること。 確率と統計2009
Probability & Statistics 2009 推測 知りたい対象 (未知な調査対象) 得られたデータ (分析可能) 調査 記述統計 確率(sampling) 確率(推定・検定) Probability & Statistics 2009
推定(標本が1つのとき) (事実)標本の平均がm (結論)母集団の平均の推定値 は = m 確率と統計2009
推定(標本が2つのとき) (事実)標本の平均がm1とm2 (結論)母集団の平均の推定値 は =(m1+m2)/2 確率と統計2009
推定(標本がn個のとき) (事実)標本の平均がm1,m2, …, mn (結論)母集団の平均の推定値 は (結論)母集団の平均の推定値 は = (m1 + m2 + …+ mn ) / n 確率と統計2009
推定(一般に) (事実) 標本の平均がm 標本の標準偏差がσ (結論)母集団の平均の推定値 はm、 (その誤差は ) 確率と統計2009
検定 こちらの方も実用上重要。 ゆっくりと導入しましょう。 理解できるまで何度も読み返し、考えてください。 (ここからの話は、1つの思想です。) 確率と統計2009
サイコロ実験 サイコロAとBとをそれぞれ100回ずつ 投げたところ以下のようになった。 サイコロA: 偶数40回 奇数60回 サイコロB: 偶数30回 奇数70回 AもBもサイコロはただしく作られているか? 確率と統計2009
問題をもっと単純にして解説する。 サイコロを5個投げる。 確率と統計2009
目(偶)の出方は以下の通り: (場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇 (場合2) 偶1回-奇4回: 偶-奇-奇-奇-奇 (場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇 (場合2) 偶1回-奇4回: 偶-奇-奇-奇-奇 (場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇 (場合4) 偶3回-奇2回: 偶-偶-偶-奇-奇 (場合5) 偶4回-奇1回: 偶-偶-偶-偶-奇 (場合6) 偶5回-奇0回: 偶-偶-偶-偶-偶 確率と統計2009
P0 =(1/2)×(1/2)×(1/2)×(1/2)×(1/2) = (1/2)5 = 1 / 32 (場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇 の生起確率を計算してみる。 =>乗法定理を用いる。 P0 =(1/2)×(1/2)×(1/2)×(1/2)×(1/2) = (1/2)5 = 1 / 32 確率と統計2009
(場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇 個々の系列の生起確は(1/2)5 。 個々の系列は同時には起きない(互いに排反)。 (場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇 ○ ○ X X X ○ X ○ X X ○ X X ○ X ○ X X X ○ X ○ ○ X X X ○ X ○ X X ○ X X ○ X X ○ ○ X X X ○ X ○ X X X ○ ○ 個々の系列の生起確は(1/2)5 。 個々の系列は同時には起きない(互いに排反)。 => 加法定理 従って、(場合3)全体の生起確率は P2 = 10× (1/2)5 となる。 確率と統計2009
目(偶)の出方は以下の通り: (場合1) 偶0回-奇5回: P0 = 1× (1/2)5 確率と統計2009
疑問:「5回中2回偶数が出た。 偶数の目は出にくい?」 疑問:「5回中2回偶数が出た。 偶数の目は出にくい?」 これを調べる方法を「検定」という。 それでは、検定してみよう。 確率と統計2009
検定(考え方) 【仮説設定】検定したい事柄に対して 「仮説H」を立てる。 【確率計算】 仮説Hが正しいものとして、着目して いる出来事の生起確率Pを計算する。 【判断・結論】 Pの値が極めて小さい =>普通では起きないことが起きた。 =>何かが変だ。 =>「仮説Hが正しい」としたことがいけない。 =>仮説を棄てる。 Pの値が特に小さくない =>起きてもおかしくないことが起きた。 =>特に何も結論なし。(新たな知見なし) 確率と統計2009
極めて小さい値として、習慣的に5%(0.05)や1%(0.01)、10%(0.10)がとられる。 <=特に根拠なし。 極めて小さい値として、習慣的に5%(0.05)や1%(0.01)、10%(0.10)がとられる。 <=特に根拠なし。 (3%や7%でもいいが、習慣に従おう) このような値を、「有意水準」あるいは 「危険率」という。 =>この意味は後で検討する。 確率と統計2009
検定(実行例1) 事実:「5回中、偶2回、奇3回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が2回以下の確率を求める。 P = P0+ P1+P2 = (1+5+10)×(1/2)5 = 16 / 32 = 1 / 2 3.P = 0.5 > 0.1 4.仮説は棄却されない。 確率と統計2009
検定(実行例2) 事実:「5回中、偶1回、奇4回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が1回以下の確率を求める。 P = P0+ P1 = (1+5)×(1/2)5 = 6 / 32 = 3 / 16 = 0.2 3.P = 0.2 > 0.1 4.仮説は棄却されない。 確率と統計2009
検定(実行例3) 事実:「5回中、偶0回、奇5回」 検定課題:「偶の目が出にくい」 検定の有意水準を決める。ここでは10%とする。 仮説H:「偶奇ともに等確率」 偶数の目が0回以下の確率を求める。 P = P0 = 1×(1/2)5 = 1 / 32 = 0.03 3.P = 0.03 < 0.1 4.Hは棄却される。偶奇の目の出方は等確率ではない。偶の方が出にくい。 確率と統計2009
有意水準あるいは危険率 *有意水準10%の意味: 検定を行うと、結論として、 という2つの結論のいずれかを下すことになる。 仮説Hを棄却する 確率と統計2009
検定における判断の問題点 仮説Hは 本当は正しい 仮説Hは 本当は誤り 仮説Hを棄却する 正しいのに棄却 正しい判断 誤りなのに棄却しない (注)第一種の過誤、第二種の過誤 確率と統計2009
100回中10回は誤った判断をしていることになる。 有意水準10%で仮説を棄却するとき、 100回中90回は正しい判断をしているが、 100回中10回は誤った判断をしていることになる。 =>これ以降は、データ解析例でさらに勉強してみましょう。 確率と統計2009
確率と統計2009
母集団と標本の関係 無作為抽出 母平均μ 母分散σ2 標本平均m 標本分散s2 推測 確率と統計2009
推定と検定 推定: 検定: 適当な統計量を選び、現実の標本から計算した それの現実値をたよりにして、母集団の未知母数 に関し、ある程度、信頼のおける命題をたてること。 検定: あらかじめ母集団の型や母数の値を仮定し、現実 のデータがどの程度この母集団からの標本とみな せるか決定すること。 母集団について知る 母集団と標本の関係を知る 確率と統計2009
検定 母集団と標本の関係 ? 無作為抽出 母平均μ 母分散σ2 標本平均m 標本分散s2 ホントにこの母集団の標本? 確率と統計2009
検定の例 問題1 ある人がコインを投げ、表の出た回数と裏の出た回数とを調べたら、表が220回、裏が180回であった。 ある人がコインを投げ、表の出た回数と裏の出た回数とを調べたら、表が220回、裏が180回であった。 これだけの事実から、このコインは歪みなく作られているといえるか? 確率と統計2009
考え方(No.1) コインを無限回投げなければ、表と裏の出る確率が等しいことはいえないのではないか? ー> 無限回投げることは無理!!! ー> 無限回投げることは無理!!! ー> 何も結論できないのだろうか? 確率と統計2009
考え方(No.2) 次のように考えてみよう! もし「コインが正しく作られている」ならば、 表と裏の出る確率は等しい。そのような母集団から無作為抽出により n = 400個 のデータからなる標本を作り出したとして、標本中の表の回数Hと裏の回数Tの割合が 220/400 を超える可能性 p1、および逆に、180/400 を下回る可能性 p2 を求める。P = P1 + P2 とする。 確率と統計2009
考え方(No.3) Pの値が十分小さい ー>めったに起きないことがいま起きた ー>普通起きないことが起きた ー>起きるはずのないこと(奇跡)が起きた ー>何かがおかしい! (仮説を捨てる) Pの値が大きい ->仮説は捨てない (仮説を採用するわけではない) 確率と統計2009
考え方(No.4) つまり… 出現率 p = 1/2 = 0.5 の無限母集団から、n = 400 のデータを無作為に取り出したとする。このとき、 P = P( m > 220 ) + P( m <180 ) を求めて判断しよう、ということ。 それでは具体的にやってみよう。 確率と統計2009
計算 コイン投げは、いわゆる2項分布と 呼ばれているものに相当する。 したがって、 P = P(m>220) + P(m<180) = nC221・(1/2)221・(1/2)179 + ・・・ + nC400・(1/2)400・(1/2)0 + nC179・(1/2)179・(1/2)221 + ・・・ + nC0・(1/2)0・(1/2)400 2項分布は 後日お話します。 確率と統計2009
2項分布はnが大きければ正規分布で近似できる。(教科書、108-114ページ) 定理: 2項分布はnが大きければ正規分布で近似できる。(教科書、108-114ページ) このことを利用して計算すると楽。 確率と統計2009
2項分布の計算を正規分布で! 変数変換を行う。 Z = (X – m)/s = (X – n・p)/√(n・p・q) 今の場合、 m = np = 400・0.5 = 200 s = √(npq)=√(400・0.5・0.5) = 10 この式の意味は? 考えてみること。 確率と統計2009
したがって、 P = P(m>220) + P(m<180) = P(Z>(220-200)/10) + = P(Z>2) + P(Z<-2) = 1 - P(-2<Z<+2) = 1 – 2・P(0<Z<2) = (教科書295ページ参照) 確率と統計2009
ー>100回のうち4回か5回の割合でこのようなこと(表が400回中に220回出る)がおきうる。 P は約 0.046 ー>100回のうち4回か5回の割合でこのようなこと(表が400回中に220回出る)がおきうる。 仮説「表と裏の出現確率が等しい」が正しければ、このようなことは100回に4回か5回しか起きない。 めったに起きないことがおきた? 確率と統計2009
統計学的結論: めったにないことが起きたのではなく、 「仮説が正しくない」 と結論する。 つまり、このコインは歪んでいると。 「仮説が正しくない」 と結論する。 つまり、このコインは歪んでいると。 (ただし、... ) <- ここからが大切! 確率と統計2009
そこで、統計学的には以下のように結論する。 「有意水準5%のもとに、このコインは歪んでいる。」 ただし、このようなことは100回中に数回起こりえるのだから、このような実験を行ってこのような結論を下すことは、100回中4から5回程度間違っていることになる。 そこで、統計学的には以下のように結論する。 「有意水準5%のもとに、このコインは歪んでいる。」 確率と統計2009
有意水準としては、通常1%、5%、10%などが採用される。(3%、7%などでもいいのだが…) 確率と統計2009
確率と統計2009
確率と統計2009
(おまけ) 以下の定理も重要な定理です。 確率と統計2009
定理1 x が正規分布 N(μ,σ2) に従うとき、大きさ n の無作為標本に基づく標本平均 mは、正規分布 N(μ、σ2/n) に従う。 (xの標本分布に関する定理) 確率と統計2009
定理2(重要) xが任意の分布(平均=μ,分散=σ2)に従うとき、大きさ n の無作為標本に基づく標本平均 m は、 n が無限に大きくなるとき、正規分布 N(μ、σ2/n) に従う。 (中心極限定理) 確率と統計2009
問題1 ある学力テストの得点xは、正規分布 N(160,202)に従うとする。大きさ16の標本をとり、mの値を求めるとき、 ある学力テストの得点xは、正規分布 N(160,202)に従うとする。大きさ16の標本をとり、mの値を求めるとき、 mが165を超える確率は? mが150未満となる確率は? 確率と統計2009
中心極限定理の利用法 問題1. ある大学の受験生の母集団から無作為に選んだ1人の受験生の成績を x とする。いま、過去の経験から x は平均 μ= 2.5、標準偏差s = 0.4であることがわかっているものする。このとき、この母集団から 36人の受験生の標本を採り、標本平均 m を求めるとき、 mが2.4未満となる確率は? mが2.4~2.7となる確率は? 確率と統計2009
問題1のヒント 後日解説します。 中心極限定理より s=σ/√n =0.4/√36 z=(x-m)/s =(2.4-25)・0.067= s=σ/√n =0.4/√36 z=(x-m)/s =(2.4-25)・0.067= P{m<2.4} =P{z<-1.50}= (標準正規分布表を利用) 後日解説します。 確率と統計2009