確率と統計2011 平成24年1月12日(木) 東京工科大学 亀田弘之
まずは復習から 学んで時にこれを習う。また説(よろこばし)からずや。 学而時習之 不亦説乎 東京工科大学 確率と統計2011
はじめにデータありき 5 9 2 8 1 6 1 1 4 2 7 社会調査や実験の実施 により得られる 東京工科大学 確率と統計2011
データを全体として眺めるとき, 集団として何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を,例えば, (算術)平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・範囲(range)などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう. 東京工科大学 確率と統計2011
日本計算機統計学会のページも参考にしてください。 統計ソフトウェア 参考情報 EXCEL:お手軽? R:フリーソフトウェア(お勧め?) SPSS:本格的なソフトウェア(有償) SAS:本格的なソフトウェア(有償) GnunPlot・Maximaなども便利 (いろいろと学んでください.) 日本計算機統計学会のページも参考にしてください。 http://www.jscs.or.jp/etc/softdata.html 東京工科大学 確率と統計2011
基本的な統計量 平均 (mean) 中央値 (median) モード (mode) 最大値・最小値 (maximum, minimum) 範囲 (range) 分散 (variance) 標準偏差 (standard deviation) など 東京工科大学 確率と統計2011
平均 定義 : m =(x1 + x2 + ・・・+Xn)÷n 意味:データ群の中心(重心) 考え方:データ群の中心(重心)で,データ群 を代表させる。(代表値) 特徴:量 の最小値を与える点. (基準点としてふさわしい) 東京工科大学 確率と統計2011
中央値 定義:データを大きさの順に並べたときに 中央にくるデータ値。 意味:順序的観点から真ん中辺り。 定義:データを大きさの順に並べたときに 中央にくるデータ値。 意味:順序的観点から真ん中辺り。 考え方:順序的観点から中庸を捉えている。 真ん中辺りを代表値とする。 特徴:飛び離れ値に影響されない。 量 の最小値を与える点。 東京工科大学 確率と統計2011
モード(最頻値) 定義:度数(出現回数)がもっとも 多いデータ値。 意味:多数派がデータ群を代表する。 考え方:度数の多いもの程重要。 定義:度数(出現回数)がもっとも 多いデータ値。 意味:多数派がデータ群を代表する。 考え方:度数の多いもの程重要。 特徴:飛び離れ値に影響されない。 代表値として素直な定義。 東京工科大学 確率と統計2011
データの散らばりも大切 分散 (variance) 標準偏差 (standard deviation) 範囲 (range) 東京工科大学 確率と統計2011
範囲(レンジ) 定義:R = 最大値 ー 最小値 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) 特徴:計算が簡単 (工場などで実用されている) 東京工科大学 確率と統計2011
分散 定義: 考え方:「各データの平均mからのずれ」に着目して、その平方数の平均を求め、データ全体の散らばりを捉える。(偏差の平方の平均) 特徴:数学的に取り扱いやすい。 東京工科大学 確率と統計2011
標準偏差 定義:分散の平方根(√分散) 考え方:分散をもとに,データと同じ 次元の量にする。 考え方:分散をもとに,データと同じ 次元の量にする。 特徴:データに対して、足したり 引いたりすることができる。 東京工科大学 確率と統計2011
以上で、得られたデータ群の特徴をとらえることができるようになった。 以上で、得られたデータ群の特徴をとらえることができるようになった。 東京工科大学 確率と統計2011
さてもっと先に進みましょう Let’s go further! 東京工科大学 確率と統計2011
知りたい対象(母集団) 母集団 4 3 1 5 1 6 7 東京工科大学 確率と統計2011
標本 母集団 4 5 1 3 1 5 3 1 1 6 7 無作為抽出 東京工科大学 確率と統計2011
標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的分析 東京工科大学 確率と統計2011
標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的推論 東京工科大学 確率と統計2011
抽出法 無作為抽出法: どのデータも等確率で抽出されるようなサンプリング法。つまり、どの単純事象も等確率で取り出される抽出法。 Laplaceの確率の定義参照。高校で習った確率の定義でOK。 より詳しく知りたい人は、社会調査法などの勉強をしてください。(データは適切に集めなければ、 分析しても意味がない。サンプル数の決め方なども重要です。) 東京工科大学 確率と統計2011
分析法 統計的推定 統計的検定 この授業では「モデルに基づく分析」を主に 取り扱っているが、近年モデルに基づかない分析法も重要になっている。 (例:データマイニングの分野) 東京工科大学 確率と統計2011
統計的推定 点推定 区間推定 興味のある人は、教科書p.136~p.142を 参照のこと。 信頼区間 信頼限界 東京工科大学 確率と統計2011
統計的検定 この授業では、まず、これを学んで欲しいと思っています。 (理由:とにかく役に立つから。 そして、慣れないと結構難しいから。) この授業では、まず、これを学んで欲しいと思っています。 (理由:とにかく役に立つから。 そして、慣れないと結構難しいから。) 東京工科大学 確率と統計2011
仮説検定の考え方 前提: 方法論: 調査や実験によりある事実Eが得られた. この事実からあることを主張したい. (これを仮説という.) モデルを仮定する(仮説設定:帰無仮説H0) その仮説が正しいとして,事実Eの生起確率pを計算する. pの値が異常に小さければ,仮説H0を棄却する. (誤謬法/背理法の考え方) 東京工科大学 確率と統計2011
検定の考え方の例 実験:サイコロを600回振ったら、1の目が 180回出た(事実E). 主張したいこと:1の目が出やすい. 仮説の設定:どの目も等確率で出る. Eの生起確率pの計算: p≒0 判断:出易い. 計算方法と判断の基準の理解が重要 東京工科大学 確率と統計2011
(重要)確率分布の相互関係図 東京工科大学 確率と統計2011
事実: 2項分布は正規分布で近似できる この事実(定理)に着目して計算をする。 (前回お話しましたよね!) 2項分布の平均mと分散s2を求める B(m, s2 )。 Nが十分大きければN(m, s2 )で近似。 標準化する。 標準正規分布N(0,12)の数表を利用して、 確率計算する。 東京工科大学 確率と統計2011
例題(教科書p.163例1) ある市役所ではこれまで数年間銘柄Aの電球を購入していたが,銘柄Bの電球の方が価格が安いのでBへの切り替えを考えている.銘柄Bのセールスマンは自社の製品が品質においてAの製品と同じであると主張している.数年間の経験によれば,製品Aの平均寿命は1180時間で,標準偏差は90時間であった. 東京工科大学 確率と統計2011
製品Bのセールスマンの主張をテストするため,その銘柄の電球100個を正規販売店から購入して試験をした.その結果,m=1140,s=80が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか? 東京工科大学 確率と統計2011
問題の整理 事実: 製品Bの m=1140, s=80 製品Aの m=1180, s=90 知りたいこと: AとBは同じ品質なのか? Bの方が劣っているではないか? 仮説:AとBは品質的に同等. 確率の計算:Bのデータの生起確率pを, 平均μ=1180,分散σ2=902の母集団から の抽出として計算する. 危険率(有意水準)αを設定:α=10%とする. 東京工科大学 確率と統計2011
確率の計算をしてみよう (いままでと少し違うところが出てきます!) 東京工科大学 確率と統計2011
理論的根拠(1) 標本平均の平均mは母平均と等しい. 標本平均の分散σm2は母分散のn分の1倍.(nは標本の大きさ) つまり, E(m) = μ E(σm2)=σ2/n 東京工科大学 確率と統計2011
理論的根拠(2) xが平均μ,分散σ2 の任意の分布に従うとき,大きさnの無作為標本に基づく標本平均mは,nが限りなく大きくなるとき, 平均 μ,分散 σ2 /n の正規分布に近づく. 中心極限の定理 (統計学で1番重要な定理) 教科書p.130 定理2 東京工科大学 確率と統計2011
計算 標本平均の標準偏差: 90/√100 = 9 標準化: Z = ((1140 – 1180) -0)/ 9 = -40/9 = -4.4 標準正規分布表(教科書p.295 表IV): Zがー∞~-4.4の範囲の値をとる確率は,p≒0. 東京工科大学 確率と統計2011
判断 確率p≒0 < 0.1 (10%) . おきにくい事が起きたのではなく,仮説が 間違っていると考えて,仮説を棄却する. 最終結論: 有意水準10%において, 銘柄BはAよりも劣っている. 東京工科大学 確率と統計2011
コメント 確率の計算方法を理解 (figure out)するためには、数学の勉強が必要であるが、検定自体を目的とするのであれば,基本的考え方と手順とをしっかりとマスターすればよい。 理論的なものは、必要に応じて,必要になったものだけを一生かけてゆっくり、かつ、じっくり勉強してください。 慌てず、焦らず、諦めずの精神で 東京工科大学 確率と統計2011
χ2検定 いろんな場面で使えて便利な検定法. (先ほどのサイコロの例を再び取り上げてみる.) 東京工科大学 確率と統計2011
(自分で表を作ってください) 1の目が出る回数 他の目が出る回数 実測値A 180 420 600 理論値B 100 500 (A-B)2/B 64 64/5 合計 76.8 自由度φ= 2-1=1 東京工科大学 確率と統計2011
結論:有意水準1%のもとで,1の目は出やすい. χ2 = 76.8 > χ02 = 6.6(有意水準1%) 結論:有意水準1%のもとで,1の目は出やすい. 手法は異なっても結論は同じ! 東京工科大学 確率と統計2011
2つの平均の差の検定 先の電球A, Bの品質の差の問題を再度取り上げる。これは2つの平均同士に差があるかどうかの検定と考えることもできる。 これを「2つの平均の差の検定問題」という。 教科書p.172~p.176 東京工科大学 確率と統計2011
定理 x1, x2がそれぞれ独立に平均 μ1, μ2,標準偏差σ1,σ2の正規分布に従うとき, 変数 x1-x2 は 平均 μ1ーμ2, 標準偏差 σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う。 東京工科大学 確率と統計2011
Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面積を求めると、表VIより,p≒0 結論:AとBの平均の差は同じではない。 計算: 変数x1-x2は、 平均 = 0 標準偏差 = √(90*90/100 + 80*80/100) = 12 の正規分布に従う. Z=(1140-1180)/12=-40/12=-10/3=-3.3 Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面積を求めると、表VIより,p≒0 結論:AとBの平均の差は同じではない。 東京工科大学 確率と統計2011
コメント 「2つの平均の間に差があるのか?」はしばしば問題となるので、この検定方法は役に立つ。 ただし今の場合、母分散σ1,σ2が既知である。これらが既知でない場合はもう一工夫が必要となる( t検定 を導入する必要がある)。 東京工科大学 確率と統計2011
練習問題 東京工科大学 確率と統計2011
Problem1 さいころを180回投げて、1の目の出る 確率が28回以上、34回以下である確率を 求めよ。 さいころを180回投げて、1の目の出る 確率が28回以上、34回以下である確率を 求めよ。 東京工科大学 確率と統計2011
ヒント B(n,p)の二項分布は、nが十分大きければ、平均np, 分散np(1-p)の正規分布N(np, np(1-p)で近似できる。 N(μ, σ2)の正規分布は、標準化変換 Z = (X – μ)/σ により、標準正規分布N(0, 1)に 変換される。 標準正規分布に関する計算は、数表を利用することができる。 東京工科大学 確率と統計2011
Problem2 1つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準5%で検定せよ。 目の数 1つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準5%で検定せよ。 目の数 1 2 3 4 5 6 合計 出現回数 19 31 17 23 11 120 東京工科大学 確率と統計2011
Problem3 ある町で無作為に選ばれた618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか?有意水準5%で検定せよ。 罹病 健康 合計 予防接種した 予防接種せず 4 354 9 251 358 260 計 13 605 618 東京工科大学 確率と統計2011
Problem4 結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか? ただし、有意水準5%として考察せよ。 学歴 結 婚 に 対 す る 適 応 性 非常に低い 低い 高い 非常に高い 計 大学卒 高校卒 小中学卒 29 70 115 28 30 41 11 10 11 20 232 116 52 計 46 67 111 176 400 東京工科大学 確率と統計2011
ヒント I. 理論値 II. 自由度φ = (行数 ー 1)× (列数 ー 1) = (3-1)・(4ー1) = 6 学歴 結 婚 に 対 す る 適 応 性 非常に低い 低い 高い 非常に高い 計 大学卒 高校卒 小中学卒 27 39 64 102 13 19 32 51 6 9 14 23 232 116 52 46 67 111 176 400 II. 自由度φ = (行数 ー 1)× (列数 ー 1) = (3-1)・(4ー1) = 6 III. 計算値χ2 = 20.7 > χ02 = 12.6 東京工科大学 確率と統計2011