確率と統計 2007 平成 20 年 1 月 10 日 ( 木 ) 東京工科大学 亀田弘之
復習
はじめにデータありき 1 2 5 9 1 7 6 8 14 2 社会調査や実験の実施 により得られる
データを全体として眺めるとき,集団 として何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を例えば, ( 算 術 ) 平均・中央値・モードなどのいわゆ る代表値や,分散・標準偏差・範囲 (range) などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう.
統計ソフトウェア EXCEL :お手軽? R :フリーソフトウェア(お勧め?) SPSS :本格的なソフトウェア(有償) SAS :本格的なソフトウェア(有償) GnunPlot ・ Maxima なども便利 (いろいろと学んでください.) 参考情報
基本的な統計量 平均 中央値 モード 最大値・最小値 範囲 分散 標準偏差 など
平均 定義 : m =(x 1 + x 2 + ・・・ +X n )÷n 意味:データ群の中心 考え方:データ群の中心で,データ群 を代表させる.(代表値) 特徴:量 の最小値を与える点. (基準点としてふさわしい)
中央値 定義:データを大きさの順に並べたときに 中央にくるデータ値. 意味:順序的観点から真ん中辺り. 考え方:順序的観点から中庸を捉えている. 真ん中辺りを代表値とする. 特徴:飛び離れ値に影響されない. 量 の最小値を与える点.
モード 定義:度数(出現回数)がもっとも 多いデータ値. 意味:多数派がデータ群を代表する. 考え方:度数の多いもの程重要. 特徴:飛び離れ値に影響されない. 代表値として素直な定義.
データの散らばりも大切 分散 標準偏差 範囲
範囲(レンジ) 定義: R = 最大値 ー 最小値 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) 特徴:計算が簡単 (工場などで実用されている)
分散 定義: 考え方:「各データの平均 m からのずれ」に着 目して,その平方数の平均を求め,データ全体 の散らばりを捉える. 特徴:数学的に取り扱いやすい.
標準偏差 定義:分散の平方根( √ 分散) 考え方:分散をもとに,データと同じ 次元の量にする. 特徴:データに対して,足したり 引いたりすることができる.
以上で,得られたデータ群の 特徴をとらえることができる ようになった.
さて, …
知りたい対象(母集団) 1 6 1 4 7 3 5 母集団
1 6 1 4 7 3 5 標本 母集団 1 1 5 3 無作為抽出
1 6 1 4 7 3 5 標本 母集団 1 1 5 3 統計的分析
1 6 1 4 7 3 5 標本 母集団 1 1 5 3 統計的推論
抽出法 無作為抽出法: どのデータも等確率で抽出されるようなサン プリング法.どの単純事象も等確率で取り出 される抽出法. Laplace の確率の定義参照. 高校で習った確率の定義で OK . 詳しく知りたい人は,社会調査法などの勉強 をしてください.(データは適切に集めなけ れば,分析しても意味がない.サンプル数の 決め方なども重要です.)
分析法 統計的推定 統計的検定 この授業では「モデルに基づく分析」 を主に取り扱っているが,近年モデル に基づかない分析法も重要になってい る.(例:データマイニングの分野)
統計的推定 点推定 区間推定 信頼区間 信頼限界 興味のある人は,教科書 p.136 ~ p.142 を参照のこと.
統計的検定 この授業では,まず,これを学んで欲 しいと思っています. (理由:とにかく役に立つから. そして,なれないと結構 難しいから.)
仮説検定の考え方 前提: 調査や実験によりある事実 E が得られた. この事実からあることを主張したい. (これを仮説という.) 方法論: モデルを仮定する(仮説設定:帰無仮説 H 0 ) その仮説が正しいとして,事実 E の生起確率 p を計算 する. p の値が異常に小さければ,仮説 H 0 を棄却する. (誤謬法の考え方)
検定の考え方の例 実験:サイコロを 600 回振ったら,1の目が 180 回出た(事実 E ). 主張したいこと:1の目が出やすい. 仮説の設定:どの目も等確率で出る. E の生起確率 p の計算: p ≒ 0 判断:出易い. 計算方法と判断の基準の理解が重要
例題(教科書 p.163 例1) ある市役所ではこれまで数年間銘柄 A の 電球を購入していたが,銘柄 B の電球の 方が価格が安いので B への切り替えを考 えている.銘柄 B のセールスマンは自社 の製品が品質において A の製品と同じで あると主張している.数年間の経験に よれば,製品 A の平均寿命は 1180 時間 で,標準偏差は 90 時間であった.
製品 B のセールスマンの主張をテストする ため,その銘柄の電球 100 個を正規販売 店から購入して試験をした.この結果, m=1140,s=80 が得られた.電球の品質 の尺度として平均寿命時間を考えると すれば,どう結論すべきか?
問題の整理 事実:製品 B の m=1140,s=80 製品 A の m=1180,s=90 知りたいこと: B の方が劣っている. 仮説: A と B は品質的に同等. 確率の計算: B のデータの生起確率 p を,平均 μ=1180, 分散 σ 2 =90 の母集団からの抽出として 計算する. 危険率(有意水準) α を設定する. Α =10%とする.
確率の計算をしてみよう
理論的根拠(1) 標本平均の平均 m は母平均と等しい. 標本平均の分散 σ m 2 は母分散のn分の1 倍. (n は標本の大きさ ) つまり, E(m) = μ E(σ m 2 )=σ 2 /n
理論的根拠(2) xが平均 μ ,分散 σ 2 の任意の分布に従う とき,大きさnの無作為標本に基づく 標本平均 m は,nが限りなく大きくな るとき,平均 μ ,分散 σ 2 /n の正規分布 に近づく. 中心極限の定理 (統計学で1番重要な定理) 中心極限の定理 (統計学で1番重要な定理) 教科書 p.130 定理2
計算 標本平均の分散: 90/√100 = 9 標準化: Z = (1140 – 1180) / 9 = -40/9 = -4.4 標準正規分布表(教科書 p.295 表 IV ): Z がー ∞ ~- 4.4 の範囲の値をとる確率 は, p ≒ 0 .
判断 確率 p ≒0 < 0.1 (10%) . おきにくい事が起きたのではなく,仮 設が間違っていると考えて,仮設を捨 てる. 最終結論:有意水準 10 %において, 銘柄 B は A よりも劣っている.
コメント 確率の計算方法を理解するためには, 数学の勉強が必要であるが,検定をす ることが目的の場合,基本的考え方と 手順をしっかりとマスターすればよい. 理論的なものは,必要に応じて,必要 になったものだけを一生かけて勉強し てください.
χ 2 検定 いろんな場面で使えて便利な検定法. (先ほどのサイコロの例を再び取り上 げてみる.)
1の目が 出る回数 他の目が 出る回数 実測値 A 180420600 理論値 B 100500600 (A-B) 2 /B6464/5 合計 76.8 自由度 φ= 2-1=1
χ2 = 76.8 > χ 0 2 = 6.6( 有意水準 1%) 結論:有意水準1%のもとで,1の目 は出やすい. 手法は異なっても結論は同じ
2つの平均の差の検定 先の電球 A , B の品質の差の問題を再度 取り上げる.これは2つの平均同士に 差があるかどうかの検定と考えること もできる.これを「2つの平均の差の 検定問題」という. 教科書 p.172 ~ p.176
定理 x 1,x 2 がそれぞれ独立に平均 μ1,μ2 ,標準 偏差 σ 1,σ 2 の正規分布に従うとき,変数 x 1 -x 2 は 平均 μ 1 ー μ 2, 標準偏差 σ x1-x2 = √(σ x1 2 + σ x2 2 ) = √(σ 1 /n 1 + σ 2 /n 2 ) の正規分布に従う.
仮説: A の平均と B の平均とは等しい. 計算: 変数 x1-x2 は, 平均 = 0 標準偏差 = √ ( 90*90/ *80/100 ) = 12 の正規分布に従う. Z = ( )/12=-40/12=-10/3=-3.3 Z がー 3.3 以下か+ 3.3 以上になる場合の正規分布曲線 の面積を求めると,表 VI より, p ≒ 0 結論: A と B の平均の差は同じではない.
コメント 「2つの平均の間に差があるのか?」 はしばしば問題となるので,この検定 方法は役に立つ. ただし今の場合,母分散 σ1,σ2 が既知で ある.これらが既知でない場合はもう 一工夫が必要となる.( t 検定を導入す る必要がある.)