確率と統計2011 平成24年1月12日(木) 東京工科大学 亀田弘之.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
確率と統計 2007 平成 20 年 1 月 10 日 ( 木 ) 東京工科大学 亀田弘之. 復習.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4章 統計的検定 統計学 2007年度.
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
      仮説と検定.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
ホーエル『初等統計学』 第8章1節~3節 仮説の検定(1)
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
確率・統計Ⅱ 第7回.
統計学 12/13(木).
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
数理統計学 第11回 西 山.
1変量データの記述 経済データ解析 2006年度.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率と統計2008 平成20年12月4日(木) 東京工科大学 亀田弘之.
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
確率と統計 年1月12日(木)講義資料B Version 4.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
確率と統計 メディア学部2009年 2009年11月26日(木).
母分散の信頼区間 F分布 母分散の比の信頼区間
1.母平均の検定:小標本場合 2.母集団平均の差の検定
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
統計学  第9回 西 山.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
平成23年12月22日(木) No.9 東京工科大学 担当:亀田弘之
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

確率と統計2011 平成24年1月12日(木) 東京工科大学 亀田弘之

まずは復習から 学んで時にこれを習う。また説(よろこばし)からずや。 学而時習之 不亦説乎 東京工科大学 確率と統計2011

はじめにデータありき 5 9 2 8 1 6 1 1 4 2 7 社会調査や実験の実施 により得られる 東京工科大学 確率と統計2011

データを全体として眺めるとき, 集団として何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を,例えば, (算術)平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・範囲(range)などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう. 東京工科大学 確率と統計2011

日本計算機統計学会のページも参考にしてください。 統計ソフトウェア 参考情報 EXCEL:お手軽? R:フリーソフトウェア(お勧め?) SPSS:本格的なソフトウェア(有償) SAS:本格的なソフトウェア(有償) GnunPlot・Maximaなども便利 (いろいろと学んでください.) 日本計算機統計学会のページも参考にしてください。 http://www.jscs.or.jp/etc/softdata.html 東京工科大学 確率と統計2011

基本的な統計量 平均 (mean) 中央値 (median) モード (mode) 最大値・最小値 (maximum, minimum) 範囲 (range) 分散 (variance) 標準偏差 (standard deviation) など 東京工科大学 確率と統計2011

平均 定義 : m =(x1 + x2 + ・・・+Xn)÷n 意味:データ群の中心(重心) 考え方:データ群の中心(重心)で,データ群     を代表させる。(代表値) 特徴:量 の最小値を与える点.   (基準点としてふさわしい) 東京工科大学 確率と統計2011

中央値 定義:データを大きさの順に並べたときに 中央にくるデータ値。 意味:順序的観点から真ん中辺り。 定義:データを大きさの順に並べたときに     中央にくるデータ値。 意味:順序的観点から真ん中辺り。 考え方:順序的観点から中庸を捉えている。     真ん中辺りを代表値とする。 特徴:飛び離れ値に影響されない。    量    の最小値を与える点。 東京工科大学 確率と統計2011

モード(最頻値) 定義:度数(出現回数)がもっとも 多いデータ値。 意味:多数派がデータ群を代表する。 考え方:度数の多いもの程重要。 定義:度数(出現回数)がもっとも     多いデータ値。 意味:多数派がデータ群を代表する。 考え方:度数の多いもの程重要。 特徴:飛び離れ値に影響されない。    代表値として素直な定義。 東京工科大学 確率と統計2011

データの散らばりも大切 分散 (variance) 標準偏差 (standard deviation) 範囲 (range) 東京工科大学 確率と統計2011

範囲(レンジ) 定義:R = 最大値 ー 最小値 考え方:データの存在範囲 (すべてのデータはこの 範囲内にある) 考え方:データの存在範囲     (すべてのデータはこの           範囲内にある) 特徴:計算が簡単    (工場などで実用されている) 東京工科大学 確率と統計2011

分散 定義: 考え方:「各データの平均mからのずれ」に着目して、その平方数の平均を求め、データ全体の散らばりを捉える。(偏差の平方の平均) 特徴:数学的に取り扱いやすい。 東京工科大学 確率と統計2011

標準偏差 定義:分散の平方根(√分散) 考え方:分散をもとに,データと同じ 次元の量にする。 考え方:分散をもとに,データと同じ     次元の量にする。 特徴:データに対して、足したり    引いたりすることができる。 東京工科大学 確率と統計2011

以上で、得られたデータ群の特徴をとらえることができるようになった。  以上で、得られたデータ群の特徴をとらえることができるようになった。 東京工科大学 確率と統計2011

さてもっと先に進みましょう Let’s go further! 東京工科大学 確率と統計2011

知りたい対象(母集団) 母集団 4 3 1 5 1 6 7 東京工科大学 確率と統計2011

標本 母集団 4 5 1 3 1 5 3 1 1 6 7 無作為抽出 東京工科大学 確率と統計2011

標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的分析 東京工科大学 確率と統計2011

標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的推論 東京工科大学 確率と統計2011

抽出法 無作為抽出法:  どのデータも等確率で抽出されるようなサンプリング法。つまり、どの単純事象も等確率で取り出される抽出法。  Laplaceの確率の定義参照。高校で習った確率の定義でOK。 より詳しく知りたい人は、社会調査法などの勉強をしてください。(データは適切に集めなければ、 分析しても意味がない。サンプル数の決め方なども重要です。) 東京工科大学 確率と統計2011

分析法 統計的推定 統計的検定  この授業では「モデルに基づく分析」を主に 取り扱っているが、近年モデルに基づかない分析法も重要になっている。 (例:データマイニングの分野) 東京工科大学 確率と統計2011

統計的推定 点推定 区間推定 興味のある人は、教科書p.136~p.142を 参照のこと。 信頼区間 信頼限界 東京工科大学 確率と統計2011

統計的検定 この授業では、まず、これを学んで欲しいと思っています。 (理由:とにかく役に立つから。 そして、慣れないと結構難しいから。) この授業では、まず、これを学んで欲しいと思っています。 (理由:とにかく役に立つから。      そして、慣れないと結構難しいから。) 東京工科大学 確率と統計2011

仮説検定の考え方 前提: 方法論: 調査や実験によりある事実Eが得られた. この事実からあることを主張したい. (これを仮説という.) モデルを仮定する(仮説設定:帰無仮説H0) その仮説が正しいとして,事実Eの生起確率pを計算する. pの値が異常に小さければ,仮説H0を棄却する. (誤謬法/背理法の考え方) 東京工科大学 確率と統計2011

検定の考え方の例 実験:サイコロを600回振ったら、1の目が 180回出た(事実E). 主張したいこと:1の目が出やすい. 仮説の設定:どの目も等確率で出る. Eの生起確率pの計算: p≒0 判断:出易い. 計算方法と判断の基準の理解が重要 東京工科大学 確率と統計2011

(重要)確率分布の相互関係図 東京工科大学 確率と統計2011

事実: 2項分布は正規分布で近似できる この事実(定理)に着目して計算をする。 (前回お話しましたよね!) 2項分布の平均mと分散s2を求める B(m, s2 )。 Nが十分大きければN(m, s2 )で近似。 標準化する。 標準正規分布N(0,12)の数表を利用して、 確率計算する。 東京工科大学 確率と統計2011

例題(教科書p.163例1)  ある市役所ではこれまで数年間銘柄Aの電球を購入していたが,銘柄Bの電球の方が価格が安いのでBへの切り替えを考えている.銘柄Bのセールスマンは自社の製品が品質においてAの製品と同じであると主張している.数年間の経験によれば,製品Aの平均寿命は1180時間で,標準偏差は90時間であった. 東京工科大学 確率と統計2011

 製品Bのセールスマンの主張をテストするため,その銘柄の電球100個を正規販売店から購入して試験をした.その結果,m=1140,s=80が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか? 東京工科大学 確率と統計2011

問題の整理 事実: 製品Bの m=1140, s=80 製品Aの m=1180, s=90 知りたいこと: AとBは同じ品質なのか?          Bの方が劣っているではないか? 仮説:AとBは品質的に同等. 確率の計算:Bのデータの生起確率pを,           平均μ=1180,分散σ2=902の母集団から            の抽出として計算する. 危険率(有意水準)αを設定:α=10%とする. 東京工科大学 確率と統計2011

確率の計算をしてみよう (いままでと少し違うところが出てきます!) 東京工科大学 確率と統計2011

理論的根拠(1) 標本平均の平均mは母平均と等しい. 標本平均の分散σm2は母分散のn分の1倍.(nは標本の大きさ) つまり, E(m) = μ E(σm2)=σ2/n 東京工科大学 確率と統計2011

理論的根拠(2) xが平均μ,分散σ2 の任意の分布に従うとき,大きさnの無作為標本に基づく標本平均mは,nが限りなく大きくなるとき, 平均 μ,分散 σ2 /n の正規分布に近づく. 中心極限の定理 (統計学で1番重要な定理) 教科書p.130 定理2 東京工科大学 確率と統計2011

計算 標本平均の標準偏差: 90/√100 = 9 標準化: Z = ((1140 – 1180) -0)/ 9 = -40/9 = -4.4 標準正規分布表(教科書p.295 表IV):  Zがー∞~-4.4の範囲の値をとる確率は,p≒0. 東京工科大学 確率と統計2011

判断 確率p≒0 < 0.1 (10%) . おきにくい事が起きたのではなく,仮説が 間違っていると考えて,仮説を棄却する. 最終結論:    有意水準10%において,   銘柄BはAよりも劣っている. 東京工科大学 確率と統計2011

コメント 確率の計算方法を理解 (figure out)するためには、数学の勉強が必要であるが、検定自体を目的とするのであれば,基本的考え方と手順とをしっかりとマスターすればよい。 理論的なものは、必要に応じて,必要になったものだけを一生かけてゆっくり、かつ、じっくり勉強してください。 慌てず、焦らず、諦めずの精神で 東京工科大学 確率と統計2011

χ2検定 いろんな場面で使えて便利な検定法. (先ほどのサイコロの例を再び取り上げてみる.) 東京工科大学 確率と統計2011

(自分で表を作ってください) 1の目が出る回数 他の目が出る回数 実測値A 180 420 600 理論値B 100 500 (A-B)2/B 64 64/5 合計 76.8 自由度φ= 2-1=1 東京工科大学 確率と統計2011

結論:有意水準1%のもとで,1の目は出やすい. χ2 = 76.8 > χ02 = 6.6(有意水準1%) 結論:有意水準1%のもとで,1の目は出やすい. 手法は異なっても結論は同じ! 東京工科大学 確率と統計2011

2つの平均の差の検定 先の電球A, Bの品質の差の問題を再度取り上げる。これは2つの平均同士に差があるかどうかの検定と考えることもできる。 これを「2つの平均の差の検定問題」という。 教科書p.172~p.176 東京工科大学 確率と統計2011

定理 x1, x2がそれぞれ独立に平均 μ1, μ2,標準偏差σ1,σ2の正規分布に従うとき, 変数 x1-x2 は 平均 μ1ーμ2, 標準偏差 σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う。 東京工科大学 確率と統計2011

Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面積を求めると、表VIより,p≒0 結論:AとBの平均の差は同じではない。 計算: 変数x1-x2は、 平均 = 0 標準偏差 = √(90*90/100 + 80*80/100) = 12 の正規分布に従う. Z=(1140-1180)/12=-40/12=-10/3=-3.3 Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面積を求めると、表VIより,p≒0 結論:AとBの平均の差は同じではない。 東京工科大学 確率と統計2011

コメント 「2つの平均の間に差があるのか?」はしばしば問題となるので、この検定方法は役に立つ。 ただし今の場合、母分散σ1,σ2が既知である。これらが既知でない場合はもう一工夫が必要となる( t検定 を導入する必要がある)。 東京工科大学 確率と統計2011

練習問題 東京工科大学 確率と統計2011

Problem1 さいころを180回投げて、1の目の出る 確率が28回以上、34回以下である確率を 求めよ。 さいころを180回投げて、1の目の出る 確率が28回以上、34回以下である確率を 求めよ。 東京工科大学 確率と統計2011

ヒント B(n,p)の二項分布は、nが十分大きければ、平均np, 分散np(1-p)の正規分布N(np, np(1-p)で近似できる。 N(μ, σ2)の正規分布は、標準化変換 Z = (X – μ)/σ により、標準正規分布N(0, 1)に 変換される。 標準正規分布に関する計算は、数表を利用することができる。 東京工科大学 確率と統計2011

Problem2 1つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準5%で検定せよ。 目の数 1つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準5%で検定せよ。 目の数 1 2 3 4 5 6 合計 出現回数 19 31 17 23 11 120 東京工科大学 確率と統計2011

Problem3 ある町で無作為に選ばれた618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか?有意水準5%で検定せよ。 罹病   健康  合計 予防接種した 予防接種せず  4    354  9    251  358  260 計 13    605  618 東京工科大学 確率と統計2011

Problem4 結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか?  ただし、有意水準5%として考察せよ。 学歴      結 婚 に 対 す る 適 応 性 非常に低い  低い   高い  非常に高い   計 大学卒 高校卒 小中学卒        29    70    115        28    30     41 11       10    11     20  232  116   52 計 46      67   111    176  400 東京工科大学 確率と統計2011

ヒント I. 理論値 II. 自由度φ = (行数 ー 1)× (列数 ー 1) = (3-1)・(4ー1) = 6 学歴      結 婚 に 対 す る 適 応 性 非常に低い  低い  高い  非常に高い 計 大学卒 高校卒 小中学卒  27      39    64   102  13      19    32    51   6        9   14    23  232  116   52 46      67  111   176  400 II. 自由度φ = (行数 ー 1)× (列数 ー 1)      = (3-1)・(4ー1)      = 6 III. 計算値χ2 = 20.7 >  χ02 = 12.6 東京工科大学 確率と統計2011