Download presentation
Presentation is loading. Please wait.
Published byけいしょう おまた Modified 約 8 年前
1
2013/04/26
2
初等統計学 ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 ) 中古なら 1000 円程度
3
DVD は図書館で 認証を忘れると悲しいことに!
4
訂正 根源事象⇒根元事象
5
試行,事象,確率 事象: 6 の目が出る 確率: 1/6 事象 実験 観察
6
S: 全事象 根元事象 ( 単一事象) :これ以上分割できない事象 複合事象 2 つ以上の根元事象からなる事象 排反事象 共通の根元事象を持たない事象 当然 どの2つの根元事象も背反である
7
S: 全事象, A, A1,A2,…An ∊ S 1. 0 ≦ P(A) ≦ 1 2. A1,A2,…An ...が互いに背反事象なら P(A1 ∪ A2 ∪.. ∪ An ∪..) = P(A1)+P(A2)+P( . )+P(An)+ .. 3. P(S)=1
8
N(A ): 事象 A に含まれる根元事象の個数 全ての根元事象が等しい確率であるなら S :根元事象 P(A)= N(A)/N(S)
9
大切な概念
10
P(B|A) ある事象 A を観測したときに事象 B を観測 する確率 例 ) A: 発熱している B: 風邪をひいている P(B|A) ⇒発熱を観察しているときに,その人が 風邪である確率
12
事象 A の発生する確率 0.2 事象 B の発生する確率 0.05 事象 A,B の発生する確率 0.02 S : 100 人(全事象) A : 20 人(事象) S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人
13
S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人
14
歪みのないサイコロを投げ,偶数の目が 出たときに,その目が 3 の倍数である確率 A :偶数の目が出る B :目が 3 の倍数 A={2 の目が出る, 4 の目が出る, 6 の目が 出る } B={3 の目が出る, 6 の目が出る } A ∩ B={6 の目が出る }
15
A={2 の目が出る, 4 の目が出る, 6 の目が 出る } B={3 の目が出る, 6 の目が出る } A ∩ B={6 の目が出る } ⇒ P(A)=1/2 P(A∩B ) =1/6 ゆえに P(B|A)= P(A∩B)/ P(A)=1/6÷ ½ =2/6=1/3
16
2424 6 3 B: 3 の倍数の目がでる A: 偶数の目がでる 1515
17
A :罹患 ( 発症) P(A ):ある特定疾患に罹患する確率 ⇒非常に小さい B: 大学病院に入院する ⇒非常に小さい しかし P(A|B) が小さいという保証は 何もない!
18
P(A) = 0.0001 1 万人 1 人 P(B) = 0.0001 400 万人 ( 県民人口)のうち 400 人 ( 病床) P(A∩B)= 0.00001 10 万人 1 人 P(B|A)=P(A∩B)/P(A)= 0.00001÷ 0.0001 =1/10 = 0.1
20
2 つの事象 A,B が独立事象であるとは 定義 P(A|B)=P(A) または P(B|A)=P(B)
21
P(A ∩ B) = P(A)× P(B) 独立のときだけ上の式が成立する 自分の私感ですが,実際の世界で完璧に 独立ということはめったにない!
22
PG ホーエル
23
どのように標本を選ぶべきか? 作為抽出 なんら科学的な手法も使用できない 無作為抽出 ( Random Sampling) 母集団を構成するどの個体も 標本に選ばれる確率が等しく なるような抽出方法 母集団 標本
24
母集団:調査対象の 数値などを持つ集合 標本 記述統計 数値的記述 例) 平均 注意 :母集団の平均 :標本の平均 母集団 標本
25
学生のアンケート 電話での選挙予想 老人調査 何が大切か? 母集団を構成する台帳 例 住民基本台帳 母集団に番号をつける
26
老人クラブに入会している人は健康な人 たち 老人クラブは過疎地にはすくなくある程 度人口がいる場所に限られる。 老人クラブの会長から推薦された人 健康 受け答えができて会の中核になる人 男性 ⇒ この調査結果は信頼できない!
27
悉皆調査 しっかいちょうさ ⇒国勢調査 標本調査 ひょうほんちょうさ 無作為抽出 作為抽出
28
基幹統計 ( 旧 指定統計) 一般統計 ( 旧 承認統計,届出統計) ⇒つまり統計調査をするためには総務省
29
調査統計( 1 次統計) 統計を作成することを目的として行われ る調査から得られる統計⇒国勢調査,家 計調査 業務統計( 1 次統計) 行政上の届出などから得られる記録から の統計⇒人口動態統計 加工統計( 2 次統計) 1 次統計を利用、加工した統計のこと ⇒国民経済計算や鉱工業指数
30
個人面接法( Interview survey ) 正確で高い回収率、費用がかさむ 配布回収法(留め置き法) 調査員が配布し 後に回収 郵送法 (mail survey) 回収率は 30 %以下 電話法 (Telephone survey) インターネット調査
31
平均値(期待値) Average , Mean 標準偏差 Standard Deviation ⇒データが平均の周りに散らばっている のか? 分散⇒標準偏差の 2 乗 中央値(ちゅうおうち) 最頻値(もーど) 尖度(せんど) 歪度(わいど)
32
10 円 50 円 平均⇒ 30 円 20 円 40 円 30 円 標準偏差= 0 標準偏差= 14.142 円 標準偏差= 28.2842 円
33
偏差値
34
Wikipedia より
35
負の歪度 左に裾をひいている 正の歪度 右に裾をひいている
36
代表値 平均以外の代表値 メジアン モード
37
分布が左右に歪んでいる場合には必要な 概念 左右対称な場合は平均値に一致する
38
measure of location 分布の位置に関する測度 平均、最頻値(モード)、中央値(メジアン) measure of scale 尺度に関する測度 その他 正規分布と比較して 歪度( Skewness) 尖度( Kurtosis )
39
平均 (x) :標本平均 1 /nΣ i x i を意味します. 標準誤差標準偏差をnの平方根で割ったもの 標準偏差標本標準偏差を意味しています.分散の平方根です. 平均の周りの散らばりを意味しています. 中央値データの真ん中の順位の値です.この場合は100な ので, 50 番目と 51 番目の平均を計算しています. 最頻値計算しても意味のないものを計算しています. 分析ツールでの計算結果は,離散的なデータや階級に 分類されている場合等だけが意味を持ちます. 尖度分布の裾の重さになる指標です. 歪度左右の偏りを示します.正の場合は右に裾を引き,負 の場合は左に裾を引くと言います. 分散(s 2 ) : 標本不偏分散です.二乗和を( n-1 )で割った形式です. 信頼区間 正規分布近似計算で両側信頼区間です. ( EXCEL2003) そうでない場合は信頼区間の半分の長さですの,平均 ± この数値が信頼区間です.
40
右に裾をひいた分布 ( 歪度が正) 単峰(やま1つ)な ら モード≦メジアン ≦平均が成立する 左右対称分布の場合 は3つ ( 平均,メジア ン,モード)は一致 して,歪度は0
41
右に裾を引く 値が正となる 左に裾を引く 値は負となる 日本の森林の表層土壌 の pH 値 有症者発生数の推移 流行曲線の例 (北海道内で集団発生した腸管出血性大腸菌 O-157 感染症報告書, 北海道帯広保健所, 1997 ) idsc.nih.go.jp/training/9kanri/14_minowa.html
42
2.5 の階級値から 階級下限値は 0 階級上限値は 5であることが わかる. つまり 0 歳 以上 5 歳未満で の死亡数は 322 人であることが わかる.
43
最大値, 最小値 階級の数= 5-20 程度 目安として 標本の大きさ ▪ 30 程度なら 5 個 ▪ 10-20 程度まで 階級の数が多すぎると不規則な凸凹 少なすぎると情報が失われる
44
Sturges の提案 階級の数= 1 + (log 10 n / log 10 2) =1+ log 2 n EXCEL では =1+ Log( 標本の大きさ,2) と入力すれば計算でき る スコット (Scott’s) の提案 階級の数= 3.5 s / n 1/3 ここで s は標本の標準偏差 EXCEL では =3*標本標準偏差 / 標本の大きさ ^(1/3) と入力すれば計算で きる Freedman と Diaconis の提案 階級の数=2 × 四分位範囲 / n 1/3
45
EXCEL はウソが多い? 売上伝票整理などを主たる目的
46
500 人になっている か?
47
① ② ② 重要 名義 順序 スケール
48
1 ⇒男 2 ⇒女
49
① ② ③
50
BMI の計算 ①
51
BMI ( Body Mass Index) 体重 ÷ (身長の2乗) ① に BMI と記入 ② をクリック 変数⇒体重 ① ②
52
①
53
演算 SPPS での標記演算 SPPS での標記 + ( 加算) + X( 乗算) * ー(減算) - ÷( 除算) / べき乗 ** ≠ (不等号) ~= AND & OR | ≦ <= ≧ >= (){}[] 等の区別は無く、すべて () であ る
54
成人の場合 ( 妊婦、乳幼児等を除く) 25 以上を肥満 18.5 未満を低体重 上記以外を標準 25 体重 標準 肥満 18.5 HIGH 終端
55
① ②
56
② ① 判定という変数を記 入 ③ 18.5 と 25 を記 入 ④
57
アンケート等で 5 段階 1=大変満足した 2=やや満足 3=ふつう 4=やや不満 5=不満足 順序尺度(変数)⇒平 均等は計算しない
58
血液型と肥満には関係があるだろうか? H0: 血液型と肥満には関係が無い H1 :血液型と肥満には関係がある
59
2 重否定の論理 手順 1. 2 つの仮説を作成する 2. 帰無仮説,対立仮説 3. 帰無仮説が正しいという仮定のもとに,観測 された状態が発生する確率を計算 4. 確率が 0.05 (5%)以下なら仮定の帰無仮説 が間違っていたとして棄却し,対立仮説を採 択 様々な方法がある 使用する統計量
60
検査(スクリーニング) H0 の仮定の下に現在観測したデータの確 率を計算 5% 以下なら H0 を疑い ⇒棄却( Reject) H1 を採択する
61
χ2 :カイ 2 乗 Student のt フィッシャーのz F 統計量 順序統計量 (マン・ホイットニー等)
62
使ってはいけない検定の代表であるが 非常にわかりやすい検定方法
63
観測値 期待値 もしも判定と血液型が無関係なら 71 の数字の部分は 500×0.336×0.45 = 75.6 人 33.6 % 45 %
65
H0 は棄却できない では H0 なのか? NO なにも証明できなかっただけ
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.