Presentation is loading. Please wait.

Presentation is loading. Please wait.

2013/04/26.  初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度.

Similar presentations


Presentation on theme: "2013/04/26.  初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度."— Presentation transcript:

1 2013/04/26

2  初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度

3 DVD は図書館で 認証を忘れると悲しいことに!

4 訂正 根源事象⇒根元事象

5  試行,事象,確率 事象: 6 の目が出る 確率: 1/6 事象 実験 観察

6  S: 全事象  根元事象 ( 単一事象) :これ以上分割できない事象  複合事象 2 つ以上の根元事象からなる事象  排反事象 共通の根元事象を持たない事象 当然 どの2つの根元事象も背反である

7  S: 全事象, A, A1,A2,…An ∊ S 1. 0 ≦ P(A) ≦ 1 2. A1,A2,…An ...が互いに背反事象なら P(A1 ∪ A2 ∪.. ∪ An ∪..) = P(A1)+P(A2)+P( . )+P(An)+ .. 3. P(S)=1

8  N(A ): 事象 A に含まれる根元事象の個数  全ての根元事象が等しい確率であるなら  S :根元事象 P(A)= N(A)/N(S)

9 大切な概念

10  P(B|A) ある事象 A を観測したときに事象 B を観測 する確率 例 ) A: 発熱している B: 風邪をひいている  P(B|A) ⇒発熱を観察しているときに,その人が 風邪である確率

11

12  事象 A の発生する確率 0.2 事象 B の発生する確率 0.05 事象 A,B の発生する確率 0.02 S : 100 人(全事象) A : 20 人(事象) S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人

13 S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人

14  歪みのないサイコロを投げ,偶数の目が 出たときに,その目が 3 の倍数である確率  A :偶数の目が出る B :目が 3 の倍数  A={2 の目が出る, 4 の目が出る, 6 の目が 出る }  B={3 の目が出る, 6 の目が出る }  A ∩ B={6 の目が出る }

15  A={2 の目が出る, 4 の目が出る, 6 の目が 出る }  B={3 の目が出る, 6 の目が出る }  A ∩ B={6 の目が出る } ⇒ P(A)=1/2 P(A∩B ) =1/6 ゆえに P(B|A)= P(A∩B)/ P(A)=1/6÷ ½ =2/6=1/3

16 2424 6 3 B: 3 の倍数の目がでる A: 偶数の目がでる 1515

17  A :罹患 ( 発症) P(A ):ある特定疾患に罹患する確率 ⇒非常に小さい  B: 大学病院に入院する ⇒非常に小さい  しかし P(A|B) が小さいという保証は 何もない!

18  P(A) = 0.0001 1 万人 1 人  P(B) = 0.0001 400 万人 ( 県民人口)のうち 400 人 ( 病床)  P(A∩B)= 0.00001 10 万人 1 人  P(B|A)=P(A∩B)/P(A)= 0.00001÷ 0.0001 =1/10 = 0.1

19

20  2 つの事象 A,B が独立事象であるとは  定義 P(A|B)=P(A) または P(B|A)=P(B)

21  P(A ∩ B) = P(A)× P(B)  独立のときだけ上の式が成立する  自分の私感ですが,実際の世界で完璧に 独立ということはめったにない!

22 PG ホーエル

23  どのように標本を選ぶべきか?  作為抽出 なんら科学的な手法も使用できない  無作為抽出 ( Random Sampling) 母集団を構成するどの個体も 標本に選ばれる確率が等しく なるような抽出方法 母集団 標本

24  母集団:調査対象の 数値などを持つ集合  標本  記述統計 数値的記述 例) 平均  注意 :母集団の平均 :標本の平均 母集団 標本

25  学生のアンケート  電話での選挙予想  老人調査  何が大切か? 母集団を構成する台帳  例 住民基本台帳  母集団に番号をつける

26  老人クラブに入会している人は健康な人 たち  老人クラブは過疎地にはすくなくある程 度人口がいる場所に限られる。  老人クラブの会長から推薦された人  健康  受け答えができて会の中核になる人  男性  ⇒ この調査結果は信頼できない!

27  悉皆調査 しっかいちょうさ ⇒国勢調査  標本調査 ひょうほんちょうさ  無作為抽出  作為抽出

28  基幹統計 ( 旧 指定統計)  一般統計 ( 旧 承認統計,届出統計) ⇒つまり統計調査をするためには総務省

29  調査統計( 1 次統計) 統計を作成することを目的として行われ る調査から得られる統計⇒国勢調査,家 計調査  業務統計( 1 次統計) 行政上の届出などから得られる記録から の統計⇒人口動態統計  加工統計( 2 次統計) 1 次統計を利用、加工した統計のこと ⇒国民経済計算や鉱工業指数

30  個人面接法( Interview survey )  正確で高い回収率、費用がかさむ  配布回収法(留め置き法)  調査員が配布し 後に回収  郵送法 (mail survey)  回収率は 30 %以下  電話法 (Telephone survey)  インターネット調査

31  平均値(期待値) Average , Mean  標準偏差 Standard Deviation ⇒データが平均の周りに散らばっている のか?  分散⇒標準偏差の 2 乗  中央値(ちゅうおうち)  最頻値(もーど)  尖度(せんど)  歪度(わいど)

32 10 円 50 円 平均⇒ 30 円 20 円 40 円 30 円 標準偏差= 0 標準偏差= 14.142 円 標準偏差= 28.2842 円

33  偏差値

34 Wikipedia より

35 負の歪度 左に裾をひいている 正の歪度 右に裾をひいている

36  代表値  平均以外の代表値  メジアン  モード

37  分布が左右に歪んでいる場合には必要な 概念  左右対称な場合は平均値に一致する

38 measure of location 分布の位置に関する測度 平均、最頻値(モード)、中央値(メジアン) measure of scale 尺度に関する測度 その他 正規分布と比較して 歪度( Skewness) 尖度( Kurtosis )

39 平均 (x) :標本平均 1 /nΣ i x i を意味します. 標準誤差標準偏差をnの平方根で割ったもの 標準偏差標本標準偏差を意味しています.分散の平方根です. 平均の周りの散らばりを意味しています. 中央値データの真ん中の順位の値です.この場合は100な ので, 50 番目と 51 番目の平均を計算しています. 最頻値計算しても意味のないものを計算しています. 分析ツールでの計算結果は,離散的なデータや階級に 分類されている場合等だけが意味を持ちます. 尖度分布の裾の重さになる指標です. 歪度左右の偏りを示します.正の場合は右に裾を引き,負 の場合は左に裾を引くと言います. 分散(s 2 ) : 標本不偏分散です.二乗和を( n-1 )で割った形式です. 信頼区間 正規分布近似計算で両側信頼区間です. ( EXCEL2003) そうでない場合は信頼区間の半分の長さですの,平均 ± この数値が信頼区間です.

40  右に裾をひいた分布 ( 歪度が正) 単峰(やま1つ)な ら モード≦メジアン ≦平均が成立する  左右対称分布の場合 は3つ ( 平均,メジア ン,モード)は一致 して,歪度は0

41  右に裾を引く 値が正となる  左に裾を引く 値は負となる  日本の森林の表層土壌 の pH 値 有症者発生数の推移 流行曲線の例 (北海道内で集団発生した腸管出血性大腸菌 O-157 感染症報告書, 北海道帯広保健所, 1997 ) idsc.nih.go.jp/training/9kanri/14_minowa.html

42 2.5 の階級値から 階級下限値は 0 階級上限値は 5であることが わかる. つまり 0 歳 以上 5 歳未満で の死亡数は 322 人であることが わかる.

43  最大値, 最小値  階級の数= 5-20 程度  目安として  標本の大きさ ▪ 30 程度なら 5 個 ▪ 10-20 程度まで  階級の数が多すぎると不規則な凸凹  少なすぎると情報が失われる

44 Sturges の提案 階級の数= 1 + (log 10 n / log 10 2) =1+ log 2 n EXCEL では =1+ Log( 標本の大きさ,2) と入力すれば計算でき る スコット (Scott’s) の提案 階級の数= 3.5 s / n 1/3 ここで s は標本の標準偏差 EXCEL では =3*標本標準偏差 / 標本の大きさ ^(1/3) と入力すれば計算で きる Freedman と Diaconis の提案 階級の数=2 × 四分位範囲 / n 1/3

45  EXCEL はウソが多い?  売上伝票整理などを主たる目的

46 500 人になっている か?

47 ① ② ② 重要 名義 順序 スケール

48 1 ⇒男 2 ⇒女

49 ① ② ③

50  BMI の計算 ①

51  BMI ( Body Mass Index)  体重 ÷ (身長の2乗)  ① に BMI と記入  ② をクリック  変数⇒体重 ① ②

52

53 演算 SPPS での標記演算 SPPS での標記 + ( 加算) + X( 乗算) * ー(減算) - ÷( 除算) / べき乗 ** ≠ (不等号) ~= AND & OR | ≦ <= ≧ >= (){}[] 等の区別は無く、すべて () であ る

54  成人の場合 ( 妊婦、乳幼児等を除く)  25 以上を肥満  18.5 未満を低体重  上記以外を標準 25 体重 標準 肥満 18.5 HIGH 終端

55 ① ②

56 ② ① 判定という変数を記 入 ③ 18.5 と 25 を記 入 ④

57  アンケート等で 5 段階  1=大変満足した  2=やや満足  3=ふつう  4=やや不満  5=不満足 順序尺度(変数)⇒平 均等は計算しない

58  血液型と肥満には関係があるだろうか?  H0: 血液型と肥満には関係が無い  H1 :血液型と肥満には関係がある

59  2 重否定の論理  手順 1. 2 つの仮説を作成する 2. 帰無仮説,対立仮説 3. 帰無仮説が正しいという仮定のもとに,観測 された状態が発生する確率を計算 4. 確率が 0.05 (5%)以下なら仮定の帰無仮説 が間違っていたとして棄却し,対立仮説を採 択 様々な方法がある 使用する統計量

60  検査(スクリーニング)  H0 の仮定の下に現在観測したデータの確 率を計算  5% 以下なら H0 を疑い ⇒棄却( Reject)  H1 を採択する

61  χ2 :カイ 2 乗  Student のt  フィッシャーのz  F 統計量  順序統計量 (マン・ホイットニー等)

62  使ってはいけない検定の代表であるが 非常にわかりやすい検定方法

63  観測値  期待値  もしも判定と血液型が無関係なら 71 の数字の部分は 500×0.336×0.45 = 75.6 人 33.6 % 45 %

64

65  H0 は棄却できない  では H0 なのか?  NO  なにも証明できなかっただけ


Download ppt "2013/04/26.  初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度."

Similar presentations


Ads by Google