2013/04/26
初等統計学 ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 ) 中古なら 1000 円程度
DVD は図書館で 認証を忘れると悲しいことに!
訂正 根源事象⇒根元事象
試行,事象,確率 事象: 6 の目が出る 確率: 1/6 事象 実験 観察
S: 全事象 根元事象 ( 単一事象) :これ以上分割できない事象 複合事象 2 つ以上の根元事象からなる事象 排反事象 共通の根元事象を持たない事象 当然 どの2つの根元事象も背反である
S: 全事象, A, A1,A2,…An ∊ S 1. 0 ≦ P(A) ≦ 1 2. A1,A2,…An ...が互いに背反事象なら P(A1 ∪ A2 ∪.. ∪ An ∪..) = P(A1)+P(A2)+P( . )+P(An)+ .. 3. P(S)=1
N(A ): 事象 A に含まれる根元事象の個数 全ての根元事象が等しい確率であるなら S :根元事象 P(A)= N(A)/N(S)
大切な概念
P(B|A) ある事象 A を観測したときに事象 B を観測 する確率 例 ) A: 発熱している B: 風邪をひいている P(B|A) ⇒発熱を観察しているときに,その人が 風邪である確率
事象 A の発生する確率 0.2 事象 B の発生する確率 0.05 事象 A,B の発生する確率 0.02 S : 100 人(全事象) A : 20 人(事象) S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人
S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人
歪みのないサイコロを投げ,偶数の目が 出たときに,その目が 3 の倍数である確率 A :偶数の目が出る B :目が 3 の倍数 A={2 の目が出る, 4 の目が出る, 6 の目が 出る } B={3 の目が出る, 6 の目が出る } A ∩ B={6 の目が出る }
A={2 の目が出る, 4 の目が出る, 6 の目が 出る } B={3 の目が出る, 6 の目が出る } A ∩ B={6 の目が出る } ⇒ P(A)=1/2 P(A∩B ) =1/6 ゆえに P(B|A)= P(A∩B)/ P(A)=1/6÷ ½ =2/6=1/3
B: 3 の倍数の目がでる A: 偶数の目がでる 1515
A :罹患 ( 発症) P(A ):ある特定疾患に罹患する確率 ⇒非常に小さい B: 大学病院に入院する ⇒非常に小さい しかし P(A|B) が小さいという保証は 何もない!
P(A) = 万人 1 人 P(B) = 万人 ( 県民人口)のうち 400 人 ( 病床) P(A∩B)= 万人 1 人 P(B|A)=P(A∩B)/P(A)= ÷ =1/10 = 0.1
2 つの事象 A,B が独立事象であるとは 定義 P(A|B)=P(A) または P(B|A)=P(B)
P(A ∩ B) = P(A)× P(B) 独立のときだけ上の式が成立する 自分の私感ですが,実際の世界で完璧に 独立ということはめったにない!
PG ホーエル
どのように標本を選ぶべきか? 作為抽出 なんら科学的な手法も使用できない 無作為抽出 ( Random Sampling) 母集団を構成するどの個体も 標本に選ばれる確率が等しく なるような抽出方法 母集団 標本
母集団:調査対象の 数値などを持つ集合 標本 記述統計 数値的記述 例) 平均 注意 :母集団の平均 :標本の平均 母集団 標本
学生のアンケート 電話での選挙予想 老人調査 何が大切か? 母集団を構成する台帳 例 住民基本台帳 母集団に番号をつける
老人クラブに入会している人は健康な人 たち 老人クラブは過疎地にはすくなくある程 度人口がいる場所に限られる。 老人クラブの会長から推薦された人 健康 受け答えができて会の中核になる人 男性 ⇒ この調査結果は信頼できない!
悉皆調査 しっかいちょうさ ⇒国勢調査 標本調査 ひょうほんちょうさ 無作為抽出 作為抽出
基幹統計 ( 旧 指定統計) 一般統計 ( 旧 承認統計,届出統計) ⇒つまり統計調査をするためには総務省
調査統計( 1 次統計) 統計を作成することを目的として行われ る調査から得られる統計⇒国勢調査,家 計調査 業務統計( 1 次統計) 行政上の届出などから得られる記録から の統計⇒人口動態統計 加工統計( 2 次統計) 1 次統計を利用、加工した統計のこと ⇒国民経済計算や鉱工業指数
個人面接法( Interview survey ) 正確で高い回収率、費用がかさむ 配布回収法(留め置き法) 調査員が配布し 後に回収 郵送法 (mail survey) 回収率は 30 %以下 電話法 (Telephone survey) インターネット調査
平均値(期待値) Average , Mean 標準偏差 Standard Deviation ⇒データが平均の周りに散らばっている のか? 分散⇒標準偏差の 2 乗 中央値(ちゅうおうち) 最頻値(もーど) 尖度(せんど) 歪度(わいど)
10 円 50 円 平均⇒ 30 円 20 円 40 円 30 円 標準偏差= 0 標準偏差= 円 標準偏差= 円
偏差値
Wikipedia より
負の歪度 左に裾をひいている 正の歪度 右に裾をひいている
代表値 平均以外の代表値 メジアン モード
分布が左右に歪んでいる場合には必要な 概念 左右対称な場合は平均値に一致する
measure of location 分布の位置に関する測度 平均、最頻値(モード)、中央値(メジアン) measure of scale 尺度に関する測度 その他 正規分布と比較して 歪度( Skewness) 尖度( Kurtosis )
平均 (x) :標本平均 1 /nΣ i x i を意味します. 標準誤差標準偏差をnの平方根で割ったもの 標準偏差標本標準偏差を意味しています.分散の平方根です. 平均の周りの散らばりを意味しています. 中央値データの真ん中の順位の値です.この場合は100な ので, 50 番目と 51 番目の平均を計算しています. 最頻値計算しても意味のないものを計算しています. 分析ツールでの計算結果は,離散的なデータや階級に 分類されている場合等だけが意味を持ちます. 尖度分布の裾の重さになる指標です. 歪度左右の偏りを示します.正の場合は右に裾を引き,負 の場合は左に裾を引くと言います. 分散(s 2 ) : 標本不偏分散です.二乗和を( n-1 )で割った形式です. 信頼区間 正規分布近似計算で両側信頼区間です. ( EXCEL2003) そうでない場合は信頼区間の半分の長さですの,平均 ± この数値が信頼区間です.
右に裾をひいた分布 ( 歪度が正) 単峰(やま1つ)な ら モード≦メジアン ≦平均が成立する 左右対称分布の場合 は3つ ( 平均,メジア ン,モード)は一致 して,歪度は0
右に裾を引く 値が正となる 左に裾を引く 値は負となる 日本の森林の表層土壌 の pH 値 有症者発生数の推移 流行曲線の例 (北海道内で集団発生した腸管出血性大腸菌 O-157 感染症報告書, 北海道帯広保健所, 1997 ) idsc.nih.go.jp/training/9kanri/14_minowa.html
2.5 の階級値から 階級下限値は 0 階級上限値は 5であることが わかる. つまり 0 歳 以上 5 歳未満で の死亡数は 322 人であることが わかる.
最大値, 最小値 階級の数= 5-20 程度 目安として 標本の大きさ ▪ 30 程度なら 5 個 ▪ 程度まで 階級の数が多すぎると不規則な凸凹 少なすぎると情報が失われる
Sturges の提案 階級の数= 1 + (log 10 n / log 10 2) =1+ log 2 n EXCEL では =1+ Log( 標本の大きさ,2) と入力すれば計算でき る スコット (Scott’s) の提案 階級の数= 3.5 s / n 1/3 ここで s は標本の標準偏差 EXCEL では =3*標本標準偏差 / 標本の大きさ ^(1/3) と入力すれば計算で きる Freedman と Diaconis の提案 階級の数=2 × 四分位範囲 / n 1/3
EXCEL はウソが多い? 売上伝票整理などを主たる目的
500 人になっている か?
① ② ② 重要 名義 順序 スケール
1 ⇒男 2 ⇒女
① ② ③
BMI の計算 ①
BMI ( Body Mass Index) 体重 ÷ (身長の2乗) ① に BMI と記入 ② をクリック 変数⇒体重 ① ②
①
演算 SPPS での標記演算 SPPS での標記 + ( 加算) + X( 乗算) * ー(減算) - ÷( 除算) / べき乗 ** ≠ (不等号) ~= AND & OR | ≦ <= ≧ >= (){}[] 等の区別は無く、すべて () であ る
成人の場合 ( 妊婦、乳幼児等を除く) 25 以上を肥満 18.5 未満を低体重 上記以外を標準 25 体重 標準 肥満 18.5 HIGH 終端
① ②
② ① 判定という変数を記 入 ③ 18.5 と 25 を記 入 ④
アンケート等で 5 段階 1=大変満足した 2=やや満足 3=ふつう 4=やや不満 5=不満足 順序尺度(変数)⇒平 均等は計算しない
血液型と肥満には関係があるだろうか? H0: 血液型と肥満には関係が無い H1 :血液型と肥満には関係がある
2 重否定の論理 手順 1. 2 つの仮説を作成する 2. 帰無仮説,対立仮説 3. 帰無仮説が正しいという仮定のもとに,観測 された状態が発生する確率を計算 4. 確率が 0.05 (5%)以下なら仮定の帰無仮説 が間違っていたとして棄却し,対立仮説を採 択 様々な方法がある 使用する統計量
検査(スクリーニング) H0 の仮定の下に現在観測したデータの確 率を計算 5% 以下なら H0 を疑い ⇒棄却( Reject) H1 を採択する
χ2 :カイ 2 乗 Student のt フィッシャーのz F 統計量 順序統計量 (マン・ホイットニー等)
使ってはいけない検定の代表であるが 非常にわかりやすい検定方法
観測値 期待値 もしも判定と血液型が無関係なら 71 の数字の部分は 500×0.336×0.45 = 75.6 人 33.6 % 45 %
H0 は棄却できない では H0 なのか? NO なにも証明できなかっただけ