保健統計演習(統計学 第1回) Hasimoto
保健統計の夜明け PG ホーエル 1905-2000 初等統計学 アメリカのヘルスサイエンス パイオニア的教科書 EBM,EBN Evidence Based Medicine 根拠と科学に基づいた保健医療政策
第1章 統計的方法の性質 母集団 標本 第1節 序 母集団(Statistical Population) 観測値(observation)の源泉(source) 有限母集団 無限母集団 標本(Sample) 観測値の源泉に関する情報をえる目的で,得られた観測値の集まり
注意 母集団(Population)といっても 人間だけでない 科学の実験も
観測値での注意事項 観測値の尺度 稠密性 間隔性 順序性 名義性 連続的 離散的 大変満足した→5,満足した→3,大変不満→1 例 男→1,女→2
記述統計 (descriptive statistics ) 統計的仮説検定 testing of statistical hypothesis ) 推測統計 (inferential statistics )
実例 選挙の推測 血清の効果 (薬剤基準) 品質管理 ⇒ OR Mathematical Programming
推定と仮説検定 母集団の性質(特性)の推定 母集団に関する性質(特性)の仮説を検定
統計学でできることとできないこと 限界も知るべき がん死亡率(10万人) 電話適正利用推進協議会HPより 池 田 一 夫ら “日本におけるがん死亡の動向予測” Ann. Rep. Tokyo Metr. Inst. P.H., 55, 2004
統計学でできることとできないこと ⇒因果関係 ⇒関連
確率(Probability) 天気予報 予測には確率がともなう
第2章 標本データの記述 n:標本の大きさ(Size of Sample, Sample size) N:母集団の大きさ 例 母集団 第2章 標本データの記述 n:標本の大きさ(Size of Sample, Sample size) N:母集団の大きさ 例 母集団 標本抽出 標本
無作為抽出(Random Sampling) 標本←母集団の縮約になっていてほしい。 母集団を構成するかく要素が等しい確率で標本に選ばれること。 ⇔過去の手法 作為抽出法 有意抽出法
過去の手法 過去の手法? 標本を抽出で,母集団の代表と思われる標本を主観的に選択抽出方法 ⇒非科学的な方法で統計的手法は一切適用できない
用語の間違いの例 標本の大きさ⇒3 標本数⇒2 データ数⇒6 母集団 標本抽出 標本抽出 標本 3人 標本 3人
課題 ある研究者はA市の高齢者100人を調査するために20箇所の老人クラブにおもむき,5人の推薦をお願いし標本を得た。 この調査方法について意見を述べなさい。
【重要】記述の前に 観測値の性質 名義的な尺度 男⇒1 女⇒2 順序的尺度 大変満足した⇒5 やや満足した⇒4 普通⇒3 (離散的) 名義的な尺度 男⇒1 女⇒2 順序的尺度 大変満足した⇒5 やや満足した⇒4 普通⇒3 (離散的) 連続的(間隔変数) 間隔尺度(絶対的原点なし) 比率尺度(絶対的原点あり)
グラフでの表現 ヒストグラム 階級 階級値 頻度
実際の問題へ データの分類 グラフ表示 算術記述 平均(Mean, Average) 標準偏差(Standard Deviation),分散(Variance) 最頻値(モード Mode) 中央値(メディアン Median)
メタボリックシンドロームの診断基準と今後の課題 札幌医科大学医学部第2 内科 島本和明教授資料 www.cwo.zaq.ne.jp/momokuri/image_animusu_etc/animus_diagnostics.pdf
第2章 標本データの記述 どのように標本を選ぶべきか? 作為抽出 なんら科学的な手法も使用できない 第2章 標本データの記述 どのように標本を選ぶべきか? 作為抽出 なんら科学的な手法も使用できない 無作為抽出 (Random Sampling) 母集団を構成するどの個体も 標本に選ばれる確率が等しく なるような抽出方法 母集団 標本
無作為抽出で失敗した例 例 住民基本台帳 学生のアンケート 電話での選挙予想 老人調査 何が大切か? 母集団を構成する台帳 例 住民基本台帳 母集団に番号をつける
【解答】 老人クラブ問題 老人クラブに入会している人は健康な人たち 老人クラブは過疎地にはすくなくある程度人口がいる場所に限られる。 【解答】 老人クラブ問題 老人クラブに入会している人は健康な人たち 老人クラブは過疎地にはすくなくある程度人口がいる場所に限られる。 老人クラブの会長から推薦された人 健康 受け答えができて会の中核になる人 男性 ⇒ この調査結果は信頼できない!
参考 調査方法(Sample survey) 個人面接法(Interview survey) 正確で高い回収率、費用がかさむ 配布回収法(留め置き法) 調査員が配布し 後に回収 郵送法(mail survey) 回収率は30%以下 電話法(Telephone survey) インターネット調査
記述統計 データの縮約的記述 平均値(期待値) Average,Mean 標準偏差 Standard Deviation ⇒データが平均の周りにどれだけあつまっているか? 分散⇒標準偏差の2乗 中央値(ちゅうおうち) 最頻値(もーど) 尖度(せんど) 歪度(わいど)
標準偏差のイメージ 平均⇒30円 50円 10円 標準偏差=28.2842円 20円 40円 標準偏差=14.142円 30円 標準偏差=0
尖度のイメージ Wikipediaより
歪度(Skewness)のイメージ Wikipediaより
メディアンとモード 分布が左右に歪んでいる場合には必要な概念 左右対称な場合は平均値に一致する
【実習課題】 体重と身長のデータ (2つとも連続型、間隔尺度) BMIの計算 判定
EXCELの記述統計
【復習】記述統計の目的は? BMI Body Mass Index 体格指数 BMI=(体重Kg) /身長(m)^2 http://wwwsoc.nii.ac.jp/jasso/ BMI値の18.5以上~25未満が普通
2017/3/9 結果の見方 新潟j県立看護大学 橋本明浩
算術的記述 measure of location measure of scale その他 正規分布と比較して 分布の位置に関する測度 平均、最頻値(モード)、中央値(メジアン) measure of scale 尺度に関する測度 その他 正規分布と比較して 歪度(Skewness) 尖度(Kurtosis)
結果の意味 平均(x): 標本平均 1/nΣixi を意味します. 標準誤差 標準偏差をnの平方根で割ったもの 標準偏差 2017/3/9 結果の意味 平均(x): 標本平均 1/nΣixi を意味します. 標準誤差 標準偏差をnの平方根で割ったもの 標準偏差 標本標準偏差を意味しています.分散の平方根です. 平均の周りの散らばりを意味しています. 中央値 データの真ん中の順位の値です.この場合は100なので,50番目と51番目の平均を計算しています. 最頻値 計算しても意味のないものを計算しています. 分析ツールでの計算結果は,離散的なデータや階級に分類されている場合等だけが意味を持ちます. 尖度 分布の裾の重さになる指標です. 歪度 左右の偏りを示します.正の場合は右に裾を引き,負の場合は左に裾を引くと言います. 分散(s2): 標本不偏分散です.二乗和を(n-1)で割った形式です. 信頼区間 正規分布近似計算で両側信頼区間です.(EXCEL2003) そうでない場合は信頼区間の半分の長さですの,平均±この数値が信頼区間です. 新潟j県立看護大学 橋本明浩
統計量の概念【位置尺度】 右に裾をひいた分布(歪度が正) 単峰(やま1つ)なら モード≦メジアン ≦平均が成立する 2017/3/9 統計量の概念【位置尺度】 右に裾をひいた分布(歪度が正) 単峰(やま1つ)なら モード≦メジアン ≦平均が成立する 左右対称分布の場合は3つ(平均,メジアン,モード)は一致して,歪度は0 日本人の現金(普通預金,定期預金,郵便貯金を含む) 平均所有額 1人あたり667万円 新潟j県立看護大学 橋本明浩
歪度 右に裾を引く 値が正となる 左に裾を引く 値は負となる 日本の森林の表層土壌のpH値 有症者発生数の推移 流行曲線の例 (北海道内で集団発生した腸管出血性大腸菌O-157感染症報告書, 北海道帯広保健所,1997) idsc.nih.go.jp/training/9kanri/14_minowa.html
【参考】学校保健統計 統計法(昭和22年法律第18号)による指定統計第15号⇒学校保健法⇒学校保健統計調査規則⇒学校基本調査実施要領⇒ 通達 目的 毎年実施している調査 毎年定期的に実施される健康診断の結果に基づき、小学校・中学校・高等学校及び幼稚園における児童、生徒及び幼児の発育状態並びに健康状態を明らかにすること
法律の仕組み 行政法で根拠とその仕組みを勉強しておきましょう。 看護師← 地方公務員、国家公務員 卒業研究で知りたい統計の結果はどこにあるのか? ⇒総務庁統計局 http://www.stat.go.jp/ 学校保健統計←文部科学省
分析ツールでのヒストグラム 知識がなくてもある程度の作業はできる 問題点 事前の準備 データ ⇒データ分析⇒ヒストグラム 度数分布表とグラフ 事前の準備 EXCELオプション⇒アドイン⇒分析ツール 区切りのデータを作成しておく データ ⇒データ分析⇒ヒストグラム 度数分布表とグラフ 問題点 データが変わったら再度分析ツールを実行しなくてはならない
実際に作ってみよう
【復習】 言葉の定義 階級(Class) 階級下限値 階級上限値 階級値(class value ・ ) 頻度(Frequency)
【復習】 度数分布表(連続変量の場合) 階級 階級値 度数(人) 下限値 上限値 20 22 21 1 24 23 4 26 25 28 27 データの分布の概要を数値的に把握するのに役立つ
【復習】度数分布表(名義的尺度の場合) 血液型 度数 A 32 B 24 O 14 AB 7 不明 3 合計 80
【復習】階級のとりかた 最大値,最小値 階級の数= 5-20程度 目安として 標本の大きさ 階級の数が多すぎると不規則な凸凹 階級の数= 5-20程度 目安として 標本の大きさ 30程度なら5個 10-20程度まで 階級の数が多すぎると不規則な凸凹 少なすぎると情報が失われる
階級の数はいくつがいいの? Sturgesの提案 階級の数=1+(log10 n / log102) =1+log2n EXCELでは =1+ Log(標本の大きさ,2)と入力すれば計算できる スコット(Scott’s)の提案 階級の数=3.5s/ n1/3 ここでsは標本の標準偏差 EXCELでは =3*標本標準偏差/標本の大きさ^(1/3)と入力すれば計算できる FreedmanとDiaconisの提案 階級の数=2×四分位範囲/ n1/3
正しいヒストグラム 2.5の階級値から 階級下限値は0 階級上限値は5であることがわかる. 階級下限値は0 階級上限値は5であることがわかる. つまり 0歳以上5歳未満での死亡数は322人であることがわかる.