保健統計演習(統計学 第1回) Hasimoto.

Slides:



Advertisements
Similar presentations
橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
Advertisements

統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
2013/04/26.  初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
統計学入門(1) 第 10 回 基本統計量:まとめ. 統計学第 8 回 2 前回の練習問題の解答 (1) から (4) に対応するヒストグラムはそれぞれどれか。
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
回答と解説.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
経済統計学 第2回 4/24 Business Statistics
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
保健統計 橋本.
検定 P.137.
統計学 第3回 「データの尺度・データの図示」
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
行動計量分析 Behavioral Analysis
国試対策 橋本 .
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
統計学  第6回 西山.
橋本 保健統計演習への準備.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
1変量データの記述 経済データ解析 2006年度.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
データの分類 P.128 診断や治療を,長年の経験則に頼らず, 科学的根拠に裏付けされた事実に基づいて判断する。
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第3章 統計的推定 (その1) 統計学 2006年度.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
経営学研究科 M1年 学籍番号 speedster
代表値と散らばり.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第2章 統計データの記述 データについての理解 度数分布表の作成.
データ分布の特徴 基準化変量 歪度 尖度.
Presentation transcript:

保健統計演習(統計学 第1回) Hasimoto

保健統計の夜明け PG ホーエル 1905-2000 初等統計学 アメリカのヘルスサイエンス パイオニア的教科書 EBM,EBN Evidence Based Medicine 根拠と科学に基づいた保健医療政策

第1章 統計的方法の性質 母集団 標本 第1節 序 母集団(Statistical Population) 観測値(observation)の源泉(source) 有限母集団 無限母集団 標本(Sample) 観測値の源泉に関する情報をえる目的で,得られた観測値の集まり

注意 母集団(Population)といっても 人間だけでない 科学の実験も

観測値での注意事項 観測値の尺度 稠密性 間隔性 順序性 名義性 連続的 離散的 大変満足した→5,満足した→3,大変不満→1 例 男→1,女→2

記述統計 (descriptive statistics ) 統計的仮説検定 testing of statistical hypothesis ) 推測統計 (inferential statistics )

実例 選挙の推測 血清の効果 (薬剤基準) 品質管理 ⇒ OR Mathematical Programming

推定と仮説検定 母集団の性質(特性)の推定 母集団に関する性質(特性)の仮説を検定

統計学でできることとできないこと 限界も知るべき がん死亡率(10万人) 電話適正利用推進協議会HPより 池 田 一 夫ら “日本におけるがん死亡の動向予測” Ann. Rep. Tokyo Metr. Inst. P.H., 55, 2004

統計学でできることとできないこと ⇒因果関係 ⇒関連

確率(Probability) 天気予報 予測には確率がともなう

第2章 標本データの記述 n:標本の大きさ(Size of Sample, Sample size) N:母集団の大きさ 例 母集団 第2章 標本データの記述 n:標本の大きさ(Size of Sample, Sample size) N:母集団の大きさ 例 母集団 標本抽出 標本

無作為抽出(Random Sampling) 標本←母集団の縮約になっていてほしい。 母集団を構成するかく要素が等しい確率で標本に選ばれること。 ⇔過去の手法 作為抽出法 有意抽出法

過去の手法 過去の手法? 標本を抽出で,母集団の代表と思われる標本を主観的に選択抽出方法 ⇒非科学的な方法で統計的手法は一切適用できない

用語の間違いの例 標本の大きさ⇒3 標本数⇒2 データ数⇒6 母集団 標本抽出 標本抽出 標本 3人 標本 3人

課題 ある研究者はA市の高齢者100人を調査するために20箇所の老人クラブにおもむき,5人の推薦をお願いし標本を得た。 この調査方法について意見を述べなさい。

【重要】記述の前に 観測値の性質 名義的な尺度 男⇒1 女⇒2 順序的尺度 大変満足した⇒5 やや満足した⇒4 普通⇒3 (離散的) 名義的な尺度  男⇒1 女⇒2 順序的尺度  大変満足した⇒5 やや満足した⇒4  普通⇒3  (離散的) 連続的(間隔変数)  間隔尺度(絶対的原点なし)  比率尺度(絶対的原点あり)

グラフでの表現 ヒストグラム 階級 階級値 頻度

実際の問題へ データの分類 グラフ表示 算術記述 平均(Mean, Average) 標準偏差(Standard Deviation),分散(Variance) 最頻値(モード Mode) 中央値(メディアン Median)

メタボリックシンドロームの診断基準と今後の課題 札幌医科大学医学部第2 内科 島本和明教授資料 www.cwo.zaq.ne.jp/momokuri/image_animusu_etc/animus_diagnostics.pdf

第2章 標本データの記述 どのように標本を選ぶべきか? 作為抽出 なんら科学的な手法も使用できない 第2章 標本データの記述 どのように標本を選ぶべきか?  作為抽出  なんら科学的な手法も使用できない  無作為抽出 (Random Sampling)  母集団を構成するどの個体も 標本に選ばれる確率が等しく なるような抽出方法 母集団 標本

無作為抽出で失敗した例 例 住民基本台帳 学生のアンケート 電話での選挙予想 老人調査 何が大切か? 母集団を構成する台帳 例 住民基本台帳 母集団に番号をつける

【解答】 老人クラブ問題 老人クラブに入会している人は健康な人たち 老人クラブは過疎地にはすくなくある程度人口がいる場所に限られる。 【解答】 老人クラブ問題 老人クラブに入会している人は健康な人たち 老人クラブは過疎地にはすくなくある程度人口がいる場所に限られる。 老人クラブの会長から推薦された人 健康 受け答えができて会の中核になる人 男性 ⇒ この調査結果は信頼できない!

参考 調査方法(Sample survey) 個人面接法(Interview survey) 正確で高い回収率、費用がかさむ 配布回収法(留め置き法) 調査員が配布し 後に回収 郵送法(mail survey) 回収率は30%以下 電話法(Telephone survey) インターネット調査

記述統計 データの縮約的記述 平均値(期待値) Average,Mean 標準偏差 Standard Deviation ⇒データが平均の周りにどれだけあつまっているか? 分散⇒標準偏差の2乗 中央値(ちゅうおうち) 最頻値(もーど) 尖度(せんど) 歪度(わいど)

標準偏差のイメージ 平均⇒30円 50円 10円 標準偏差=28.2842円 20円 40円 標準偏差=14.142円 30円 標準偏差=0

尖度のイメージ Wikipediaより

歪度(Skewness)のイメージ Wikipediaより

メディアンとモード 分布が左右に歪んでいる場合には必要な概念 左右対称な場合は平均値に一致する

【実習課題】 体重と身長のデータ (2つとも連続型、間隔尺度) BMIの計算 判定

EXCELの記述統計

【復習】記述統計の目的は? BMI Body Mass Index 体格指数 BMI=(体重Kg)   /身長(m)^2 http://wwwsoc.nii.ac.jp/jasso/ BMI値の18.5以上~25未満が普通

2017/3/9 結果の見方 新潟j県立看護大学      橋本明浩

算術的記述 measure of location measure of scale その他 正規分布と比較して 分布の位置に関する測度 平均、最頻値(モード)、中央値(メジアン) measure of scale 尺度に関する測度 その他 正規分布と比較して 歪度(Skewness) 尖度(Kurtosis)

結果の意味 平均(x): 標本平均 1/nΣixi を意味します. 標準誤差 標準偏差をnの平方根で割ったもの 標準偏差 2017/3/9 結果の意味 平均(x): 標本平均  1/nΣixi  を意味します. 標準誤差 標準偏差をnの平方根で割ったもの 標準偏差 標本標準偏差を意味しています.分散の平方根です. 平均の周りの散らばりを意味しています. 中央値 データの真ん中の順位の値です.この場合は100なので,50番目と51番目の平均を計算しています.  最頻値 計算しても意味のないものを計算しています. 分析ツールでの計算結果は,離散的なデータや階級に分類されている場合等だけが意味を持ちます. 尖度 分布の裾の重さになる指標です. 歪度 左右の偏りを示します.正の場合は右に裾を引き,負の場合は左に裾を引くと言います.  分散(s2): 標本不偏分散です.二乗和を(n-1)で割った形式です. 信頼区間 正規分布近似計算で両側信頼区間です.(EXCEL2003) そうでない場合は信頼区間の半分の長さですの,平均±この数値が信頼区間です. 新潟j県立看護大学      橋本明浩

統計量の概念【位置尺度】 右に裾をひいた分布(歪度が正) 単峰(やま1つ)なら モード≦メジアン ≦平均が成立する 2017/3/9 統計量の概念【位置尺度】 右に裾をひいた分布(歪度が正) 単峰(やま1つ)なら モード≦メジアン ≦平均が成立する 左右対称分布の場合は3つ(平均,メジアン,モード)は一致して,歪度は0 日本人の現金(普通預金,定期預金,郵便貯金を含む) 平均所有額 1人あたり667万円 新潟j県立看護大学      橋本明浩

歪度 右に裾を引く 値が正となる 左に裾を引く 値は負となる 日本の森林の表層土壌のpH値 有症者発生数の推移 流行曲線の例  (北海道内で集団発生した腸管出血性大腸菌O-157感染症報告書,   北海道帯広保健所,1997) idsc.nih.go.jp/training/9kanri/14_minowa.html

【参考】学校保健統計 統計法(昭和22年法律第18号)による指定統計第15号⇒学校保健法⇒学校保健統計調査規則⇒学校基本調査実施要領⇒ 通達 目的 毎年実施している調査 毎年定期的に実施される健康診断の結果に基づき、小学校・中学校・高等学校及び幼稚園における児童、生徒及び幼児の発育状態並びに健康状態を明らかにすること

法律の仕組み 行政法で根拠とその仕組みを勉強しておきましょう。 看護師← 地方公務員、国家公務員 卒業研究で知りたい統計の結果はどこにあるのか? ⇒総務庁統計局 http://www.stat.go.jp/ 学校保健統計←文部科学省

分析ツールでのヒストグラム 知識がなくてもある程度の作業はできる 問題点 事前の準備 データ ⇒データ分析⇒ヒストグラム 度数分布表とグラフ 事前の準備  EXCELオプション⇒アドイン⇒分析ツール 区切りのデータを作成しておく データ ⇒データ分析⇒ヒストグラム 度数分布表とグラフ 問題点 データが変わったら再度分析ツールを実行しなくてはならない

実際に作ってみよう

【復習】 言葉の定義 階級(Class) 階級下限値 階級上限値 階級値(class value ・ ) 頻度(Frequency)

【復習】 度数分布表(連続変量の場合) 階級 階級値 度数(人) 下限値 上限値 20 22 21 1 24 23 4 26 25 28 27 データの分布の概要を数値的に把握するのに役立つ

【復習】度数分布表(名義的尺度の場合) 血液型 度数 A 32 B 24 O 14 AB 7 不明 3 合計 80

【復習】階級のとりかた 最大値,最小値 階級の数= 5-20程度 目安として 標本の大きさ 階級の数が多すぎると不規則な凸凹 階級の数= 5-20程度 目安として 標本の大きさ 30程度なら5個 10-20程度まで   階級の数が多すぎると不規則な凸凹  少なすぎると情報が失われる   

階級の数はいくつがいいの? Sturgesの提案 階級の数=1+(log10 n / log102) =1+log2n EXCELでは =1+ Log(標本の大きさ,2)と入力すれば計算できる スコット(Scott’s)の提案 階級の数=3.5s/ n1/3 ここでsは標本の標準偏差 EXCELでは =3*標本標準偏差/標本の大きさ^(1/3)と入力すれば計算できる FreedmanとDiaconisの提案 階級の数=2×四分位範囲/ n1/3

正しいヒストグラム 2.5の階級値から 階級下限値は0 階級上限値は5であることがわかる.  階級下限値は0  階級上限値は5であることがわかる.  つまり 0歳以上5歳未満での死亡数は322人であることがわかる.