2013/04/26.  初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度.

Slides:



Advertisements
Similar presentations
橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
回答と解説.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
経済統計学 第2回 4/24 Business Statistics
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
保健統計演習(統計学 第1回) Hasimoto.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
確率・統計Ⅱ 第7回.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
国試対策 橋本 .
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
橋本 保健統計演習への準備.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
社会福祉調査論 第9講 母集団の推計 12月14日.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
1変量データの記述 経済データ解析 2006年度.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
中澤 港 統計学第4回 中澤 港
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第2章 統計データの記述 データについての理解 度数分布表の作成.
データ分布の特徴 基準化変量 歪度 尖度.
Presentation transcript:

2013/04/26

 初等統計学  ポール G. ホーエル ( 著 ), 浅井 晃 ( 翻訳 ), 村 上 正康 ( 翻訳 )  中古なら 1000 円程度

DVD は図書館で 認証を忘れると悲しいことに!

訂正 根源事象⇒根元事象

 試行,事象,確率 事象: 6 の目が出る 確率: 1/6 事象 実験 観察

 S: 全事象  根元事象 ( 単一事象) :これ以上分割できない事象  複合事象 2 つ以上の根元事象からなる事象  排反事象 共通の根元事象を持たない事象 当然 どの2つの根元事象も背反である

 S: 全事象, A, A1,A2,…An ∊ S 1. 0 ≦ P(A) ≦ 1 2. A1,A2,…An ...が互いに背反事象なら P(A1 ∪ A2 ∪.. ∪ An ∪..) = P(A1)+P(A2)+P( . )+P(An)+ .. 3. P(S)=1

 N(A ): 事象 A に含まれる根元事象の個数  全ての根元事象が等しい確率であるなら  S :根元事象 P(A)= N(A)/N(S)

大切な概念

 P(B|A) ある事象 A を観測したときに事象 B を観測 する確率 例 ) A: 発熱している B: 風邪をひいている  P(B|A) ⇒発熱を観察しているときに,その人が 風邪である確率

 事象 A の発生する確率 0.2 事象 B の発生する確率 0.05 事象 A,B の発生する確率 0.02 S : 100 人(全事象) A : 20 人(事象) S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人

S : 100 人(全事象) A : 20 人(事象) B : 5 人(事象) A∩B:2人A∩B:2人

 歪みのないサイコロを投げ,偶数の目が 出たときに,その目が 3 の倍数である確率  A :偶数の目が出る B :目が 3 の倍数  A={2 の目が出る, 4 の目が出る, 6 の目が 出る }  B={3 の目が出る, 6 の目が出る }  A ∩ B={6 の目が出る }

 A={2 の目が出る, 4 の目が出る, 6 の目が 出る }  B={3 の目が出る, 6 の目が出る }  A ∩ B={6 の目が出る } ⇒ P(A)=1/2 P(A∩B ) =1/6 ゆえに P(B|A)= P(A∩B)/ P(A)=1/6÷ ½ =2/6=1/3

B: 3 の倍数の目がでる A: 偶数の目がでる 1515

 A :罹患 ( 発症) P(A ):ある特定疾患に罹患する確率 ⇒非常に小さい  B: 大学病院に入院する ⇒非常に小さい  しかし P(A|B) が小さいという保証は 何もない!

 P(A) = 万人 1 人  P(B) = 万人 ( 県民人口)のうち 400 人 ( 病床)  P(A∩B)= 万人 1 人  P(B|A)=P(A∩B)/P(A)= ÷ =1/10 = 0.1

 2 つの事象 A,B が独立事象であるとは  定義 P(A|B)=P(A) または P(B|A)=P(B)

 P(A ∩ B) = P(A)× P(B)  独立のときだけ上の式が成立する  自分の私感ですが,実際の世界で完璧に 独立ということはめったにない!

PG ホーエル

 どのように標本を選ぶべきか?  作為抽出 なんら科学的な手法も使用できない  無作為抽出 ( Random Sampling) 母集団を構成するどの個体も 標本に選ばれる確率が等しく なるような抽出方法 母集団 標本

 母集団:調査対象の 数値などを持つ集合  標本  記述統計 数値的記述 例) 平均  注意 :母集団の平均 :標本の平均 母集団 標本

 学生のアンケート  電話での選挙予想  老人調査  何が大切か? 母集団を構成する台帳  例 住民基本台帳  母集団に番号をつける

 老人クラブに入会している人は健康な人 たち  老人クラブは過疎地にはすくなくある程 度人口がいる場所に限られる。  老人クラブの会長から推薦された人  健康  受け答えができて会の中核になる人  男性  ⇒ この調査結果は信頼できない!

 悉皆調査 しっかいちょうさ ⇒国勢調査  標本調査 ひょうほんちょうさ  無作為抽出  作為抽出

 基幹統計 ( 旧 指定統計)  一般統計 ( 旧 承認統計,届出統計) ⇒つまり統計調査をするためには総務省

 調査統計( 1 次統計) 統計を作成することを目的として行われ る調査から得られる統計⇒国勢調査,家 計調査  業務統計( 1 次統計) 行政上の届出などから得られる記録から の統計⇒人口動態統計  加工統計( 2 次統計) 1 次統計を利用、加工した統計のこと ⇒国民経済計算や鉱工業指数

 個人面接法( Interview survey )  正確で高い回収率、費用がかさむ  配布回収法(留め置き法)  調査員が配布し 後に回収  郵送法 (mail survey)  回収率は 30 %以下  電話法 (Telephone survey)  インターネット調査

 平均値(期待値) Average , Mean  標準偏差 Standard Deviation ⇒データが平均の周りに散らばっている のか?  分散⇒標準偏差の 2 乗  中央値(ちゅうおうち)  最頻値(もーど)  尖度(せんど)  歪度(わいど)

10 円 50 円 平均⇒ 30 円 20 円 40 円 30 円 標準偏差= 0 標準偏差= 円 標準偏差= 円

 偏差値

Wikipedia より

負の歪度 左に裾をひいている 正の歪度 右に裾をひいている

 代表値  平均以外の代表値  メジアン  モード

 分布が左右に歪んでいる場合には必要な 概念  左右対称な場合は平均値に一致する

measure of location 分布の位置に関する測度 平均、最頻値(モード)、中央値(メジアン) measure of scale 尺度に関する測度 その他 正規分布と比較して 歪度( Skewness) 尖度( Kurtosis )

平均 (x) :標本平均 1 /nΣ i x i を意味します. 標準誤差標準偏差をnの平方根で割ったもの 標準偏差標本標準偏差を意味しています.分散の平方根です. 平均の周りの散らばりを意味しています. 中央値データの真ん中の順位の値です.この場合は100な ので, 50 番目と 51 番目の平均を計算しています. 最頻値計算しても意味のないものを計算しています. 分析ツールでの計算結果は,離散的なデータや階級に 分類されている場合等だけが意味を持ちます. 尖度分布の裾の重さになる指標です. 歪度左右の偏りを示します.正の場合は右に裾を引き,負 の場合は左に裾を引くと言います. 分散(s 2 ) : 標本不偏分散です.二乗和を( n-1 )で割った形式です. 信頼区間 正規分布近似計算で両側信頼区間です. ( EXCEL2003) そうでない場合は信頼区間の半分の長さですの,平均 ± この数値が信頼区間です.

 右に裾をひいた分布 ( 歪度が正) 単峰(やま1つ)な ら モード≦メジアン ≦平均が成立する  左右対称分布の場合 は3つ ( 平均,メジア ン,モード)は一致 して,歪度は0

 右に裾を引く 値が正となる  左に裾を引く 値は負となる  日本の森林の表層土壌 の pH 値 有症者発生数の推移 流行曲線の例 (北海道内で集団発生した腸管出血性大腸菌 O-157 感染症報告書, 北海道帯広保健所, 1997 ) idsc.nih.go.jp/training/9kanri/14_minowa.html

2.5 の階級値から 階級下限値は 0 階級上限値は 5であることが わかる. つまり 0 歳 以上 5 歳未満で の死亡数は 322 人であることが わかる.

 最大値, 最小値  階級の数= 5-20 程度  目安として  標本の大きさ ▪ 30 程度なら 5 個 ▪ 程度まで  階級の数が多すぎると不規則な凸凹  少なすぎると情報が失われる

Sturges の提案 階級の数= 1 + (log 10 n / log 10 2) =1+ log 2 n EXCEL では =1+ Log( 標本の大きさ,2) と入力すれば計算でき る スコット (Scott’s) の提案 階級の数= 3.5 s / n 1/3 ここで s は標本の標準偏差 EXCEL では =3*標本標準偏差 / 標本の大きさ ^(1/3) と入力すれば計算で きる Freedman と Diaconis の提案 階級の数=2 × 四分位範囲 / n 1/3

 EXCEL はウソが多い?  売上伝票整理などを主たる目的

500 人になっている か?

① ② ② 重要 名義 順序 スケール

1 ⇒男 2 ⇒女

① ② ③

 BMI の計算 ①

 BMI ( Body Mass Index)  体重 ÷ (身長の2乗)  ① に BMI と記入  ② をクリック  変数⇒体重 ① ②

演算 SPPS での標記演算 SPPS での標記 + ( 加算) + X( 乗算) * ー(減算) - ÷( 除算) / べき乗 ** ≠ (不等号) ~= AND & OR | ≦ <= ≧ >= (){}[] 等の区別は無く、すべて () であ る

 成人の場合 ( 妊婦、乳幼児等を除く)  25 以上を肥満  18.5 未満を低体重  上記以外を標準 25 体重 標準 肥満 18.5 HIGH 終端

① ②

② ① 判定という変数を記 入 ③ 18.5 と 25 を記 入 ④

 アンケート等で 5 段階  1=大変満足した  2=やや満足  3=ふつう  4=やや不満  5=不満足 順序尺度(変数)⇒平 均等は計算しない

 血液型と肥満には関係があるだろうか?  H0: 血液型と肥満には関係が無い  H1 :血液型と肥満には関係がある

 2 重否定の論理  手順 1. 2 つの仮説を作成する 2. 帰無仮説,対立仮説 3. 帰無仮説が正しいという仮定のもとに,観測 された状態が発生する確率を計算 4. 確率が 0.05 (5%)以下なら仮定の帰無仮説 が間違っていたとして棄却し,対立仮説を採 択 様々な方法がある 使用する統計量

 検査(スクリーニング)  H0 の仮定の下に現在観測したデータの確 率を計算  5% 以下なら H0 を疑い ⇒棄却( Reject)  H1 を採択する

 χ2 :カイ 2 乗  Student のt  フィッシャーのz  F 統計量  順序統計量 (マン・ホイットニー等)

 使ってはいけない検定の代表であるが 非常にわかりやすい検定方法

 観測値  期待値  もしも判定と血液型が無関係なら 71 の数字の部分は 500×0.336×0.45 = 75.6 人 33.6 % 45 %

 H0 は棄却できない  では H0 なのか?  NO  なにも証明できなかっただけ