データ分析入門(10) 第10章 クロス集計表と仮説検定 廣野元久.

Slides:



Advertisements
Similar presentations
東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
Advertisements

統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Q 1. ある工場で直径1インチの軸棒を標準偏差 0.03 の 管理水準で製造している。 ある日の製造品の中から 10 本の標本をとって直径を測定 したところ、平均値が インチであった。品質管理上、 軸棒の直径が短すぎるだろうか、それとも、異常なしと判断 して、製造を続けてもよいであろうか。
4. 統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方 次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
1 データ分析入門( 8 ) 第 8 章 散布図と相関係数 廣野元久. 第 8 章 散布図と相関係数 廣野元久 &高橋行雄 2/28 本章の概要 2つの量的データのばらつき方を調べ, その関連 ( 相関関係 ) をグラフと数値で評価する 2変量間の相関関係には, 因果関係と擬似相関があるため, 関連を見誤らないように,
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第5章 JMPのインストールと基本操作 廣野元久
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
データ分析入門(7) 第7章 データの操作と比較 廣野元久.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
データ分析入門(11) 第11章 平均値の差の検定 廣野元久.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第7回 独立多群の差の検定 問題例1 出産までの週数によって新生児を3群に分け、新生児期黄疸の
検定 P.137.
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学 12/3(月).
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的推定と検定 推定: 統計的に標本の統計量から母集団の母数(母平均・母標準偏差など)を推測することを統計的推定という 検定:
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計学 11/30(木).
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計学 12/13(木).
母分散が既知あるいは大標本の 平均に関する統計的検定
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
データ分析入門(13) 第13章 主成分分析 廣野元久.
統計学  第6回 西山.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
クロス集計とχ2検定 P.144.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
社会統計学Ic・統計科学I 第六回 ~仮説検証~
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
食中毒と疫学調査の統計 ~2×2表~ 岡山理科大学 山本英二 2002/02/20.
統計学 西 山.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
統計処理2  t検定・分散分析.
母分散の検定 母分散の比の検定 カイ2乗分布の応用
確率と統計2009 第12日目(A).
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
統計的検定   1.検定の考え方 2.母集団平均の検定.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
Presentation transcript:

データ分析入門(10) 第10章 クロス集計表と仮説検定 廣野元久

本章の概要 モザイク図、クロス集計表により2変量の関係を調べる 仮説検定の考え方 比率に着目して、変量間の関連を調べる 統計量による要約とその解釈 仮説検定の考え方 集団の一部を調べて全体を推測する 偶然誤差の回避 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

1.クロス集計表と仮説検定(1) 今までの話は、得られたデータを要約、グラフにして各自で考察した ビッグクラス.jmp, 車の調査.jmp 食好み,衆議院選挙得票 結論はまちまち 車の調査.jmpは、すでに調査した米国303人(標本)に対する自家用車の集計からの考察 その考察を、標本が偏りなく取られたとして、 全米、あるいは、ある州の状況の推測として利用できないか? 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

1.クロス集計表と仮説検定(2) ほとんどの人が、 ・Sportyは年代が上がるほど 購入されない ・Familyは年代が上がるほど 割合が多い ・Workの割合は年代と関連しない この303人に対する データの見方は一致している 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

1.クロス集計表と仮説検定(3) 303人 グラフ化 偶然誤差 の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

1.1 クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表 1.1 クロス集計表 カテゴリーにそって、得られたデータ                 カテゴリカルデータ 2つのカテゴリカルデータの関連を見る             モザイク図、クロス集計表 目的は、標本ではなく、その背後にある、もっと大きな集団、たとえば、全米市場 市場のシェアと、販売戦略の作成 間違いは許されない;統計の神様にお願いする 仮説検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

1.2 社会調査データの分析 分析の流れ 調査対象の決定;定義、制約など 標本の抽出 測定と集計 カテゴリ変量間の関連を視覚的に把握する 1.2 社会調査データの分析 分析の流れ 調査対象の決定;定義、制約など 標本の抽出 測定と集計 カテゴリ変量間の関連を視覚的に把握する グラフ、モザイク図(どちらをX,Yにするか重要) 数値で確認する クロス集計表、出現比率も調べる 仮説検定で確認 カイ二乗検定で、偶然誤差の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

2 モザイク図とクロス集計表(1) JMPの登場、再び車の調査.jmpを利用 1.車の調査.jmpをロードする 2.二変量の関係を選択 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

2 モザイク図とクロス集計表(2) 1.既婚/未婚 をクリック 5.Y目的変数をクリック 3.Yに指定される 7.OKを クリック 4.タイプ をクリック 2.x説明変数をクリック 3. xに指定される 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

2 モザイク図とクロス集計表(3) 既婚と未婚では 選ぶタイプが違う クロス集計表で 読むと数値的に 理解できる 帯の太さが, 既婚・未婚の割合 を表している 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

2 モザイク図とクロス集計表(4) 全体に対するパーセント 119/303*100 縦方向に見たパーセント 119/155*100 横方向に見た比率 119/196*100 和が100% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3 クロス表の検定 3.1仮説検定の論理 3.2有意水準とp値 3.3検定結果からの結論の導き方 3.4クロス表の検定 2つの仮説 背理法 3 クロス表の検定 3.1仮説検定の論理 2つの仮説 背理法 3.2有意水準とp値 有意水準とリスク 3.3検定結果からの結論の導き方 命題の支持と真とは違う 3.4クロス表の検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.1 仮説検定の論理(1) 母集団全体で推測されること(命題)を標本から得られたデータから統計的に判断する 2つの仮説を用意する   帰無仮説:H0捨てたい仮説       命題がまったく生じないという状態を考える       未婚既婚と車のタイプは関連がまったくない   対立仮説:H1帰無仮説と反対の仮説  命題の程度は分からないが、帰無仮説が誤りならば、必ず対立仮説は正しい 背理法 捨てたい仮説が生じる状態を想定して、その状態から データ(標本)が得られる確率で判断する  第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.1 仮説検定の論理(2) 命題:犬は白い いくら、白い犬をたくさん連れて来ても、命題を証明できない しかし1匹、黒い(白くない)犬を連れてくれば、命題を否定できる これが背理法 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.1 仮説検定の論理(3) 2000年度はチョコレート実験をやりました 命題:同程度の甘さのチョコレートA,Bでは、食べる順番で     甘さの感じ方が違う Hoでない 母集団 対立仮説H1 程度が分からないので 標本 帰無仮説Ho 食べる順番で甘さの感じ方が 変わらない 背反事象 Hoにそう 母集団 どっちの経路から標本が得られたか判定する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.2 有意水準とp値(1) ここでは 有意水準αとは、帰無仮説を捨てるための基準となる確率 通常、5%、1%などを使う コイントスで続けて何回表が出たらいかさまと感じるか P値は、帰無仮説Hoが真として標本が、      そのような母集団から得られる上側確率 αとp値から帰無仮説を捨てるかどうか決める 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.2 有意水準とp値(2) 10000人(非常に多数という意味)を母集団として、 チョコレート実験は、仮にこのような結果 (提示する順番に関係ない)だとする 統計の神様の世界 ここから、標本として、72人抜き取って 実際の 実験結果 が標本として得られる上側確率を計算 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.2 有意水準とp値(3) まず、有意水準α=0.05とする P値、 .05より小さい 帰無仮説を棄却 第10章 クロス集計表と仮説検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

予防率の違いの検定、どうしたらよいのでしょうか? タミフル群 2人 / 155人 1.3% プラセボ群   13人 / 153人 8.5% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.3 検定結果からの結論の導き方(1) 帰無仮説が棄却された 帰無仮説が棄却できない(p値が5%より大) 検定結果と命題が真であるかは別、 3.3 検定結果からの結論の導き方(1) 帰無仮説が棄却された 積極的に命題(対立仮説)の正当性を主張 帰無仮説が棄却できない(p値が5%より大) 対立仮説を捨てれない 標本の数やデータの品質に依存 つまり、いまあるデータからは分からない 検定結果と命題が真であるかは別、 知見にあった(一般常識に照らして)結論する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.3 検定結果からの結論の導き方(2) 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.4 クロス集計の検定(1) 車の調査.jmpに戻る 帰無仮説Ho 対立仮説H1 有意水準を決めるα=.05 3.4 クロス集計の検定(1) 車の調査.jmpに戻る 帰無仮説Ho 未既婚の別と車種の好みとは無関係 対立仮説H1 未既婚の別と車種の好みとは関係がある 有意水準を決めるα=.05 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

3.4 クロス集計の検定(2) Testのブロックを見る PearsonのProb>ChiSq を見る .0001以下であることが 3.4 クロス集計の検定(2) Testのブロックを見る PearsonのProb>ChiSq を見る .0001以下であることが 分かる つまり、万に1回も 無関係であるような 標本は得られない 未既婚と車種は統計的に             関係がある データが教えてくれた 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

課題 食好み.JMPをダウンロードしなさい. このデータは,仮に20前後の日本の若者の食の嗜好を代表するものであるとします 出身地域と性別で分類したとき,食品の好みが違うものがあるかを調べよ. この結果は,あなたが,先に提出した課題(第4章)で感じたことと一致していたかどうかを考察しなさい. 統計的検定について,感じたことを述べなさい. 以上のことをリポートにまとめて,提出しなさい 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

データの揺らぎ、臨床データの揺らぎ 高橋 行雄 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

1.クロス集計表と仮説検定 303人 グラフ化 偶然誤差 の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表                 カテゴリカルデータ 2つのカテゴリカルデータの関連を見る            モザイク図、クロス集計表 目的は、標本ではなく、その背後にある、もっと大きな集団、たとえば、全米市場 市場のシェアと、販売戦略の作成 間違いは許されない;統計の神様にお願いする 仮説検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

予防率の違いの検定、 どうしたらよいのでしょうか? タミフル群 2人 / 155人 1.3% プラセボ群   13人 / 153人 8.5% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

伝統的な有意差検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

臨床試験の計画 実験結果はどのくらい揺らぐのか 2005年度の○○製薬の社員全員 5016名 インフルエンザ・ワクチンの予防試験(仮想) 2 群に分けプラセボと実薬の接種 プラセボの予防率が 10 % 新ワクチンの予防率が 5 % 各群 200例の比較試験をしたとする 各群の予防率はいかに? 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

「揺らぎ」は、統計学の原点 浜田本、p16、エンドウの 実験、表 3 揺らぎを体験してみよう 2項分布、p19、式(1) プラセボの真の予防率は 10% JMPで 2項乱数を使ってみる 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

実験結果は、予防効果は何例? 「実験結果」に、 2項乱数を選択 nは、実験数 pは、真の予防率 第10章 クロス集計表と仮説検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

クラスのメンバーの結果は? 発表結果をJMPのシートに入力 分布をJMPで書いてみる 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

100回実験をしてみよう テーブル変数の利用 各群の予防人数を2項乱数で計算 人数の追加は、メニューの「行」の「追加」で 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

実験結果の揺らぎ 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

100回の実験の揺らぎの分布 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

メンデルの実験の場合 種の形で ‐19 から +19 の外になる 回数をカウントしてみよう (図 2) 第10章 クロス集計表と仮説検定 種の形で ‐19 から +19 の外になる 回数をカウントしてみよう (図 2) 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

オッズ比の信頼区間 浜田本、p136 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

「モデルのあてはめ」 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

ロジスティック回帰分析 オッズ比はオプションで指定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

オッズ比の信頼区間 浜田本の p142 の計算式を参照 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

100回の臨床実験 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

オッズ比の95%信頼区間 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

症例数を変えた実験 症例数を 1 群 400 例にしてみよう 症例数を 1 群 100 例にしてみよう オッズ比の 95%信頼区間が1を超える実験の数は何回発生するのだろうか 症例数を 1 群 100 例にしてみよう 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

画期的なワクチン 予防率を 相対リスク(RR)で 30%と期待 症例数を150としてみよう テーブル変数を 0.30 としなさい オッズ比の 95%信頼区間が1を超える実験の数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄

安価なワクチン しかし、予防効果は相対リスクで 60% 症例数を 300 としてみよう しかし、予防効果は相対リスクで 60% 症例数を 300 としてみよう オッズ比の 95%信頼区間が1を超える実験の数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄