Download presentation
Presentation is loading. Please wait.
1
データ分析入門(10) 第10章 クロス集計表と仮説検定 廣野元久
2
本章の概要 モザイク図、クロス集計表により2変量の関係を調べる 仮説検定の考え方 比率に着目して、変量間の関連を調べる
統計量による要約とその解釈 仮説検定の考え方 集団の一部を調べて全体を推測する 偶然誤差の回避 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
3
1.クロス集計表と仮説検定(1) 今までの話は、得られたデータを要約、グラフにして各自で考察した
ビッグクラス.jmp, 車の調査.jmp 食好み,衆議院選挙得票 結論はまちまち 車の調査.jmpは、すでに調査した米国303人(標本)に対する自家用車の集計からの考察 その考察を、標本が偏りなく取られたとして、 全米、あるいは、ある州の状況の推測として利用できないか? 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
4
1.クロス集計表と仮説検定(2) ほとんどの人が、 ・Sportyは年代が上がるほど 購入されない ・Familyは年代が上がるほど
割合が多い ・Workの割合は年代と関連しない この303人に対する データの見方は一致している 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
5
1.クロス集計表と仮説検定(3) 303人 グラフ化 偶然誤差 の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
6
1.1 クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表
1.1 クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表 目的は、標本ではなく、その背後にある、もっと大きな集団、たとえば、全米市場 市場のシェアと、販売戦略の作成 間違いは許されない;統計の神様にお願いする 仮説検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
7
1.2 社会調査データの分析 分析の流れ 調査対象の決定;定義、制約など 標本の抽出 測定と集計 カテゴリ変量間の関連を視覚的に把握する
1.2 社会調査データの分析 分析の流れ 調査対象の決定;定義、制約など 標本の抽出 測定と集計 カテゴリ変量間の関連を視覚的に把握する グラフ、モザイク図(どちらをX,Yにするか重要) 数値で確認する クロス集計表、出現比率も調べる 仮説検定で確認 カイ二乗検定で、偶然誤差の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
8
2 モザイク図とクロス集計表(1) JMPの登場、再び車の調査.jmpを利用 1.車の調査.jmpをロードする 2.二変量の関係を選択
第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
9
2 モザイク図とクロス集計表(2) 1.既婚/未婚 をクリック 5.Y目的変数をクリック 3.Yに指定される 7.OKを クリック
4.タイプ をクリック 2.x説明変数をクリック 3. xに指定される 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
10
2 モザイク図とクロス集計表(3) 既婚と未婚では 選ぶタイプが違う クロス集計表で 読むと数値的に 理解できる 帯の太さが,
既婚・未婚の割合 を表している 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
11
2 モザイク図とクロス集計表(4) 全体に対するパーセント 119/303*100 縦方向に見たパーセント 119/155*100
横方向に見た比率 119/196*100 和が100% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
12
3 クロス表の検定 3.1仮説検定の論理 3.2有意水準とp値 3.3検定結果からの結論の導き方 3.4クロス表の検定 2つの仮説 背理法
3 クロス表の検定 3.1仮説検定の論理 2つの仮説 背理法 3.2有意水準とp値 有意水準とリスク 3.3検定結果からの結論の導き方 命題の支持と真とは違う 3.4クロス表の検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
13
3.1 仮説検定の論理(1) 母集団全体で推測されること(命題)を標本から得られたデータから統計的に判断する 2つの仮説を用意する
帰無仮説:H0捨てたい仮説 命題がまったく生じないという状態を考える 未婚既婚と車のタイプは関連がまったくない 対立仮説:H1帰無仮説と反対の仮説 命題の程度は分からないが、帰無仮説が誤りならば、必ず対立仮説は正しい 背理法 捨てたい仮説が生じる状態を想定して、その状態から データ(標本)が得られる確率で判断する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
14
3.1 仮説検定の論理(2) 命題:犬は白い いくら、白い犬をたくさん連れて来ても、命題を証明できない
しかし1匹、黒い(白くない)犬を連れてくれば、命題を否定できる これが背理法 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
15
3.1 仮説検定の論理(3) 2000年度はチョコレート実験をやりました 命題:同程度の甘さのチョコレートA,Bでは、食べる順番で
甘さの感じ方が違う Hoでない 母集団 対立仮説H1 程度が分からないので 標本 帰無仮説Ho 食べる順番で甘さの感じ方が 変わらない 背反事象 Hoにそう 母集団 どっちの経路から標本が得られたか判定する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
16
3.2 有意水準とp値(1) ここでは 有意水準αとは、帰無仮説を捨てるための基準となる確率
通常、5%、1%などを使う コイントスで続けて何回表が出たらいかさまと感じるか P値は、帰無仮説Hoが真として標本が、 そのような母集団から得られる上側確率 αとp値から帰無仮説を捨てるかどうか決める 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
17
3.2 有意水準とp値(2) 10000人(非常に多数という意味)を母集団として、 チョコレート実験は、仮にこのような結果
(提示する順番に関係ない)だとする 統計の神様の世界 ここから、標本として、72人抜き取って 実際の 実験結果 が標本として得られる上側確率を計算 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
18
3.2 有意水準とp値(3) まず、有意水準α=0.05とする P値、 .05より小さい 帰無仮説を棄却 第10章 クロス集計表と仮説検定
第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
19
予防率の違いの検定、どうしたらよいのでしょうか?
タミフル群 人 / 155人 1.3% プラセボ群 13人 / 153人 8.5% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
20
3.3 検定結果からの結論の導き方(1) 帰無仮説が棄却された 帰無仮説が棄却できない(p値が5%より大) 検定結果と命題が真であるかは別、
3.3 検定結果からの結論の導き方(1) 帰無仮説が棄却された 積極的に命題(対立仮説)の正当性を主張 帰無仮説が棄却できない(p値が5%より大) 対立仮説を捨てれない 標本の数やデータの品質に依存 つまり、いまあるデータからは分からない 検定結果と命題が真であるかは別、 知見にあった(一般常識に照らして)結論する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
21
3.3 検定結果からの結論の導き方(2) 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
22
3.4 クロス集計の検定(1) 車の調査.jmpに戻る 帰無仮説Ho 対立仮説H1 有意水準を決めるα=.05
3.4 クロス集計の検定(1) 車の調査.jmpに戻る 帰無仮説Ho 未既婚の別と車種の好みとは無関係 対立仮説H1 未既婚の別と車種の好みとは関係がある 有意水準を決めるα=.05 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
23
3.4 クロス集計の検定(2) Testのブロックを見る PearsonのProb>ChiSq を見る .0001以下であることが
3.4 クロス集計の検定(2) Testのブロックを見る PearsonのProb>ChiSq を見る .0001以下であることが 分かる つまり、万に1回も 無関係であるような 標本は得られない 未既婚と車種は統計的に 関係がある データが教えてくれた 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
24
課題 食好み.JMPをダウンロードしなさい. このデータは,仮に20前後の日本の若者の食の嗜好を代表するものであるとします
出身地域と性別で分類したとき,食品の好みが違うものがあるかを調べよ. この結果は,あなたが,先に提出した課題(第4章)で感じたことと一致していたかどうかを考察しなさい. 統計的検定について,感じたことを述べなさい. 以上のことをリポートにまとめて,提出しなさい 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
25
データの揺らぎ、臨床データの揺らぎ 高橋 行雄 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
26
1.クロス集計表と仮説検定 303人 グラフ化 偶然誤差 の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
27
クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表
カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表 目的は、標本ではなく、その背後にある、もっと大きな集団、たとえば、全米市場 市場のシェアと、販売戦略の作成 間違いは許されない;統計の神様にお願いする 仮説検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
28
予防率の違いの検定、 どうしたらよいのでしょうか?
タミフル群 人 / 155人 1.3% プラセボ群 13人 / 153人 8.5% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
29
伝統的な有意差検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
30
臨床試験の計画 実験結果はどのくらい揺らぐのか 2005年度の○○製薬の社員全員 5016名 インフルエンザ・ワクチンの予防試験(仮想)
2 群に分けプラセボと実薬の接種 プラセボの予防率が 10 % 新ワクチンの予防率が 5 % 各群 200例の比較試験をしたとする 各群の予防率はいかに? 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
31
「揺らぎ」は、統計学の原点 浜田本、p16、エンドウの 実験、表 3 揺らぎを体験してみよう 2項分布、p19、式(1)
プラセボの真の予防率は 10% JMPで 2項乱数を使ってみる 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
32
実験結果は、予防効果は何例? 「実験結果」に、 2項乱数を選択 nは、実験数 pは、真の予防率 第10章 クロス集計表と仮説検定
第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
33
クラスのメンバーの結果は? 発表結果をJMPのシートに入力 分布をJMPで書いてみる 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
34
100回実験をしてみよう テーブル変数の利用 各群の予防人数を2項乱数で計算 人数の追加は、メニューの「行」の「追加」で
第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
35
実験結果の揺らぎ 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
36
100回の実験の揺らぎの分布 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
37
メンデルの実験の場合 種の形で ‐19 から +19 の外になる 回数をカウントしてみよう (図 2) 第10章 クロス集計表と仮説検定
種の形で ‐19 から +19 の外になる 回数をカウントしてみよう (図 2) 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
38
オッズ比の信頼区間 浜田本、p136 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
39
「モデルのあてはめ」 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
40
ロジスティック回帰分析 オッズ比はオプションで指定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
41
オッズ比の信頼区間 浜田本の p142 の計算式を参照 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
42
100回の臨床実験 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
43
オッズ比の95%信頼区間 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
44
症例数を変えた実験 症例数を 1 群 400 例にしてみよう 症例数を 1 群 100 例にしてみよう
オッズ比の 95%信頼区間が1を超える実験の数は何回発生するのだろうか 症例数を 1 群 100 例にしてみよう 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
45
画期的なワクチン 予防率を 相対リスク(RR)で 30%と期待 症例数を150としてみよう テーブル変数を 0.30 としなさい
オッズ比の 95%信頼区間が1を超える実験の数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
46
安価なワクチン しかし、予防効果は相対リスクで 60% 症例数を 300 としてみよう
しかし、予防効果は相対リスクで 60% 症例数を 300 としてみよう オッズ比の 95%信頼区間が1を超える実験の数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.