保健統計学第5回 「3群以上のデータ解析」 と、その他色々

Slides:



Advertisements
Similar presentations
東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
保健統計学第3回 「計量データの解析」
統計学第10回 多群の差を調べる~ 一元配置分散分析と多重比較 中澤 港
第4章補足 分散分析法入門 統計学 2010年度.
      仮説と検定.
経済統計学 第2回 4/24 Business Statistics
第7回 独立多群の差の検定 問題例1 出産までの週数によって新生児を3群に分け、新生児期黄疸の
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
検定 P.137.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
繰り返しのない二元配置の分散分析 データの値は,それぞれ偶然誤差による変動と処理の効果による変動とが重なってできている.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
カイ二乗検定の応用 カイ二乗検定はメンデル遺伝の分離比や計数(比率)データの標本(群)の差の検定にも利用できる 自由度
統計学 12/13(木).
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
母分散が既知あるいは大標本の 平均に関する統計的検定
計算値が表の値より小さいので「異なるとは言えない」。
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
第8回 関連多群の差の検定 問題例1 健常人3名につき、血中物質Xの濃度を季節ごとの調べた。 個体 春 夏 秋 冬 a
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
Excelによる実験計画法演習 小木哲朗.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
リサーチカンファ 29 Aug, 2017.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
確率と統計 年1月12日(木)講義資料B Version 4.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
統計処理2  t検定・分散分析.
母分散の信頼区間 F分布 母分散の比の信頼区間
1.母平均の検定:小標本場合 2.母集団平均の差の検定
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
統計的検定   1.検定の考え方 2.母集団平均の検定.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
母分散の検定 母分散の比の検定 カイ2乗分布の応用
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

保健統計学第5回 「3群以上のデータ解析」 と、その他色々 2007.06.01

本日のテーマ ~3群以上の比較~ まずはデータの種類を確認(2群と同様)! ここまでは全く2群の比較と同様でございます。 量的データ 本日のテーマ ~3群以上の比較~ まずはデータの種類を確認(2群と同様)! 量的データ  ・連続量 or 離散量?  ・平均、最大・最小・中央値、分散(標準偏差)は?  ・データの分布(グラフの形)は?  ・比較しようと思う群の関係は?(独立 or 出所は同じ?) 質的データ?  ・順位データ or 単なるカテゴリデータ? ここまでは全く2群の比較と同様でございます。

1-(1) 分散分析(1) これは「2群の平均値の比較を行う」t検定でしたが・・・3群以上の場合はどうしましょうか? とりあえず・・・? 1-(1) 分散分析(1) XA:A群の平均値 XB:B群の平均値 SA:A群の標準偏差 SB:B群の標準偏差 nA:A群の例数 nB:B群の例数 これは「2群の平均値の比較を行う」t検定でしたが・・・3群以上の場合はどうしましょうか? とりあえず・・・? の、全ての組み合わせでt検定してみましょうか・・・? 有意水準をα=5%とした場合、上記の組み合わせからは最大で15%、もしも7群だったら21通りの組み合わせ・・・ほぼ100%(以上?)有意差が出てくることになりますけど・・・?

1-(2) 分散分析(2) 下手な鉄砲も数打ちゃ当たる・・・ってか? 1-(2) 分散分析(2) 検定とは「偶然の発生する度合い」を考えるという行為であり、有意水準5%とは、20回に1回は偶然が発生するということです。そして、それは非常に稀なことであるから、そうなるという仮説自体が間違っていたとすることでした。ですが・・・ 3群以上の全ての組み合わせについて、有意水準5%で検定するということは、「5%×組み合わせ数」の偶然を発生させてしまうことになります。稀な事象でも回数が増加すれば発生しやすくなります 下手な鉄砲も数打ちゃ当たる・・・ってか? このような行為を防ぐために、3群以上の平均値の比較には分散分析(Analysis of Variance : ANOVA)を用いるのです。

1-(3) 分散分析(3) ①問題意識:「A群とB群とC群には差があるのではないか?」 1-(3) 分散分析(3) ①問題意識:「A群とB群とC群には差があるのではないか?」 ②検定統計量を求める(分散分析表の作成。分散比(F)を算出する)  ③帰無仮説(H0):各群間に差がないのだから、分散比(F)≒1になるはず? ④帰無仮説から分散比(F)≒1となるのであれば、その(F)の値は十分に起こり得るものなのか?(=単なる偶然ではないのか?) ⑤F分布表から、あらかじめ定めた有意水準(通常α=0.05)よりも大きければ、帰無仮説(H0)を否定できない。逆に小さければ帰無仮説(H0)を否定し、対立仮説(H1)を採択する。 では、実際に例題を解くことで原理を学びましょう。ここでの統計量は「分散比(F)」であります!

1-(4) 分散分析(4) 分散分析表の見方(これを知らなければダメです!) これだけでは辛い人・・・?ならば、次の例題を解いてみましょう! 1-(4) 分散分析(4) 分散分析表の見方(これを知らなければダメです!) 変動要因 偏差平方和 自由度 分散 分散比 群間変動 dfA=群数-1 (例えば、3群なら3-1=2) sA2=SA/dfA F=sA2/sE2 群内変動 dfE=全データ数-群数(例えば、n=15、3群なら15-3=12) sE2=SE/dfE 総変動 ST=SA+SE dfT=N-1 (もしくはdfA+dfE) これだけでは辛い人・・・?ならば、次の例題を解いてみましょう!

1-(5) 分散分析(5) 例題:出産までの週数によって新生児を3群に分け、新生児期黄疸の強さを調べたところ、以下のようなデータになった。出産までの週数によって、黄疸の強さに差があると言えるか? 週数 データ数 各群の平均値(xi) 分散(si2) -36週まで 13 11 6 3 10 36-38週 7 5 8 38-40週 4 11/3 群間変動=SA=3×(10-7)2+5×(8-7)2+7×(5-7)2=60 *データ数×(群の平均-全体平均)2の和 群内平均=SE={(13-10)2+(11-10)2+(6-10)2}+{(11-8)2+(10-8)2+(7-8)2×2+(5-8)2}+{(8-5)2+ (7-5)2+(5-5)2×2+(4-5)2+(3-5)2×2}=72 *(各値-各群の平均値)2の和 変動要因 偏差平方和 自由度 分散 分散比 群間変動 60 3-1=2 60/2=30 30/6=5 群内変動 72 3+5+7-3=12 72/12=6 総変動 132 14 自由度12、α=0.05のときのF値は3.89。分散比F=5>3.89となり、出産までの週数と黄疸の強さは差があると言える!

2-(1) Kruskal-Wallis検定(1) 分散分析はt検定同様、「厳密には」等分散の群同士に用いられるものですが、t検定同様標本が少数の場合は、等分散の検定が通りやすくなります。ですが・・・ 明らかに等分散とは思えない標本や、単なる順位データ」等の検定には、どのように対応しましょうか?T検定に対応する、Wilcoxonのような存在はあるのでしょうか? 勿論あります。実際には分散分析以上に出番の多い検定で、Kruskal-Wallis検定と呼ばれるものです。分散分析が正規分布を前提としたパラメトリック検定であるならば、当然ですがこちらはノンパラメトリック検定です。統計量も予想通り、順位を基準としたものとなります。

2-(2) Kruskal-Wallis検定(2) ①問題意識:「A群とB群とC群には差があるのではないか?」    帰無仮説(H0): A群とB群とC群には差がない    対立仮説(H1): A群とB群とC群には差がある ②検定統計量を求める (詳細は省略しますが、上記の12/n(n+1)及び-3(n+1)に関しては、Hが近似的に自由度k-1のχ2分布に従うので、χ2分布に近似させるための補正を行っている部分です。実際に群間の偏りを示している部分は、ここだけです) ③Kluskal-Wallis検定表から、あらかじめ定めた有意水準(通常α=0.05)の値Hαと検定統計量Hの値を比較する。H>Hαとなれば、 A群とB群とC群間には差があるとする。

2-(3) Kruskal-Wallis検定(3) 例題:集団検診で肥満者14名を抜き出し、体重によって3群に分けて血中の中性脂肪の濃度を調べた。各群間で中性脂肪濃度に差があると言えるか? 体重 データ数 各群の平均値(xi) 分散(si2) 80-90kg 192 256 166 122 202 5 90-100kg 164 248 264 270 230 100kg- 224 298 332 294 4 これも前回同様、順位と順位和で考えてみましょう 体重 順位 順位和 期待順位和 80-90kg 4 9 3 1 5 22 37.5 90-100kg 2 8 10 11 7 38 100kg- 6 13 14 12 45 30 実際の順位和と、期待順位和の差に注目! 解答: Kluskal-Wallis統計量 H=12/14(14+1)×{(22)2/5+(38)2/5+(45)2/4}- 3(14+1)=5.96。α=0.05のときHα=5.666<Hとなるので、各群間で差があるといえる。

生存時間解析→そもそも生存時間とは何か? 生存時間解析(1) 生存時間解析→そもそも生存時間とは何か? 基準となる時点からある事象(イベント)が発生するまでの時間の長さです。例えば・・・ 手術から死亡までの日数 薬剤の投与から治療効果が認められるまでの時間 入門から入幕までの場所数 生存時間という呼び方はしておりますが、基本的に生死のみを扱うわけではありません。ある時点から、観察すると決めた事象・出来事(=イベント)が発生するまでの時間のことを、便宜上「生存時間」と呼んでいるのです。

5人の肺がん患者を観察した結果、下記のようになりました 生存時間解析(2) 5人の肺がん患者を観察した結果、下記のようになりました Aさん:観察開始から観察終了まで生存(9ヶ月) Bさん:5月に入院、7月に亡くなられました(2ヶ月) Cさん:10月から観察終了まで生存(3ヶ月) Dさん:観察開始から10月で転院されました(7ヶ月打ち切り) Eさん:観察開始から9月で引越しされました(4ヶ月打ち切り) 実際に様々な理由で観察できなくなります。さらに観察スタート日もまちまちですし・・・?実際に例題で理解することにしましょう!

8人の肺がん患者を観察した結果、下記のようになりました 生存時間解析(3) 8人の肺がん患者を観察した結果、下記のようになりました 打ち切り このように、生存のまま観察を終了してしまう患者さんもいる。この人たち3名をどのように考えるのか? 打ち切り 打ち切り 基本的には、大切なのは「長さ」です。いつから観測しているかではなく、生存時間(例:何日生きていたか、何日後に発生したか、何場所で昇進したか)が重要なのです!

生存時間解析(4) イベント発生以外の打ち切りを考慮しないと結果が矛盾します! ・0≦t<11(=患者1の死亡直前まで)区間の生存確率は、(8-0)/8=1となる ・11≦t<33(=患者3の死亡直前まで)区間の生存確率は、(8-1)/8=0.875。よって、この時点までの生存確率は1×0.875=0.875となる ・33≦t<37(=患者4の死亡直前まで)区間の生存確率は、(6-1)/6=0.833。よって、この時点までの生存確率は1×0.875×0.833=0.729となる ・37≦t<59(=患者7の死亡直前まで)区間の生存確率は、(5-1)/5=0.8。よって、この時点までの生存確率は1×0.875×0.833×0.8=0.583となる ・59≦t<63(=患者8の死亡直前まで)区間の生存確率は、(2-1)/2=0.5。よって、この時点までの生存確率は1×0.875×0.833×0.8×0.5=0.292となる ・63≦t(=患者8の死亡直後以降)の生存確率は、(1-1)/1=0。よって、この時点までの生存確率は1×0.875×0.833×0.8×0.5×0=0となる イベント発生以外の打ち切りを考慮しないと結果が矛盾します!

生存時間解析(5) グラフの形だけは覚えておきましょう! 有名なKaplan-Meier 推定量曲線と呼びます! 死亡ではなく打ち切りで分母減少 こちらは2名減少しております 有名なKaplan-Meier 推定量曲線と呼びます!

ご清聴ありがとうございました。卒業研究に向けましての統計的相談、ソフトウエア関連のご相談等ございましたら、下記までお願い致します。 御礼 ご清聴ありがとうございました。卒業研究に向けましての統計的相談、ソフトウエア関連のご相談等ございましたら、下記までお願い致します。 wohashi@bioinfo.tmd.ac.jp それからもう一点・・・ 試験に関しましては・・・過去問は一切通用しないと思われます。