Presentation is loading. Please wait.

Presentation is loading. Please wait.

保健統計学第5回 「3群以上のデータ解析」 と、その他色々

Similar presentations


Presentation on theme: "保健統計学第5回 「3群以上のデータ解析」 と、その他色々"— Presentation transcript:

1 保健統計学第5回 「3群以上のデータ解析」 と、その他色々

2 本日のテーマ ~3群以上の比較~ まずはデータの種類を確認(2群と同様)! ここまでは全く2群の比較と同様でございます。 量的データ
本日のテーマ ~3群以上の比較~ まずはデータの種類を確認(2群と同様)! 量的データ  ・連続量 or 離散量?  ・平均、最大・最小・中央値、分散(標準偏差)は?  ・データの分布(グラフの形)は?  ・比較しようと思う群の関係は?(独立 or 出所は同じ?) 質的データ?  ・順位データ or 単なるカテゴリデータ? ここまでは全く2群の比較と同様でございます。

3 1-(1) 分散分析(1) これは「2群の平均値の比較を行う」t検定でしたが・・・3群以上の場合はどうしましょうか? とりあえず・・・?
1-(1) 分散分析(1) XA:A群の平均値 XB:B群の平均値 SA:A群の標準偏差 SB:B群の標準偏差 nA:A群の例数 nB:B群の例数 これは「2群の平均値の比較を行う」t検定でしたが・・・3群以上の場合はどうしましょうか? とりあえず・・・? の、全ての組み合わせでt検定してみましょうか・・・? 有意水準をα=5%とした場合、上記の組み合わせからは最大で15%、もしも7群だったら21通りの組み合わせ・・・ほぼ100%(以上?)有意差が出てくることになりますけど・・・?

4 1-(2) 分散分析(2) 下手な鉄砲も数打ちゃ当たる・・・ってか?
1-(2) 分散分析(2) 検定とは「偶然の発生する度合い」を考えるという行為であり、有意水準5%とは、20回に1回は偶然が発生するということです。そして、それは非常に稀なことであるから、そうなるという仮説自体が間違っていたとすることでした。ですが・・・ 3群以上の全ての組み合わせについて、有意水準5%で検定するということは、「5%×組み合わせ数」の偶然を発生させてしまうことになります。稀な事象でも回数が増加すれば発生しやすくなります 下手な鉄砲も数打ちゃ当たる・・・ってか? このような行為を防ぐために、3群以上の平均値の比較には分散分析(Analysis of Variance : ANOVA)を用いるのです。

5 1-(3) 分散分析(3) ①問題意識:「A群とB群とC群には差があるのではないか?」
1-(3) 分散分析(3) ①問題意識:「A群とB群とC群には差があるのではないか?」 ②検定統計量を求める(分散分析表の作成。分散比(F)を算出する)  ③帰無仮説(H0):各群間に差がないのだから、分散比(F)≒1になるはず? ④帰無仮説から分散比(F)≒1となるのであれば、その(F)の値は十分に起こり得るものなのか?(=単なる偶然ではないのか?) ⑤F分布表から、あらかじめ定めた有意水準(通常α=0.05)よりも大きければ、帰無仮説(H0)を否定できない。逆に小さければ帰無仮説(H0)を否定し、対立仮説(H1)を採択する。 では、実際に例題を解くことで原理を学びましょう。ここでの統計量は「分散比(F)」であります!

6 1-(4) 分散分析(4) 分散分析表の見方(これを知らなければダメです!) これだけでは辛い人・・・?ならば、次の例題を解いてみましょう!
1-(4) 分散分析(4) 分散分析表の見方(これを知らなければダメです!) 変動要因 偏差平方和 自由度 分散 分散比 群間変動 dfA=群数-1 (例えば、3群なら3-1=2) sA2=SA/dfA F=sA2/sE2 群内変動 dfE=全データ数-群数(例えば、n=15、3群なら15-3=12) sE2=SE/dfE 総変動 ST=SA+SE dfT=N-1 (もしくはdfA+dfE) これだけでは辛い人・・・?ならば、次の例題を解いてみましょう!

7 1-(5) 分散分析(5) 例題:出産までの週数によって新生児を3群に分け、新生児期黄疸の強さを調べたところ、以下のようなデータになった。出産までの週数によって、黄疸の強さに差があると言えるか? 週数 データ数 各群の平均値(xi) 分散(si2) -36週まで 13 11 6 3 10 36-38週 7 5 8 38-40週 4 11/3 群間変動=SA=3×(10-7)2+5×(8-7)2+7×(5-7)2=60 *データ数×(群の平均-全体平均)2の和 群内平均=SE={(13-10)2+(11-10)2+(6-10)2}+{(11-8)2+(10-8)2+(7-8)2×2+(5-8)2}+{(8-5)2+ (7-5)2+(5-5)2×2+(4-5)2+(3-5)2×2}=72 *(各値-各群の平均値)2の和 変動要因 偏差平方和 自由度 分散 分散比 群間変動 60 3-1=2 60/2=30 30/6=5 群内変動 72 =12 72/12=6 総変動 132 14 自由度12、α=0.05のときのF値は3.89。分散比F=5>3.89となり、出産までの週数と黄疸の強さは差があると言える!

8 2-(1) Kruskal-Wallis検定(1)
分散分析はt検定同様、「厳密には」等分散の群同士に用いられるものですが、t検定同様標本が少数の場合は、等分散の検定が通りやすくなります。ですが・・・ 明らかに等分散とは思えない標本や、単なる順位データ」等の検定には、どのように対応しましょうか?T検定に対応する、Wilcoxonのような存在はあるのでしょうか? 勿論あります。実際には分散分析以上に出番の多い検定で、Kruskal-Wallis検定と呼ばれるものです。分散分析が正規分布を前提としたパラメトリック検定であるならば、当然ですがこちらはノンパラメトリック検定です。統計量も予想通り、順位を基準としたものとなります。

9 2-(2) Kruskal-Wallis検定(2)
①問題意識:「A群とB群とC群には差があるのではないか?」    帰無仮説(H0): A群とB群とC群には差がない    対立仮説(H1): A群とB群とC群には差がある ②検定統計量を求める (詳細は省略しますが、上記の12/n(n+1)及び-3(n+1)に関しては、Hが近似的に自由度k-1のχ2分布に従うので、χ2分布に近似させるための補正を行っている部分です。実際に群間の偏りを示している部分は、ここだけです) ③Kluskal-Wallis検定表から、あらかじめ定めた有意水準(通常α=0.05)の値Hαと検定統計量Hの値を比較する。H>Hαとなれば、 A群とB群とC群間には差があるとする。

10 2-(3) Kruskal-Wallis検定(3)
例題:集団検診で肥満者14名を抜き出し、体重によって3群に分けて血中の中性脂肪の濃度を調べた。各群間で中性脂肪濃度に差があると言えるか? 体重 データ数 各群の平均値(xi) 分散(si2) 80-90kg 192 256 166 122 202 5 90-100kg 164 248 264 270 230 100kg- 224 298 332 294 4 これも前回同様、順位と順位和で考えてみましょう 体重 順位 順位和 期待順位和 80-90kg 4 9 3 1 5 22 37.5 90-100kg 2 8 10 11 7 38 100kg- 6 13 14 12 45 30 実際の順位和と、期待順位和の差に注目! 解答: Kluskal-Wallis統計量 H=12/14(14+1)×{(22)2/5+(38)2/5+(45)2/4}- 3(14+1)=5.96。α=0.05のときHα=5.666<Hとなるので、各群間で差があるといえる。

11 生存時間解析→そもそも生存時間とは何か?
生存時間解析(1) 生存時間解析→そもそも生存時間とは何か? 基準となる時点からある事象(イベント)が発生するまでの時間の長さです。例えば・・・ 手術から死亡までの日数 薬剤の投与から治療効果が認められるまでの時間 入門から入幕までの場所数 生存時間という呼び方はしておりますが、基本的に生死のみを扱うわけではありません。ある時点から、観察すると決めた事象・出来事(=イベント)が発生するまでの時間のことを、便宜上「生存時間」と呼んでいるのです。

12 5人の肺がん患者を観察した結果、下記のようになりました
生存時間解析(2) 5人の肺がん患者を観察した結果、下記のようになりました Aさん:観察開始から観察終了まで生存(9ヶ月) Bさん:5月に入院、7月に亡くなられました(2ヶ月) Cさん:10月から観察終了まで生存(3ヶ月) Dさん:観察開始から10月で転院されました(7ヶ月打ち切り) Eさん:観察開始から9月で引越しされました(4ヶ月打ち切り) 実際に様々な理由で観察できなくなります。さらに観察スタート日もまちまちですし・・・?実際に例題で理解することにしましょう!

13 8人の肺がん患者を観察した結果、下記のようになりました
生存時間解析(3) 8人の肺がん患者を観察した結果、下記のようになりました 打ち切り このように、生存のまま観察を終了してしまう患者さんもいる。この人たち3名をどのように考えるのか? 打ち切り 打ち切り 基本的には、大切なのは「長さ」です。いつから観測しているかではなく、生存時間(例:何日生きていたか、何日後に発生したか、何場所で昇進したか)が重要なのです!

14 生存時間解析(4) イベント発生以外の打ち切りを考慮しないと結果が矛盾します!
・0≦t<11(=患者1の死亡直前まで)区間の生存確率は、(8-0)/8=1となる ・11≦t<33(=患者3の死亡直前まで)区間の生存確率は、(8-1)/8=0.875。よって、この時点までの生存確率は1×0.875=0.875となる ・33≦t<37(=患者4の死亡直前まで)区間の生存確率は、(6-1)/6=0.833。よって、この時点までの生存確率は1×0.875×0.833=0.729となる ・37≦t<59(=患者7の死亡直前まで)区間の生存確率は、(5-1)/5=0.8。よって、この時点までの生存確率は1×0.875×0.833×0.8=0.583となる ・59≦t<63(=患者8の死亡直前まで)区間の生存確率は、(2-1)/2=0.5。よって、この時点までの生存確率は1×0.875×0.833×0.8×0.5=0.292となる ・63≦t(=患者8の死亡直後以降)の生存確率は、(1-1)/1=0。よって、この時点までの生存確率は1×0.875×0.833×0.8×0.5×0=0となる イベント発生以外の打ち切りを考慮しないと結果が矛盾します!

15 生存時間解析(5) グラフの形だけは覚えておきましょう! 有名なKaplan-Meier 推定量曲線と呼びます!
死亡ではなく打ち切りで分母減少 こちらは2名減少しております 有名なKaplan-Meier 推定量曲線と呼びます!

16 ご清聴ありがとうございました。卒業研究に向けましての統計的相談、ソフトウエア関連のご相談等ございましたら、下記までお願い致します。
御礼 ご清聴ありがとうございました。卒業研究に向けましての統計的相談、ソフトウエア関連のご相談等ございましたら、下記までお願い致します。 それからもう一点・・・ 試験に関しましては・・・過去問は一切通用しないと思われます。


Download ppt "保健統計学第5回 「3群以上のデータ解析」 と、その他色々"

Similar presentations


Ads by Google