Download presentation
Presentation is loading. Please wait.
1
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
2
テキスト紹介 毎回恒例のテキスト枠 Rによるデータサイエンス 第11章 生存分析 pp183 – 199
第11章 生存分析 pp183 – 199
3
テキストの無い方は HTML版 Web上で公開されています
4
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
5
本スライドの目的 生存分析とは何かわかるようになる 生存分析のグラフが読めるようになる Rを使って生存分析のグラフが作成できる
※数式はわからない時間の都合上省略しているので、気になる方はテキストの方を参考にしてください。
6
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
7
基本概念 生存時間分析とは 分析例 生存時間分析とは、イベントが起きるまでの時間とイベントの間の関係に焦点を当てる分析方法 新薬の効果を分析
イベント:死亡、故障、解約、倒産、破壊など 分析例 新薬の効果を分析 機械システムや製品の故障 LTV(顧客収益価値)の分析 例:プリペイド携帯電話の顧客がいつ離れるか
8
例:新薬の効果を分析 6-MPという薬を投与した場合とそうでない場合の白血病患者の生存時間のグラフ 縦軸が生存率 横軸が時間
新薬を投与した方が生存確率が高い
9
例:プリペイド携帯電話の顧客がいつ離れるか
プリペイド携帯電話の解約と時間の関係 施策前と施策後の変化を比較する 施策後は生存確率が上がった (=解約率が減った) 引用:顧客収益価値の測定方法
10
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
11
用語説明 死亡 打ち切り 故障、破壊、倒産、死亡などのイベントの生起のことを 広義の死亡と呼ぶことにする
治療の中止や転院により試験・観察の途中で脱落する場合がある。このような場合を打ち切りが生じたという。 必ずしも最後まで観察データを取れるわけではない (・・あまり縁起のよくない用語が多い)
12
打ち切りを含むデータ 縦軸が被験者番号、横軸が生存時間を表す ×:死亡のケース
△:打ち切り1は研究の途中で何らかの理由で観察が継続できなかったケース ○:打ち切り2は研究終了まで生存していたケース
13
生存関数とハザード関数 生存関数S(t) ハザード関数 生存関数とハザード関数は、どちらか片方が分かればもう片方も分かる関係。
累積確率分布関数F(t)で表すと、イベントがある時点tまで生起していない生存関数S(t)は S(t) = Pr(T > t) = 1 - Pr(t ≦ T) = 1 – F(t) で表される。 ハザード関数 イベントがある時点tまでに生起していないという条件の下で、次の瞬間にイベントが生起する瞬間死亡率 危険度とも呼ばれている。 生存関数とハザード関数は、どちらか片方が分かればもう片方も分かる関係。 (数式の詳細はp185参照)
14
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
15
生存時間分析の分類 生存時間に影響を与える時間以外の共変量(複数の要因、説明変数)が によって次の3種類に分類できる
パラメータとして作成するモデルに導入されているか否か 生存時間の分布系に特定の確率分布を仮定するか否か によって次の3種類に分類できる
16
生存時間分析の分類 共変量の導入 分布の仮定 ノンパラメトリック モデル × セミノンパラメトリック ○ パラメトリック
17
補足:パラメトリックとノンパラメトリック
パラメトリックな手法 母集団の特性を規定する母数についてある仮説を設けるもので,平均値の差の検定(t 検定と略称されることが多い)や分散分析(F 検定と略称されることがある)などがこれに該当する。これらの検定手法では,母集団の正規性や等分散性が仮定される。 ノンパラメトリックな手法 母集団の分布型(母数)について一切の仮定を設けない。 このため,分布によらない手法 と呼ばれることもある。 特に,標本サイズが小さい場合には,それから求められた統計量の分布型は不正確なことが多く,パラメトリックな手法を適用することは不適切になりやすい。 しかし,ノンパラメトリックな手法は常に適用可能である。
18
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
19
ノンパラメトリックモデル 確率分布を仮定せずに生存時間を推定する方法 特徴 推定法 共変量を導入しない 分布の仮定をしない
経験分布による推定法 カプラン-マイヤー推定法が有名 ハザード関数による推定法 ネルソン-アーラン推定量 フレミング-ハリントン推定量
20
Rを使って生存解析 生存分析パッケージsurvivalを利用する データはMASSパッケージのgehanデータを用いる
白血病患者に対する薬の効果を調べるために被験者42名に対して行った臨床試験データ 解析にはSurv関数とsurvfit関数を用いる
21
gehanデータの中身 pair :投薬と比較対象のペア time:生存時間 cens:打ち切りか否か(1が打ち切り)
library(survival);library(MASS); data(gehan);dim(gehan); [1] 42 4 gehan[1:6,] pair time cens treat control MP control MP control MP pair :投薬と比較対象のペア time:生存時間 cens:打ち切りか否か(1が打ち切り) treat:6-PM(抑癌薬)の投与か否か
22
解析:Surv, survfit関数 Surv(time, event)
survfit(formula, data, type=“ “, …) formula : Survオブジェクト形式の目的変数と説明変数をセットする data : 解析対象のデータ type : 推定方法。デフォルトはカプラン-マイヤー推定法。他にフレミング-ハリントン推定法、fh2推定法がある メモ:Rからヘルプを出す場合はパッケージ名も指定する ?survival::Surv ?survival::survfit
23
解析結果 6-MPを投与したグループは生存期間の中央値が23と大幅に増えている records:対照郡, n.max:レコード数
ge.sf <- survfit(Surv(time,cens)~treat, data=gehan); ge.sf; Call: survfit(formula = Surv(time, cens) ~ treat, data =gehan) records n.max n.start events median 0.95LCL 0.95UCL treat=6-MP NA treat=control records:対照郡, n.max:レコード数 n.start:開始時の数, median:中央値 0.95LCL,0.95UCL : 95%信頼区間の上下限値 6-MPを投与したグループは生存期間の中央値が23と大幅に増えている
24
解析結果詳細 summary(ge.sf) treat=6-MP
time n.risk n.event survival std.err lower 95% CI upper 95% CI 6 7 項目左から 生存時間、リスクセット、イベントの数、推定された生存確率、 標準誤差、95%信頼区間の上下限値 時間が経つにつれ、推定された生存確率が下がっていく
25
解析結果をプロット plot(ge.sf) legend(locator(1), c("6-MP投与郡", "対照郡"), lty=c(1,2)); 図からも 6-PM投与郡のほうが 生存期間が長いことが わかる
26
投薬郡に対する90%信頼区間 信頼区間に納まっている ge2<-subset(gehan, treat=="6-MP");
ge2.s <- survfit(Surv(time, cens)~treat, conf.int=.9, data=ge2); plot(ge2.s, mark.t=F); legend(locator(1), lty=c(1,2), legend=c("生存曲線", "90%信頼区間")) 信頼区間に納まっている
27
信頼区間の推定法 servfit関数はconf.typeパラメータで信頼区間の推定法を変更することができる
種類は以下の通り plain log log-log conf.intパラメータで信頼区間を設定可能 デフォルトはconf.int=.95 (95%の信頼区間) コードはテキストp189参照
28
推定法の変更 servfit関数はconfパラメータで生存期間の推定法を変更することができる コードはテキストp189参照 種類は以下の通り
デフォルト(カプラン-マイヤー) fh (フレミング-ハリントン) fh2 コードはテキストp189参照
29
検定:servdiff関数 2郡以上の観測値が得られた場合、その優位性の検定が必要する場合がある survdiff(…)
引数rho=0でログ・ランク検定 (デフォルト) 引数rho=1でゲーハン-ウィルコソン検定
30
検定:servdiff関数 実行結果 survdiff(Surv(time)~treat, data=gehan) Call:
survdiff(formula = Surv(time) ~ treat, data = gehan) N Observed Expected (O-E)^2/E (O-E)^2/V treat=6-MP treat=control Chisq= 9 on 1 degrees of freedom, p= ログ・ランク検定のp値は約0.003なので、有意水準5%とすると 両群の生存曲線には優位な差が認められる。
31
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
32
セミノンパラメトリックモデル 共変量の導入 分布の仮定 ノンパラメトリック モデル × セミノンパラメトリック ○ パラメトリック
33
セミノンパラメトリックモデル 特徴 イベントに影響を及ぼす複数の因子(共変量)の影響を解析することを前提としたノンパラメトリックモデルのこと
共変量を導入する 分布の仮定をしない イベントに影響を及ぼす複数の因子(共変量)の影響を解析することを前提としたノンパラメトリックモデルのこと 共変量としては、年齢や血圧のような連続変数、性別や結婚の有無のようなカテゴリカル変数、これらの交差項などを含む変数ベクトル モデル コックス比例ハザードモデルが良く用いられる (数式はテキストp191)
34
コックス比例ハザードモデル パラメータの推定 Survivalパッケージには関数coxphがある 直接法
ブレスロー(Breslow)の近似法 エフロン(Efron)の近似法 イベントの数が増えると近似法のほうが計算が簡単であるが、同時に起こるイベントの数が多くなった場合妥当性を失うといわれている Survivalパッケージには関数coxphがある
35
推定:Coxph関数 coxph(formula, data, method, … ) formula:共変量など data:データ
method : 以下の3種類。デフォルトは’efron’ efron breslow exact
36
データ:kidney ポータブル透析装置の使用と腎臓患者の生存時間に関して、38ペア(使用と不使用)に対する実験データ parent: ID
time: 時間 status:打ち切りは0, その他は1 age: 年齢 sex: 男性=1, 女性=2 disease: 病気の種類 (GN, AN, PKD, Other) frail: オリジナル論文からのフレイルティの推定値
37
解析例:コックスハザードモデル 性別(sex)と病気の種類(disease)を説明変数とした解析例 data(kidney)
kidney.cox<-coxph( Surv(time, status)~sex+disease, data=kidney) summary(kidney.cox); Call: coxph(formula = Surv(time, status) ~ sex + disease, data = kidney) n= 76 coef exp(coef) se(coef) z Pr(>|z|) sex e-05 *** diseaseGN diseaseAN diseasePKD * --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
38
解析例:コックスハザードモデル 3種類の検定統計量を返す 尤度比の検定、ワルド検定、スコア検定
exp(coef) exp(-coef) lower .95 upper .95 sex diseaseGN diseaseAN diseasePKD Rsquare= (max possible= ) Likelihood ratio test= on 4 df, p= Wald test = on 4 df, p= Score (logrank) test = on 4 df, p= 3種類の検定統計量を返す 尤度比の検定、ワルド検定、スコア検定
39
生存時間の推定:survfit 構築したモデルによる生存時間の当てはめは、関数survfitを用いると便利
kidney.fit<-survfit(kidney.cox); summary(kidney.fit); Call: survfit(formula = kidney.cox) time n.risk n.event survival std.err lower 95% CI upper 95% CI ・・・
40
プロット plot(kidney.fit); survfitで推定された生存曲線および信頼区間 信頼区間内に納まっている
41
残差分析 打ち切りデータがあるため、残差分析が少々複雑になる 提案されている残差(カッコ内は指定パラメータ)
マルチンゲール残差 (デフォルト)良く使われている シェーンフィールド残差 (type=“schoen-feld”) スコア残差 (type=“score”) デヴィアンス残差 (type=“deviance”) 関数coxphのモデルの残差はresiduals.coxph(略してresiduals)関数で呼び出す パラメータtypeを変えることで残差の種類を切り替えられる
42
マルチンゲール残差プロット scatter.smooth(residuals(kidney.cox));
abline(h=0,lty=3,col=2); 1が上限で下限値は無し 明らかに変化パターンがなければOK これを標準化したのが次のデヴィアンス残差
43
デヴィアンス残差プロット scatter.smooth(residuals(kidney.cox, type="deviance"));
abline(h=0,lty=3,col=2); 標準化されている
44
ハザードの比例性の分析 コックス比例ハザードモデルは、ハザード比が時間によらず一定であることを前提としているため、その仮定を吟味する必要がある。 関数cox.zphを用いる デフォルトはKaplan-Meier推定量
45
比例性の分析:cox.zph kidney.zph<- cox.zph(kidney.cox); kidney.zph
rho chisq p sex diseaseGN diseaseAN diseasePKD GLOBAL NA
46
比例性の診断プロット スプライン平滑化曲線に、時間に伴う明らかな変化パターンが無ければ比例ハザードの仮定には問題がないといわれている。
op<- par(mfrow=c(2,2), mar=c(4.5,4,1,1)); plot(kidney.zph,df=2); par(op); スプライン平滑化曲線に、時間に伴う明らかな変化パターンが無ければ比例ハザードの仮定には問題がないといわれている。
47
交互作用と変数の選択 コックス比例ハザードモデルの場合でも、説明変数の交互作用を取りれたも出るの構築ガ可能。 詳細はテキスト参照。
48
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
49
パラメトリックモデル 共変量の導入 分布の仮定 ノンパラメトリック モデル × セミノンパラメトリック ○ パラメトリック
50
パラメトリックモデル 特徴 生存時間が確率分布に従うという仮定の下で構築したモデル
共変量を導入する 分布の仮定をする コックス比例ハザードモデルに比べると計算速度が速い ただし、制約のため応用範囲が限定される 生存時間が確率分布に従うという仮定の下で構築したモデル survreg(formula=formula(data), dist=“weibull”, …) 分布 指数分布 (dist=exponential) ワイブル (dist=デフォルト) 対数正規 (dist=log-normal) ロジスティック (dist=logistic) 対数ロジスティック (dist=log-logistic) (数式はテキストp198参照)
51
解析:survreg関数 survreg(Surv(time, status)~ sex+disease, kidney, dist="lognormal"); Call: survreg(formula = Surv(time, status) ~ sex + disease, data = kidney, dist = "lognormal") Coefficients: (Intercept) sex diseaseGN diseaseAN diseasePKD Scale= Loglik(model)= Loglik(intercept only)= -340 Chisq= 21.8 on 4 degrees of freedom, p= n= 76
52
自己紹介 テキスト紹介 本スライドの目的 基本概念 用語説明 生存時間分析の分類 まとめ ノンパラメトリックモデル
セミノンパラメトリックモデル パラメトリックモデル まとめ
53
まとめ 生存分析はイベントが起きるまでの時間を分析する手法 打ち切りが発生する 大きく3種類のモデルがある。
ノンパラメトリックモデル セミノンパラメトリックモデル パラメトリックモデル Rではそれぞれに対応した関数とデータが用意されている
54
ご清聴ありがとうございました。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.