Presentation is loading. Please wait.

Presentation is loading. Please wait.

Nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定

Similar presentations


Presentation on theme: "Nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定"— Presentation transcript:

1 Nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定
口羽 文1,2 吉村 健一1,2,3 東京大学大学院医学系研究科疫学・予防保健学1 国立がんセンターがん予防・検診研究センター情報研究部2 日本臨床腫瘍研究グループ(JCOG)データセンター3

2 疫学研究(非介入研究)のデザイン コホート研究デザイン ケース・コントロール研究デザイン 研究ベース(コホート) ケース コントロール 時間
疫学研究のデザインは大きく分けてコホート研究デザインとケース・コントロール研究デザインの2つに分けられます。 仮想的に10人からなるコホートを考え、簡単のため、追跡開始時点がすべての対象者で同じである、 閉じたコホートを想定します。 コホート研究デザインではまず研究ベース、つまりコホートを設定します。 研究開始時点において、コホート内の全対象者の曝露を測定し、追跡します。 ベースラインで測定した曝露状況による疾患の発症率を比較する、というデザインです。 このデザインでは、曝露の測定から前向きに疾患の発症を捉えることができるという利点を持つ一方で、 コホート内の全員を追跡する必要があることにより時間・費用がかかることが欠点となります。 次にケース・コントロール研究デザインを説明します。 研究開始時点で、すでに疾患を発症している対象者をケース、発症していない対象者をコントロールとしてサンプリングします。 このサンプリングされたケース、コントロールの曝露状況を調査し、ケース群とコントロール群の曝露状況を比較するデザインです。 曝露状況に対する思い出しバイアスやコントロールの選択に伴う選択バイアスなどのさまざまなバイアスが生じやすいことが問題とされますが、 時間・コストがかからないという利点があります。 コントロール 時間 :イベント :打ち切り 研究開始 研究開始

3 疫学研究デザインの分類 コホート研究 ケース・コントロール研究 前向き 一般的なコホート研究 ・Nested ケース・コントロール研究
・ケース・コホート研究 後向き ・がん患者に対する 新たな予後因子の検討 ・希少疾患に対する 全例調査 一般的なケース・コントロール研究 疫学研究のデザインを前向きか後向きかという点から分類してみます。 ここで、前向き・後向きとは曝露の測定とケースの同定の時間の方向性を示し、  前向き:曝露の測定→疾患の同定  後向き:疾患の同定→曝露の測定 となります。 一般的なコホート研究とはこの前向きのコホート研究にあたります。それに対して、薬剤安全性に関する全例調査や がん患者に対する新たな予後因子の検討は後向きのコホート研究にあたります。 ケース・コントロール研究に関してですが、 一般的に行われているケース・コントロール研究とは後向きのケース・コントロール研究にあたります。それに対して、 コホート内ケース・コントロール研究といわれるデザインが前向きのケース・コントロール研究にあたり、 代表的なものがnestedケース・コントロール研究やケース・コホート研究です。 今回の発表では、このnestedケース・コントロール研究に焦点をあてます。

4 Nested ケース・コントロール研究 各リスク集団からサンプリング ケース 発症時点でのリスク集団 時間
ID 1 ケース  発症時点でのリスク集団 2 3 4 5 :イベント :打ち切り 6 7 8 9 10 時間 Nestedケース・コントロール研究の説明をします。 Nested ケース・コントロール研究を行うには、コホート内の各対象者のイベント発症あるいは観察打ち切り時点がわかっていることが必要となります。 (つまり今のスライドの状況) そしてこのコホートからのサンプリングに基づいて推論を行うデザインです。 ここでは、各ケースに対して1人のコントロールを選択することを考えます。 まず、オレンジ色のID=1のケースに注目してください。このID1発症時点でのリスク集団は点線で囲まれた10人となります。 発症していないID2-10までがコントロールの候補となり、この中から1人ランダムにサンプリングします。 ここではID7がmatchedコントロールとなります。 同様に次に発症したID2に注目しますと、このときのリスク集団は点線で囲まれたID2-10となり、 ここからサンプリングし、ID4がmatchedコントロールとなりました。 コントロールのサンプリングはイベント発症時点でのリスク集団から行うため、 ID4のようにこれより後の時点でイベントを発症する対象者や、前の時点ですでにコントロールとして選択されている対象者も 候補となります。 続いて、ID3、ID4に対してもコントロールがサンプリングされます。 このようなサンプリングは各リスク集団からサンプリングを行っていることよりrisk set sampling、あるいはここでは 語弊があるので良い表現ではありませんが一般的にdesnsity samplingとも呼ばれてます。 1:1-matchedコントロール  各リスク集団からサンプリング Risk set sampling Density sampling

5 利点 サンプリングにより曝露測定にかかるコストの削減 Risk set サンプリングをしていることから ハザード比を推定可能
Ex. 遺伝子多型(SNP)と疾患発症の関連を評価 全対象者の血液サンプルを収集した前向きコホート研究 SNPタイピング(曝露の測定)は高コスト ゲノムワイドのタイピング:約15万円/1人 1,000人測定すると 1億5000万円 10,000人       15億円 Nestedケース・コントロール研究ではサンプリング集団のみの測定 100ケース:100コントロール測定しても 3,000万円 Risk set サンプリングをしていることから ハザード比を推定可能 Nestedケース・コントロール研究の利点は、サンプリングすることにより曝露の測定にかかるコストを削減できることです。 たとえば、遺伝疫学の分野では、遺伝子多型(SNP)と疾患発症との関連を評価する研究が行われます。 ケース・コントロール研究デザインを用いて行われることが多かったのですが、 近年では何千人、何万人を対象とした大規模コホート研究でもベースラインで血液サンプルが収集されるようになってきました。 SNPのタイピング、つまり曝露の測定に当たりますが、にはかなりの費用がかかります。たとえば、今、 急速に発展しつつある、全ゲノム上を網羅するゲノムワイドなタイピングには一人あたり約15万円の費用がかかります。 通常のコホート研究では全対象者に対してタイピングを行わなければならず、1,000人のコホートでも1.5億、10,000人のコホートだと15億円の 費用がかかることになります。 一方、Nestedケース・コントロール研究では、サンプリングされた集団のみの測定を行うのでその分費用がかからなくなります。 コホート内で100人が罹患したとし、1:1マッチングを行ったとすれば、3000万円にまでコストを削減することができます。 また、risk set サンプリングをしていることからハザード比を推定するとこが可能となります。

6 コホート研究におけるハザード比の推定 比例ハザードモデル 各ケースの尤度への寄与 ハザード比(HR) ケース 発症時点でのリスク集団 時間
ケース  発症時点でのリスク集団 時間 ハザード比の推定ですが、よく用いられる比例ハザードモデルとは、 対象者iのハザードをベースラインハザードと曝露の関数で表すものです。 Exp()がハザード比となります。 そして、 このパラメータβの推定にあたり、各ケースの尤度への寄与は、 分子がケースのハザード比、分母はリスク集団の和をとったものとなります。 つまり、コホート研究では、たとえばオレンジのケース発症時点でのリスク集団に含まれる全対象者8人について和をとることになります。

7 Nestedケース・コントロール研究におけるハザード比の推定
Thomas推定量 イベント発症時点での1:mマッチングデザイン 各ケースの尤度への寄与 時間依存性共変量へも容易に対応 情報の損失 “マッチングされたコントロール”のみの情報を使用 曝露の分布に依存して大きく効率低下する可能性 曝露情報が一致するmatchedペアは情報なし Nestedケース・コントロール研究におけるハザード比の推定では、 Thomas推定量といわれる推定量が一般的に良く用いられています。 nestedケース・コントロール研究はイベント発症時点で1ケースに対してm人のコントロールをmatcedサンプルするマッチングデザインと 考えられ、そのサンプリング集団を利用し、各ケースの尤度への寄与はこのようになります。 前のスライドで示したコホート研究のものとの違いは、分子が分母のケースに対してサンプリングされたリスク集団の和であることです。 この推定量は時間依存性共変量へも容易に対応できるという利点がありますが、一方、 情報の損失が考えられます。これはマッチングされたコントロールのみの情報をすることによるものです。 また、曝露の分布に依存して 効率が大きく低下する可能性があります。特に1:1マッチングを考えると、曝露情報が一致するmatchedペアは情報がないということになってしまいます。

8 Samuelsenの提案 コホート研究として考える サンプリング確率の逆数による重み付き推定量
サンプリングされなかった対象者の共変量の欠測(missing covariate)の問題 サンプリング確率の逆数による重み付き推定量 ID 1 2 3 共変量の欠測 4 5 それに対して、Samuelsenは、nestedケース・コントロール研究をあくまでコホート研究と考え、nestedケース・コントロール研究の対象者として サンプリングされなかった対象者は共変量が欠測である、つまりmissing covariateの問題と考えました。 つまり、このコホートにおいては、イベント発症した星とコントロールとして選択された黄色の対象者がnestedケース・コントロールの対象者となり、 曝露が測定されますが、 発症も起こさず、また、コントロールとしてもサンプリングされていないID5,8,9は曝露の測定が行われませんので、欠測となるということです。 そこで、Samuelsenはnestedケース・コントロール研究の各対象者をサンプリングされる確率の逆数で重み付けすることによる重み付け推定量を求めること を提案しました。 6 7 8 9 10 時間

9 Samuelsen推定量 各ケースの尤度への寄与 “サンプリング時点でのケース”以外のケースに対してもコントロールとして再利用
曝露情報が一致するmatchedペアの情報も利用 Thomas推定量より効率が良くなる 重み付き推定を行う場合の、ケースの尤度への寄与は分母がサンプリングされた全リスク集団の対象者に重みであるサンプリング確率の逆数をかけたものの和となります。 このサンプリング確率については後ほど説明します。 重みをつけることによる擬似集団に基づく推定を行うことにより、サンプリングされたコントロールは“サンプリング時点でのケース”以外のケースに対しても再利用されることとなり、 曝露情報が一致するmatchedペアの情報も無駄にはならず、また、 Thomas推定量より効率が良くなることが示されています。

10 各対象者のサンプリング確率 ケースは強制的に全員がサンプリング nested ケース・コントロール研究の対象者として サンプリングされる確率
ここで各対象者のサンプリング確率について考えます。 nestedケース・コントロール研究ではケースは強制的に全員が対象となるため、 サンプリング確率は1となります。 問題はコントロールのサンプリング確率となりますが、打ち切りの対象者は、 ある確率p0jでコントロールとしてサンプリングされることとなります。 次のスライドでコントロールのサンプリング確率について説明します。

11 各コントロールのサンプリング確率 カプラン・マイヤー推定量 より複雑なサンプリングでもデザイン通りに対応可能
ID (1-1/9)(1-1/8)(1-1/7) (1-1/9)(1-1/8) 1-1/9 1 2 3 4 5 6 7 8 9 10 時間 T (1-1/9)(1-1/8)(1-1/7)(1-1/6) オレンジになっているID7に注目してください。 また、各イベント時点でのコントロールのサンプリングは独立です。 このコホートでの初めのイベントであるID1に対して、コントロールの候補はID2-ID10の9人います。 よって、ID7がコントロールとしてサンプリングされる確率は1/9となり、1から引くことでこの時点でコントロールとして サンプリングされない確率が得られます。 次のイベントID2となりますが、コントロールの候補は8人ですので、先ほどと同様にコントロールとしてサンプリングされる確率が 1/8、1-1/8でこの時点でコントロールとしてサンプリングされない確率が得られます。 そして、前の時点でのコントロールとして選択されない確率と掛け合わせることで、この時点までサンプリングされない確率を得ることができます。 ID7の観察期間中のすべてのイベント時点において同様に計算していきます。 で、これ以降はイベントが起きていませんので、ID7がコントロールとしてサンプリングされない確率はこのようになります。 この確率を1から引くことによって、 ID7がどこかの時点でコントロールとしてサンプリングされる確率と得ることができます。 つまり、対象者jがコントロールとしてサンプリングされる確率p0jはこのように1から、各イベント時点のサンプリングされない確率を掛け合わせたものを 引くことで得られます。 また、この推定量p0jは イベントをコントロールとしてサンプリングされること 打ち切りを興味のあるイベント発症あるいは観察打ち切りとしたカプラン・マイヤー推定量であると見ることができます。 さらにより複雑なサンプリングをしていたとしてもデザインの通りに対応することができます。 カプラン・マイヤー推定量 イベント:コントロールとしてサンプリングされること 打ち切り:興味のあるイベント発症あるいは観察打ち切り より複雑なサンプリングでもデザイン通りに対応可能

12 疫学研究デザインの分類 コホート研究 ケース・コントロール研究 前向き 一般的なコホート研究 ・Nested ケース・コントロール研究
・ケース・コホート研究 後向き ・がん患者に対する 新たな予後因子の検討 ・ 希少疾患に対する 全例調査 一般的なケース・コントロール研究 この考えからというのは、同じ前向きのケース・コントロール研究である Case-cohort 研究においてすでに提案されていました。(1986年 Prenticeより提案) Samuelsenはこの方法をnestedケース・コントロール研究の枠組みへ拡張したといえます。

13 ケース・コホート研究 サンプリングされなかった対象の 共変量の欠測(missing covariate)の問題
ID 1 2 3 共変量の欠測 4 5 6 :イベント :打ち切り 7 8 9 10 時間 コントロール(サブコホート) :研究開始時点のリスク集団からのサンプル 簡単にケース・コホート研究を説明します。 ここでは、ベースライン時点でコントロール集団をサンプリングします。 このサンプリングされた集団はサブコホートといわれます。 このデザインでもケースは全ケースが用いられますが、 発症もせず、またサブコホートにもサンプリングされなかった対象者、ここでいうとID=6,9,10の共変量の欠測の問題と考え、 このサブコホートにサンプリングされる確率で調整した擬似尤度に基づいてハザード比を推定することが提案されていました。 サンプリング確率におけるNestedケース・コントロール研究との違いは、 ケース・コホートではベースライン時点でのサンプリング確率はどの対象者でも等しいのに対して、 nestedケース・コントロール研究では対象者によって異なることです。 サンプリングされなかった対象の 共変量の欠測(missing covariate)の問題 サブコホート(あるいはケース)にサンプリングされる確率で調整した擬似尤度に基づくハザード比の推定

14 Samuelsenマクロの作成 Thomas推定量 Samuelsen推定量 比例ハザード性を仮定した下
SAS/STAT PHREGプロシジャ STRATAステートメント Samuelsen推定量 SASではプロシジャレベルで現在未提供 比例ハザード性を仮定した下 Nested ケース・コントロール研究において Samuelsen推定量を得るためのマクロを作成 Thomas推定量と効率の比較 時点をマッチング変数と考えるThomas推定量はSAS/STAT PHREGプロシジャでSTRATAステートメントを用いることで推定可能であるのに対して、 Samuelsen推定量はプロシジャレベルではまだ提供されていません。 そこで、 比例ハザード性を仮定した下、 Nestedケース・コントロール研究においてSamuelsen推定量を得るためにマクロを作成しました。 また、Thomas推定量と効率を比較し、確認しました。

15 SAS 9 によるSamuelsen推定 各対象者のサンプリング確率(pj )を推定
DATAステップによりpjのカプラン・マイヤー推定量を算出 SAS/STAT PHREGプロシジャの WEIGHTステートメントで1/pj を指定 重みを推定しているためCOVSオプションよりロバスト分散 マクロの中身ですが、 SAS9によりSamuelsen推定量するためには、まずdataステップにて各対象者のサンプリング確率を求めます。 このp0jが求まれば、SAS/STAT PHREGプロシジャのWEIGHTステートメントで1/pj を指定することによりSamuelsen推定量を得ることができます。 WEIGHTステートメントはver9から加わったステートメントです。 また、重みにあたるp0jは推定しているためcovsオプションによりロバスト分散を用いることとしました。

16 プログラム %MACRO Samuelsen( data=_last_, time=, censor=, c_values=,
match=, x= ) ;  /* 解析データセット名 */ /* 生存時間を示す変数名 */ /* 打ち切りを示す変数名 */ /* “打ち切り”を表す値 */ /* matching人数を示す変数名 */ /* 曝露変数名 */ 作成したプログラムの使用法です。これらの変数を指定することが必要となります。 Data=には_LAST_と入っていますが、これを解析用のデータセット名に変えてください。_LAST_のままですと、 最後に作成されたデータセットが自動的に使われることになります。 また、このデータセットにはコホートのデータ、つまり研究ベースのすべての対象者の 情報が入っていることが必要となります。 Time=には、生存時間を示す変数名、censor=には打ち切りを示す変数名を指定してください。 c_values=にはcensorで指定した打ち切り変数のうち“打ち切り”を表す値を入れてください。 たとえば、イベント=1、観察打ち切りが0で入力されている場合にはc_valuesに0を入れることになります。 Match=ですが、Samuelsen推定量を得るにあたって、各ケースに何人のコントロールがマッチされたか、という情報が 必要となりますので、それに対応する変数を作成し、変数名を入れてください。 ケースによってmatchされた人数が異なっても大丈夫です。 最後にxですが、興味のある1つの曝露変数名を指定してください。

17 解析データセット:SURV ・・・ 仮想的な35人からなるコホートのデータSURVの一部 ID TIME CENSOR EXP MATCH
1 4.79 . 2 5.25 3 3.47 4 3.94 5 4.48 解析用データセットの例を示します。 これは仮想的な35人からなるコホートのデータSURVというデータセットの例ですが、Samuelsenマクロを使用するためにはこのように入力されているデータセットが必要となります。 このSURVデータを解析したいとするとます、Samuelsenマクロのdata=にSURVと入力します。 このデータセットのIDというのは対象者IDのことですが、この変数は特に指定する必要がないので何でもかまいません。 TIMEがイベントあるいは打ち切りまでの時間を表す変数でこの変数名TIMEをtime=のところに指定します。この変数はもちろん負の値ではないことが必要です。 次の、CENSOR変数が打ち切り変数で0が打ち切り、1がイベント発症を示しています。よって、 Censor=にCENSORを指定し、また、c_values=に0を入力します。次のEXPは興味のある曝露変数ですので、x=にEXPを指定します。ここで重要なのは、 Nestedケース・コントロールの対象者ではない人はもちろん曝露の情報は取られていませんが、欠測「ピリオド」で入力されていることが必要となります。 最後にMATCHですが、これは各イベント対象者に何人のコントロールをマッチしたかを示すものです。ここでは、ID2には1人、ID3には2人がマッチされたということを示します。 このMATCH変数をmatch=に指定します。また、このマクロに必要な4つの変数は数値変数であることが必要です。 ・・・ %MACROSamuelsen(data=SURV,time=TIME,censor=CENSOR,   c_values=0, match=MATCH, x=EXP);

18 SASアウトプット例   Samuelsen estimator PHREG プロシジャ モデルの詳細 データセット WORK.SURV 従属変数 TIME 打ち切り変数 censor 打ち切り値の数 Weight Variable w タイデータの処理 EFRON Number of Observations Read Number of Observations Used 収束状態 収束基準 (GCONV=1E-8) は満たされました。 モデルの適合度統計量 共変量 共変量 基準 なし あり -2 LOG L AIC SBC 実行させた結果です。通常のPHREGプロシジャとほぼ同様のアウトプットとなります。 上から見ていただくとこんな感じですが、このnumber of observaionsに示されている人数は コホートの人数ではなく、Nestedケース・コントロール研究の対象者の人数になっています。

19 SASアウトプット例:続き グローバルな帰無仮説 H0: BETA=0 検定 カイ 2 乗 自由度 Pr > ChiSq
尤度比 Score (Model-Based) Score (Sandwich) Wald (Model-Based) Wald (Sandwich) 最尤推定量の分析 パラメータ 標準 標準誤差 ハザード 95% ハザード比信頼 変数 自由度 推定 誤差 比 カイ 2 乗 Pr > ChiSq 比 限界 EXP 続きですが、 最尤推定量の分析のところで興味のある変数であったEXPに関する各推定値が提示されています。

20 シミュレーションによる確認 Samuelsen推定量とThomas推定量それぞれについて 繰り返し数10,000回
推定されたハザード比[HR=exp()]の平均 推定値の分散の平均 ハザード比の平均95%信頼区間全幅 95%信頼区間の被覆確率 繰り返し数10,000回 シミュレーションにより確認した結果です。 Samuelsen推定量、Thomas推定量それぞれについて 推定されたハザード比の平均、推定値βの分散の平均、ハザード比の95%信頼区間の幅、95%信頼区間の被服確率 を10,000回のシミュレーションにより推定しました。

21 シナリオ設定 コホートサイズ n =1,000 ケース:matchedコントロール=1:1 1つの曝露変数
2値(曝露あり or なし) 曝露割合:0.3, 0.5 打ち切りとは独立 帰無仮説の下でのイベント期待発症割合:10% ハザード比:1(帰無仮説), 2, 3 シミュレーションのシナリオ設定ですが、 コホートは1,000人からなるとし、1ケースに対してmatchされるコントロールは1人としました。 1つの曝露変数を考え、 暴露の有無の2値とし、曝露割合は0.3、0.5、また、暴露は打ち切りとは独立であるとしました。 帰無仮説の下でのイベントの期待発症割合を10%とし、 ハザード比は帰無仮説の下での1、さらに2,3について行いました。

22 結果:曝露割合30% Samuelson推定量はThomas推定量よりも効率に優れる Samuelsen 1.00 0.089 1.29
真のHR=1 HR の分散 HRの95%CI全幅 95%CIの被覆確率 Samuelsen 1.00 0.089 1.29 0.944 Thomas 0.100 1.39 0.951 真のHR=2 HR の分散 HRの95%CI全幅 95%CIの被覆確率 Samuelsen 2.03 0.063 2.15 0.946 Thomas 2.04 0.079 2.51 0.952 曝露割合が30%のときに結果です。 真のハザード比が1のときですが、 ハザード比の推定はどちらもほぼ1、また、推定値の分散は確かにSamuelsenのほうが小さくなることが確認できました。 それに伴い、信頼区間幅も狭くなっています。 また、被覆確率はどちらもほぼ95%といえます。 ごらんのとおり、真のハザード比2でも同様の結果でした。 ここではお示ししていませんが、 ハザード比3のとき、また、曝露割合が50%のときも同様の結果となりました。 シミュレーション回数:10,000回 Samuelson推定量はThomas推定量よりも効率に優れる

23 相対効率 (Samuelsen分散)/(Thomas分散)
シミュレーション回数:10,000回 Samuelson推定量はThomas推定量よりも効率に優れる

24 まとめ Samuelsen推定量を得るためのマクロを作成 今回検討した状況においては Thomas推定量より常に効率が良くなることを確認
プログラムと本発表資料は一般公開予定 日本臨床腫瘍研究グループ(JCOG)公式HP まとめます。 Samuelsen推定量を得るためのマクロを作成しました。 また、今回検討した状況においては Samuelsen推定量より常に効率が良くなることを確認しました。 今回作成したプログラムと本発表資料はJCOG公式ホームページ上で近々公開予定です。 おそくても9月までには公開します。


Download ppt "Nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定"

Similar presentations


Ads by Google