Nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定

Slides:



Advertisements
Similar presentations
統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之. カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
Advertisements

東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 二項分布 Lesson 9.頻度と分布 §B. 二項分布 S.Harano,MD,PhD,MPH.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
【MedR】第12回 東京大学医学系研究科 特任助教 倉橋一成.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
実証分析の手順 経済データ解析 2011年度.
Pattern Recognition and Machine Learning 1.5 決定理論
疫学概論 現代生命表 Lesson 7. 生命表 §B. 現代生命表 S.Harano,MD,PhD,MPH.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
アルゴリズムイントロダクション第5章( ) 確率論的解析
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
第2章補足Ⅱ 2項分布と正規分布についての補足
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
Study Design and Statistical Analysis
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
疫学(Epidemiology) 第3回 疫学研究のデザイン 中澤 港(内線1453)
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
補章 時系列モデル入門 ー 計量経済学 ー.
疫学概論 横断研究 Lesson 11. 記述疫学 §A. 横断研究 S.Harano,MD,PhD,MPH.
小標本検査データを元にした 疲労破損率のベイズ推定
第6章 連立方程式モデル ー 計量経済学 ー.
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
疫学概論 交絡 Lesson 17. バイアスと交絡 §A. 交絡 S.Harano, MD,PhD,MPH.
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
食中毒と疫学調査の統計 ~2×2表~ 岡山理科大学 山本英二 2002/02/20.
訓練データとテストデータが 異なる分布に従う場合の学習
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
疫学概論 疾病の自然史と予後の測定 Lesson 6. 疾病の自然史と 予後の測定 S.Harano,MD,PhD,MPH.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
母分散の信頼区間 F分布 母分散の比の信頼区間
疫学概論 情報の要約 Lesson 3. 情報の要約 (率、比、割合) S.Harano,MD,PhD,MPH.
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
尤度の比較と仮説検定とを比較する ~P値のことなど~
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
設計情報の再利用を目的とした UML図の自動推薦ツール
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
疫学概論 方法論的問題点(患者対照研究) Lesson 13. 患者対照研究 §B. 方法論的問題点 S.Harano,MD,PhD,MPH.
「カテゴリ変数2つの解析」 中澤 港 統計学第7回 「カテゴリ変数2つの解析」 中澤 港
疫学概論 横断研究 Lesson 11. 記述疫学 §A. 横断研究 S.Harano,MD,PhD,MPH.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Nestedケース・コントロールデザインにおける擬似尤度によるパラメータ推定 口羽 文1,2 吉村 健一1,2,3 東京大学大学院医学系研究科疫学・予防保健学1 国立がんセンターがん予防・検診研究センター情報研究部2 日本臨床腫瘍研究グループ(JCOG)データセンター3

疫学研究(非介入研究)のデザイン コホート研究デザイン ケース・コントロール研究デザイン 研究ベース(コホート) ケース コントロール 時間 疫学研究のデザインは大きく分けてコホート研究デザインとケース・コントロール研究デザインの2つに分けられます。 仮想的に10人からなるコホートを考え、簡単のため、追跡開始時点がすべての対象者で同じである、 閉じたコホートを想定します。 コホート研究デザインではまず研究ベース、つまりコホートを設定します。 研究開始時点において、コホート内の全対象者の曝露を測定し、追跡します。 ベースラインで測定した曝露状況による疾患の発症率を比較する、というデザインです。 このデザインでは、曝露の測定から前向きに疾患の発症を捉えることができるという利点を持つ一方で、 コホート内の全員を追跡する必要があることにより時間・費用がかかることが欠点となります。 次にケース・コントロール研究デザインを説明します。 研究開始時点で、すでに疾患を発症している対象者をケース、発症していない対象者をコントロールとしてサンプリングします。 このサンプリングされたケース、コントロールの曝露状況を調査し、ケース群とコントロール群の曝露状況を比較するデザインです。 曝露状況に対する思い出しバイアスやコントロールの選択に伴う選択バイアスなどのさまざまなバイアスが生じやすいことが問題とされますが、 時間・コストがかからないという利点があります。 コントロール 時間 :イベント :打ち切り 研究開始 研究開始

疫学研究デザインの分類 コホート研究 ケース・コントロール研究 前向き 一般的なコホート研究 ・Nested ケース・コントロール研究 ・ケース・コホート研究 後向き ・がん患者に対する 新たな予後因子の検討 ・希少疾患に対する 全例調査 一般的なケース・コントロール研究 疫学研究のデザインを前向きか後向きかという点から分類してみます。 ここで、前向き・後向きとは曝露の測定とケースの同定の時間の方向性を示し、  前向き:曝露の測定→疾患の同定  後向き:疾患の同定→曝露の測定 となります。 一般的なコホート研究とはこの前向きのコホート研究にあたります。それに対して、薬剤安全性に関する全例調査や がん患者に対する新たな予後因子の検討は後向きのコホート研究にあたります。 ケース・コントロール研究に関してですが、 一般的に行われているケース・コントロール研究とは後向きのケース・コントロール研究にあたります。それに対して、 コホート内ケース・コントロール研究といわれるデザインが前向きのケース・コントロール研究にあたり、 代表的なものがnestedケース・コントロール研究やケース・コホート研究です。 今回の発表では、このnestedケース・コントロール研究に焦点をあてます。

Nested ケース・コントロール研究 各リスク集団からサンプリング ケース 発症時点でのリスク集団 時間 ID 1 ケース  発症時点でのリスク集団 2 3 4 5 :イベント :打ち切り 6 7 8 9 10 時間 Nestedケース・コントロール研究の説明をします。 Nested ケース・コントロール研究を行うには、コホート内の各対象者のイベント発症あるいは観察打ち切り時点がわかっていることが必要となります。 (つまり今のスライドの状況) そしてこのコホートからのサンプリングに基づいて推論を行うデザインです。 ここでは、各ケースに対して1人のコントロールを選択することを考えます。 まず、オレンジ色のID=1のケースに注目してください。このID1発症時点でのリスク集団は点線で囲まれた10人となります。 発症していないID2-10までがコントロールの候補となり、この中から1人ランダムにサンプリングします。 ここではID7がmatchedコントロールとなります。 同様に次に発症したID2に注目しますと、このときのリスク集団は点線で囲まれたID2-10となり、 ここからサンプリングし、ID4がmatchedコントロールとなりました。 コントロールのサンプリングはイベント発症時点でのリスク集団から行うため、 ID4のようにこれより後の時点でイベントを発症する対象者や、前の時点ですでにコントロールとして選択されている対象者も 候補となります。 続いて、ID3、ID4に対してもコントロールがサンプリングされます。 このようなサンプリングは各リスク集団からサンプリングを行っていることよりrisk set sampling、あるいはここでは 語弊があるので良い表現ではありませんが一般的にdesnsity samplingとも呼ばれてます。 1:1-matchedコントロール  各リスク集団からサンプリング Risk set sampling Density sampling

利点 サンプリングにより曝露測定にかかるコストの削減 Risk set サンプリングをしていることから ハザード比を推定可能 Ex. 遺伝子多型(SNP)と疾患発症の関連を評価 全対象者の血液サンプルを収集した前向きコホート研究 SNPタイピング(曝露の測定)は高コスト ゲノムワイドのタイピング:約15万円/1人 1,000人測定すると 1億5000万円 10,000人       15億円 Nestedケース・コントロール研究ではサンプリング集団のみの測定 100ケース:100コントロール測定しても 3,000万円 Risk set サンプリングをしていることから ハザード比を推定可能 Nestedケース・コントロール研究の利点は、サンプリングすることにより曝露の測定にかかるコストを削減できることです。 たとえば、遺伝疫学の分野では、遺伝子多型(SNP)と疾患発症との関連を評価する研究が行われます。 ケース・コントロール研究デザインを用いて行われることが多かったのですが、 近年では何千人、何万人を対象とした大規模コホート研究でもベースラインで血液サンプルが収集されるようになってきました。 SNPのタイピング、つまり曝露の測定に当たりますが、にはかなりの費用がかかります。たとえば、今、 急速に発展しつつある、全ゲノム上を網羅するゲノムワイドなタイピングには一人あたり約15万円の費用がかかります。 通常のコホート研究では全対象者に対してタイピングを行わなければならず、1,000人のコホートでも1.5億、10,000人のコホートだと15億円の 費用がかかることになります。 一方、Nestedケース・コントロール研究では、サンプリングされた集団のみの測定を行うのでその分費用がかからなくなります。 コホート内で100人が罹患したとし、1:1マッチングを行ったとすれば、3000万円にまでコストを削減することができます。 また、risk set サンプリングをしていることからハザード比を推定するとこが可能となります。

コホート研究におけるハザード比の推定 比例ハザードモデル 各ケースの尤度への寄与 ハザード比(HR) ケース 発症時点でのリスク集団 時間 ケース  発症時点でのリスク集団 時間 ハザード比の推定ですが、よく用いられる比例ハザードモデルとは、 対象者iのハザードをベースラインハザードと曝露の関数で表すものです。 Exp()がハザード比となります。 そして、 このパラメータβの推定にあたり、各ケースの尤度への寄与は、 分子がケースのハザード比、分母はリスク集団の和をとったものとなります。 つまり、コホート研究では、たとえばオレンジのケース発症時点でのリスク集団に含まれる全対象者8人について和をとることになります。

Nestedケース・コントロール研究におけるハザード比の推定 Thomas推定量 イベント発症時点での1:mマッチングデザイン 各ケースの尤度への寄与 時間依存性共変量へも容易に対応 情報の損失 “マッチングされたコントロール”のみの情報を使用 曝露の分布に依存して大きく効率低下する可能性 曝露情報が一致するmatchedペアは情報なし Nestedケース・コントロール研究におけるハザード比の推定では、 Thomas推定量といわれる推定量が一般的に良く用いられています。 nestedケース・コントロール研究はイベント発症時点で1ケースに対してm人のコントロールをmatcedサンプルするマッチングデザインと 考えられ、そのサンプリング集団を利用し、各ケースの尤度への寄与はこのようになります。 前のスライドで示したコホート研究のものとの違いは、分子が分母のケースに対してサンプリングされたリスク集団の和であることです。 この推定量は時間依存性共変量へも容易に対応できるという利点がありますが、一方、 情報の損失が考えられます。これはマッチングされたコントロールのみの情報をすることによるものです。 また、曝露の分布に依存して 効率が大きく低下する可能性があります。特に1:1マッチングを考えると、曝露情報が一致するmatchedペアは情報がないということになってしまいます。

Samuelsenの提案 コホート研究として考える サンプリング確率の逆数による重み付き推定量 サンプリングされなかった対象者の共変量の欠測(missing covariate)の問題 サンプリング確率の逆数による重み付き推定量 ID 1 2 3 共変量の欠測 4 5 それに対して、Samuelsenは、nestedケース・コントロール研究をあくまでコホート研究と考え、nestedケース・コントロール研究の対象者として サンプリングされなかった対象者は共変量が欠測である、つまりmissing covariateの問題と考えました。 つまり、このコホートにおいては、イベント発症した星とコントロールとして選択された黄色の対象者がnestedケース・コントロールの対象者となり、 曝露が測定されますが、 発症も起こさず、また、コントロールとしてもサンプリングされていないID5,8,9は曝露の測定が行われませんので、欠測となるということです。 そこで、Samuelsenはnestedケース・コントロール研究の各対象者をサンプリングされる確率の逆数で重み付けすることによる重み付け推定量を求めること を提案しました。 6 7 8 9 10 時間

Samuelsen推定量 各ケースの尤度への寄与 “サンプリング時点でのケース”以外のケースに対してもコントロールとして再利用 曝露情報が一致するmatchedペアの情報も利用 Thomas推定量より効率が良くなる 重み付き推定を行う場合の、ケースの尤度への寄与は分母がサンプリングされた全リスク集団の対象者に重みであるサンプリング確率の逆数をかけたものの和となります。 このサンプリング確率については後ほど説明します。 重みをつけることによる擬似集団に基づく推定を行うことにより、サンプリングされたコントロールは“サンプリング時点でのケース”以外のケースに対しても再利用されることとなり、 曝露情報が一致するmatchedペアの情報も無駄にはならず、また、 Thomas推定量より効率が良くなることが示されています。

各対象者のサンプリング確率 ケースは強制的に全員がサンプリング nested ケース・コントロール研究の対象者として サンプリングされる確率 ここで各対象者のサンプリング確率について考えます。 nestedケース・コントロール研究ではケースは強制的に全員が対象となるため、 サンプリング確率は1となります。 問題はコントロールのサンプリング確率となりますが、打ち切りの対象者は、 ある確率p0jでコントロールとしてサンプリングされることとなります。 次のスライドでコントロールのサンプリング確率について説明します。

各コントロールのサンプリング確率 カプラン・マイヤー推定量 より複雑なサンプリングでもデザイン通りに対応可能 ID (1-1/9)(1-1/8)(1-1/7) (1-1/9)(1-1/8) 1-1/9 1 2 3 4 5 6 7 8 9 10 時間 T (1-1/9)(1-1/8)(1-1/7)(1-1/6) オレンジになっているID7に注目してください。 また、各イベント時点でのコントロールのサンプリングは独立です。 このコホートでの初めのイベントであるID1に対して、コントロールの候補はID2-ID10の9人います。 よって、ID7がコントロールとしてサンプリングされる確率は1/9となり、1から引くことでこの時点でコントロールとして サンプリングされない確率が得られます。 次のイベントID2となりますが、コントロールの候補は8人ですので、先ほどと同様にコントロールとしてサンプリングされる確率が 1/8、1-1/8でこの時点でコントロールとしてサンプリングされない確率が得られます。 そして、前の時点でのコントロールとして選択されない確率と掛け合わせることで、この時点までサンプリングされない確率を得ることができます。 ID7の観察期間中のすべてのイベント時点において同様に計算していきます。 で、これ以降はイベントが起きていませんので、ID7がコントロールとしてサンプリングされない確率はこのようになります。 この確率を1から引くことによって、 ID7がどこかの時点でコントロールとしてサンプリングされる確率と得ることができます。 つまり、対象者jがコントロールとしてサンプリングされる確率p0jはこのように1から、各イベント時点のサンプリングされない確率を掛け合わせたものを 引くことで得られます。 また、この推定量p0jは イベントをコントロールとしてサンプリングされること 打ち切りを興味のあるイベント発症あるいは観察打ち切りとしたカプラン・マイヤー推定量であると見ることができます。 さらにより複雑なサンプリングをしていたとしてもデザインの通りに対応することができます。 カプラン・マイヤー推定量 イベント:コントロールとしてサンプリングされること 打ち切り:興味のあるイベント発症あるいは観察打ち切り より複雑なサンプリングでもデザイン通りに対応可能

疫学研究デザインの分類 コホート研究 ケース・コントロール研究 前向き 一般的なコホート研究 ・Nested ケース・コントロール研究 ・ケース・コホート研究 後向き ・がん患者に対する 新たな予後因子の検討 ・ 希少疾患に対する 全例調査 一般的なケース・コントロール研究 この考えからというのは、同じ前向きのケース・コントロール研究である Case-cohort 研究においてすでに提案されていました。(1986年 Prenticeより提案) Samuelsenはこの方法をnestedケース・コントロール研究の枠組みへ拡張したといえます。

ケース・コホート研究 サンプリングされなかった対象の 共変量の欠測(missing covariate)の問題 ID 1 2 3 共変量の欠測 4 5 6 :イベント :打ち切り 7 8 9 10 時間 コントロール(サブコホート) :研究開始時点のリスク集団からのサンプル 簡単にケース・コホート研究を説明します。 ここでは、ベースライン時点でコントロール集団をサンプリングします。 このサンプリングされた集団はサブコホートといわれます。 このデザインでもケースは全ケースが用いられますが、 発症もせず、またサブコホートにもサンプリングされなかった対象者、ここでいうとID=6,9,10の共変量の欠測の問題と考え、 このサブコホートにサンプリングされる確率で調整した擬似尤度に基づいてハザード比を推定することが提案されていました。 サンプリング確率におけるNestedケース・コントロール研究との違いは、 ケース・コホートではベースライン時点でのサンプリング確率はどの対象者でも等しいのに対して、 nestedケース・コントロール研究では対象者によって異なることです。 サンプリングされなかった対象の 共変量の欠測(missing covariate)の問題 サブコホート(あるいはケース)にサンプリングされる確率で調整した擬似尤度に基づくハザード比の推定

Samuelsenマクロの作成 Thomas推定量 Samuelsen推定量 比例ハザード性を仮定した下 SAS/STAT PHREGプロシジャ STRATAステートメント Samuelsen推定量 SASではプロシジャレベルで現在未提供 比例ハザード性を仮定した下 Nested ケース・コントロール研究において Samuelsen推定量を得るためのマクロを作成 Thomas推定量と効率の比較 時点をマッチング変数と考えるThomas推定量はSAS/STAT PHREGプロシジャでSTRATAステートメントを用いることで推定可能であるのに対して、 Samuelsen推定量はプロシジャレベルではまだ提供されていません。 そこで、 比例ハザード性を仮定した下、 Nestedケース・コントロール研究においてSamuelsen推定量を得るためにマクロを作成しました。 また、Thomas推定量と効率を比較し、確認しました。

SAS 9 によるSamuelsen推定 各対象者のサンプリング確率(pj )を推定 DATAステップによりpjのカプラン・マイヤー推定量を算出 SAS/STAT PHREGプロシジャの WEIGHTステートメントで1/pj を指定 重みを推定しているためCOVSオプションよりロバスト分散 マクロの中身ですが、 SAS9によりSamuelsen推定量するためには、まずdataステップにて各対象者のサンプリング確率を求めます。 このp0jが求まれば、SAS/STAT PHREGプロシジャのWEIGHTステートメントで1/pj を指定することによりSamuelsen推定量を得ることができます。 WEIGHTステートメントはver9から加わったステートメントです。 また、重みにあたるp0jは推定しているためcovsオプションによりロバスト分散を用いることとしました。

プログラム %MACRO Samuelsen( data=_last_, time=, censor=, c_values=, match=, x= ) ;  /* 解析データセット名 */ /* 生存時間を示す変数名 */ /* 打ち切りを示す変数名 */ /* “打ち切り”を表す値 */ /* matching人数を示す変数名 */ /* 曝露変数名 */ 作成したプログラムの使用法です。これらの変数を指定することが必要となります。 Data=には_LAST_と入っていますが、これを解析用のデータセット名に変えてください。_LAST_のままですと、 最後に作成されたデータセットが自動的に使われることになります。 また、このデータセットにはコホートのデータ、つまり研究ベースのすべての対象者の 情報が入っていることが必要となります。 Time=には、生存時間を示す変数名、censor=には打ち切りを示す変数名を指定してください。 c_values=にはcensorで指定した打ち切り変数のうち“打ち切り”を表す値を入れてください。 たとえば、イベント=1、観察打ち切りが0で入力されている場合にはc_valuesに0を入れることになります。 Match=ですが、Samuelsen推定量を得るにあたって、各ケースに何人のコントロールがマッチされたか、という情報が 必要となりますので、それに対応する変数を作成し、変数名を入れてください。 ケースによってmatchされた人数が異なっても大丈夫です。 最後にxですが、興味のある1つの曝露変数名を指定してください。

解析データセット:SURV ・・・ 仮想的な35人からなるコホートのデータSURVの一部 ID TIME CENSOR EXP MATCH 1 4.79 . 2 5.25 3 3.47 4 3.94 5 4.48 解析用データセットの例を示します。 これは仮想的な35人からなるコホートのデータSURVというデータセットの例ですが、Samuelsenマクロを使用するためにはこのように入力されているデータセットが必要となります。 このSURVデータを解析したいとするとます、Samuelsenマクロのdata=にSURVと入力します。 このデータセットのIDというのは対象者IDのことですが、この変数は特に指定する必要がないので何でもかまいません。 TIMEがイベントあるいは打ち切りまでの時間を表す変数でこの変数名TIMEをtime=のところに指定します。この変数はもちろん負の値ではないことが必要です。 次の、CENSOR変数が打ち切り変数で0が打ち切り、1がイベント発症を示しています。よって、 Censor=にCENSORを指定し、また、c_values=に0を入力します。次のEXPは興味のある曝露変数ですので、x=にEXPを指定します。ここで重要なのは、 Nestedケース・コントロールの対象者ではない人はもちろん曝露の情報は取られていませんが、欠測「ピリオド」で入力されていることが必要となります。 最後にMATCHですが、これは各イベント対象者に何人のコントロールをマッチしたかを示すものです。ここでは、ID2には1人、ID3には2人がマッチされたということを示します。 このMATCH変数をmatch=に指定します。また、このマクロに必要な4つの変数は数値変数であることが必要です。 ・・・ %MACROSamuelsen(data=SURV,time=TIME,censor=CENSOR,   c_values=0, match=MATCH, x=EXP);

SASアウトプット例   -------------------------- Samuelsen estimator -------------------------- PHREG プロシジャ モデルの詳細 データセット WORK.SURV 従属変数 TIME 打ち切り変数 censor 打ち切り値の数 2 Weight Variable w タイデータの処理 EFRON Number of Observations Read 20 Number of Observations Used 20 収束状態 収束基準 (GCONV=1E-8) は満たされました。 モデルの適合度統計量 共変量 共変量 基準 なし あり -2 LOG L 14.265 13.135 AIC 14.265 15.135 SBC 14.265 15.437 実行させた結果です。通常のPHREGプロシジャとほぼ同様のアウトプットとなります。 上から見ていただくとこんな感じですが、このnumber of observaionsに示されている人数は コホートの人数ではなく、Nestedケース・コントロール研究の対象者の人数になっています。

SASアウトプット例:続き グローバルな帰無仮説 H0: BETA=0 検定 カイ 2 乗 自由度 Pr > ChiSq 尤度比 1.1304 1 0.2877 Score (Model-Based) 1.0736 1 0.3001 Score (Sandwich) 2.3006 1 0.1293 Wald (Model-Based) 0.9336 1 0.3339 Wald (Sandwich) 2.2321 1 0.1352 最尤推定量の分析 パラメータ 標準 標準誤差 ハザード 95% ハザード比信頼 変数 自由度 推定 誤差 比 カイ 2 乗 Pr > ChiSq 比 限界 EXP 1 1.32501 0.88687 0.647 2.2321 0.1352 3.762 0.662 21.397 続きですが、 最尤推定量の分析のところで興味のある変数であったEXPに関する各推定値が提示されています。

シミュレーションによる確認 Samuelsen推定量とThomas推定量それぞれについて 繰り返し数10,000回 推定されたハザード比[HR=exp()]の平均 推定値の分散の平均 ハザード比の平均95%信頼区間全幅 95%信頼区間の被覆確率 繰り返し数10,000回 シミュレーションにより確認した結果です。 Samuelsen推定量、Thomas推定量それぞれについて 推定されたハザード比の平均、推定値βの分散の平均、ハザード比の95%信頼区間の幅、95%信頼区間の被服確率 を10,000回のシミュレーションにより推定しました。

シナリオ設定 コホートサイズ n =1,000 ケース:matchedコントロール=1:1 1つの曝露変数 2値(曝露あり or なし) 曝露割合:0.3, 0.5 打ち切りとは独立 帰無仮説の下でのイベント期待発症割合:10% ハザード比:1(帰無仮説), 2, 3 シミュレーションのシナリオ設定ですが、 コホートは1,000人からなるとし、1ケースに対してmatchされるコントロールは1人としました。 1つの曝露変数を考え、 暴露の有無の2値とし、曝露割合は0.3、0.5、また、暴露は打ち切りとは独立であるとしました。 帰無仮説の下でのイベントの期待発症割合を10%とし、 ハザード比は帰無仮説の下での1、さらに2,3について行いました。

結果:曝露割合30% Samuelson推定量はThomas推定量よりも効率に優れる Samuelsen 1.00 0.089 1.29 真のHR=1 HR の分散 HRの95%CI全幅 95%CIの被覆確率 Samuelsen 1.00 0.089 1.29 0.944 Thomas 0.100 1.39 0.951 真のHR=2 HR の分散 HRの95%CI全幅 95%CIの被覆確率 Samuelsen 2.03 0.063 2.15 0.946 Thomas 2.04 0.079 2.51 0.952 曝露割合が30%のときに結果です。 真のハザード比が1のときですが、 ハザード比の推定はどちらもほぼ1、また、推定値の分散は確かにSamuelsenのほうが小さくなることが確認できました。 それに伴い、信頼区間幅も狭くなっています。 また、被覆確率はどちらもほぼ95%といえます。 ごらんのとおり、真のハザード比2でも同様の結果でした。 ここではお示ししていませんが、 ハザード比3のとき、また、曝露割合が50%のときも同様の結果となりました。 シミュレーション回数:10,000回 Samuelson推定量はThomas推定量よりも効率に優れる

相対効率 (Samuelsen分散)/(Thomas分散) シミュレーション回数:10,000回 Samuelson推定量はThomas推定量よりも効率に優れる

まとめ Samuelsen推定量を得るためのマクロを作成 今回検討した状況においては Thomas推定量より常に効率が良くなることを確認 プログラムと本発表資料は一般公開予定 日本臨床腫瘍研究グループ(JCOG)公式HP http://www.jcog.jp/ まとめます。 Samuelsen推定量を得るためのマクロを作成しました。 また、今回検討した状況においては Samuelsen推定量より常に効率が良くなることを確認しました。 今回作成したプログラムと本発表資料はJCOG公式ホームページ上で近々公開予定です。 おそくても9月までには公開します。