【MedR】第7回 東京大学医学系研究科 特任助教 倉橋一成
6.2 線形回帰 モデル:Y = Xβ + e パラメータを推定値する公式:β-hat = (XTX)-1XTY 最小二乗法 Y-hat = X(XTX)-1XTY X(XTX)-1XT:ハット行列 e = {1 - X(XTX)-1XT}Y E(e) = 0 V(e) = eTe/df(e) 残差が説明変数Xの分布に依存する 残差を標準化する 説明変数を前もって標準化しておく
6.3 分散分析 = 重回帰(幾何学的解釈) 観測値ベクトル(結果変数ベクトル) 残差 最小二乗法:残差を最小 モデルベクトル(説明変数の線形結合) モデル平面(説明変数行列が張る空間)
7章:ロジスティック回帰モデルと一般化線形モデル plasma 赤血球沈降速度(ESR)がリウマチ疾患、慢性的感染症、悪性疾患に関連している か 2つの血漿蛋白(fibrinogen, globulin)との関連を確認する womensrole 女性の社会的役割についての意識調査 「女性は家庭の切り盛りの注力し、国の切り盛りは男性の委ねておくべきである」に 賛成か反対か 教育年数と性別が回答に影響するかどうか polyps 家族性大腸腺腫症(FAP)治療における非ステロイド性抗炎症薬のプラセボ対照試 験 中間解析によって有効中止 12ヶ月の治療後のポリープの数に関心 packpain 車の運転が椎間板ヘルニア(AHLID)の危険因子であるかどうか ケースコントロール研究(症例対照研究) ケース:AHLIDと診断された対象者 コントロール:同じ病院に来院した脊柱に関連しない疾患を持つ患者 性、年齢でのマッチングデータ
ロジスティック回帰 2値の結果変数を予測したい 結果変数に適当な変数変換を行う logit(P) = β0 + β1x1 + … 2値変数に線形回帰をしたら0,1の範囲外の予測値が計算される 結果変数に適当な変数変換を行う ロジット変換 オッズの対数 log{p/(1-p)} logit(P) = β0 + β1x1 + … exp(β1)はx1が1単位変化したときのオッズ比 x1が1単位変化すると、y=1となる確率がexp(β1)倍大きくなる logit(p) p
条件付きロジスティック回帰 マッチングされたケースコントロール研究 モデル:logit(pi) = αi + βx 各マッチング層で切片が異なるというモデル αの数はマッチングの数だけ存在する 推定しきれない αiは推定する必要のないパラメータ(局外パラメータ) αiで条件付けた条件付き尤度を最大化する
結果変数が「指数型分布族」の回帰モデル 一般線形モデルと一般化線形モデル 一般線形モデル(general linear model; GLM、じーえるえむ) 5章の分散分析、6章の重回帰は全く同じモデル lm()関数 一般化線形モデル(generalized linear model; GLIM、ぐりむ) ロジスティック回帰も「結果変数を変数変換している」点以外は同じ 他にはポアソン回帰(結果変数:カウント)など glm()関数 結果変数が「指数型分布族」の回帰モデル
GLIM 誤差分布 リンク関数 分散関数 最尤法でパラメータ推定 デビアンスと尤度比検定でモデル評価と比較 結果変数の期待値が従う分布 重回帰:正規分布 ロジスティック回帰:2項分布 リンク関数 結果変数の変数変換 重回帰:恒等変換(無変換、identity link) ロジスティック回帰:ロジット変換 分散関数 分散と期待値の関係を評価する 擬似尤度による近似計算によって超過変動(overdispersion)に対処す る 最尤法でパラメータ推定 デビアンスと尤度比検定でモデル評価と比較
データ解析の手順
Phase III:データ解析(モデル作成) 多重共線性(マルチコ、multi-colinearity)に気を付ける 説明変数同士の相関が高いと推定値が変になる あまりに相関の高い変数同士は、同時に説明変数にしない まずはその分野で妥当だなと思われるモデルを作る 説明変数は少な目に モデルの探索 説明変数を全て入れる 交互作用項を入れる 変数選択を行う ステップワイズ:解釈不能な結果が出ることが多い leaps()関数:変数の数ごとに最良の変数セットが確認でき、解釈しやすい 結果変数に関連の強い「順番」も吟味しやすい 機械学習 モデルの説明力をチェック 連続値:R2乗、分散の説明割合、キャリブレーションプロット 2値:ROC曲線、AUC
プログラムへ