Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190: Phillips, and AT&T Research, A Brief Tutorial on Maxent.
生息に適している地域の予測 Ecological niche modeling ある地域での種のいる/いないの情報 から、その種が必要とする環境をモデル により推定し、生息に適している地域を 予測する。 Maxent (Maximum entropy) model GARP (Genetic Algorithm for Rule-set Production) 赤い部分はキノド モズモドキの生息 に適している地域 Phillips et al. (2004) キノドモズモドキ
Maxent model の利点・欠点 Maxent model の利点 Maxent model は種の「いる」情報だけを使い、 「いない」情報が必要ない。 GARP は両方必要。 GARP の予測値は離散だが、 Maxent model は連 続 で、予測がきめ細かい。 Software が色々な結果を出してくれる。 Maxent model の欠点(?) Maximum entropy って、何? Software が出す結果が謎。
そもそも Entropy とは? Entropy :分布の不確実性 不確実性の定量化 『驚き』 イベント 確率 『驚き』 Entropy :期待される驚き(ドキドキ感) 宝くじの1等が当選する確率が1億分の1だとする。 当たったら、相当びっくりする → 『驚き』 買う時点では、それほどドキドキしない → 期待される驚き
Maximum entropy model とは? ドキドキ感を最大にする model 意味:ある値になる確率に偏りがない状態 Maximum entropy distribution の例 最小値と最大値が決定: 一様分布 平均値と分散が決定: 正規分布 正で平均値が決定: 指数分布 Maxent での環境要因と種が存在する確率 環境要因の平均値が決定 (種が「いる」サンプ ルポイントでの環境要因の平均値) : 指数分布 環境要因の値 f 平均値
Maxent model で生息地を予測する 種の生息地の予測の場合 複数の環境要因が影響している 異なる場所が同じ環境要因の値を持っている 種が「いる」サンプルポイントの環境要因の平均値は、 真の平均値ではない 正規化の係数 ポイント 環境要因の種類 環境要因の値 Gibbs 関数 overfitting を防ぐ l 1 -reguralization 一様分布から (log loss) を最小化する を探す。 λ を探す方法は、 iterative scaling method とか、 gradient and second-order descend method とか、 sequential-update algorithm とか、色々あるらしい。
Maxent model の software Maximum Entropy Species Distribution Modeling, Version 種の「いる」 分布 環境データ モデルの種類 予測結果 の出力 Linear features を選べば指数分布のモデルになるが、 auto features などを選ぶと、環境要因の値によって λ が異なる複雑な結果になる。
Software が吐き出してくる謎の結果 Omission rate (含まれない割合) Cumulative threshold (この閾値以上の適合度という意味) Cumulative threshold が 20 の時、 適合度が 20 以上と予測された 地域には、種が「いる」地域の 20% が理論的に含まれない。 適合度が閾値以上の 地域の面積 Training data での種の 「いる」地域が予測に 含まれない割合 Test data での種の 「いる」地域が予測 に含まれない割合 Omission rate
Software が吐き出してくる謎の結果 ROC (Receiver Operating Characteristic) 適していると予測された地域の割合 AUC ROC curve の面積。 種が「いる」地域が 正しく予測に含まれ る確率の期待値。 1 に近いほど精度が 高い。 AUC (Area Under the ROC Curve) AUC in random model =0.5 適していると予測された地域の割合に対して、種が「いる」地域 が予測に含まれる割合。 Omission rate Training data での種の 「いる」地域が予測に 含まれる割合 Test data
Software が吐き出してくる謎の結果 Variable contribution と Jackknife test 環境要因の影響の強さを割合で 出してくれる。 ただし、最適値の探索結果なの で、アルゴリズムが異なると違う 結果になる。 Training gain と test gain と AUC の3つの結果が出てきて、比較 することができる。 Training と AUC の結果が異なる と、考察が必要になる。 ある環境要因の影響を除く test の場合、環境要因間の 相関の影響を受ける。
Software が吐き出してくる謎の結果 Response curves ( Jackknife test のおまけ) ある特定の環境要因の値の影響 をみる。 他の環境要因を除外し、ある 特定の環境要因のみの値の 影響をみる。 環境要因間の相関の影響を 受ける。
まとめ: 素晴らしき Maxent の世界 Maxent model の欠点の克服? Maximum entropy はドキドキ感を最大にする理論。 Software から謎の結果は出てくるが、使える結果はあ まりないかも。 結論 Software を使う時は、 maximum entropy の数式の理解は 役に立たない。 重要なのは、 ROC curve 。 Maxent の予測精度を表す。 Jackknife test や response curve は、環境要因間の相関があ るので、 1つの環境要因のものだけを使った方が無難。 Software とは別に、統計をやらなくてはいけない。