Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190: 231-259.

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

Lesson 19. 評価の指標 §B. ROC 曲線. 疾 患 +- 検 査 + a (真陽性) b (偽陽性) - c (偽陰性) d (真陰性)
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
Example 8 種類のチーズの塩分量 : m = 325 Q 3 = 340 m Q 1 = Q3Q3Q3Q3 Q1Q1Q1Q1.
ゲーム開発者向け最新技術論文の解説・実装講座
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
10.時系列データの解析 time-series data
実証分析の手順 経済データ解析 2011年度.
Pattern Recognition and Machine Learning 1.5 決定理論
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
統計学 12/3(月).
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
経済統計 第三回 5/1 Business Statistics
統計学 11/30(木).
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
Reed-Solomon 符号と擬似ランダム性
Bias2 - Variance - Noise 分解
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
東京工業大学 機械制御システム専攻 山北 昌毅
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
離婚が出生数に与える影響 -都道府県データを用いた計量分析
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
疫学概論 ROC曲線 Lesson 19. 評価の指標 §B. ROC曲線 S.Harano, MD,PhD,MPH.
相関分析.
4章までのまとめ ー 計量経済学 ー.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
決定木とランダムフォレスト 和田 俊和.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
訓練データとテストデータが 異なる分布に従う場合の学習
2016年度日本疫学会スライドコンテスト受賞作品
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
遺伝的アルゴリズムを用いた 構造物の最適形状探索の プログラムの作成
予測に用いる数学 2004/05/07 ide.
説明可能なAI(Explainable AI)
フレアの非熱的成分とサイズ依存性    D1 政田洋平      速報@太陽雑誌会(10/24).
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
Q3 On the value of user preferences in search-based software engineering: a case study in software product lines Abdel Salam Sayyad (West Virginia University,
回帰分析(Regression Analysis)
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
決定木-III Occam’s razor(オッカムの剃刀) Minimum Description Length (最小記述長) 枝刈り
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
数理統計学  第6回 西山.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
回帰分析入門 経済データ解析 2011年度.
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190: Phillips, and AT&T Research, A Brief Tutorial on Maxent.

生息に適している地域の予測 Ecological niche modeling  ある地域での種のいる/いないの情報 から、その種が必要とする環境をモデル により推定し、生息に適している地域を 予測する。 Maxent (Maximum entropy) model GARP (Genetic Algorithm for Rule-set Production) 赤い部分はキノド モズモドキの生息 に適している地域 Phillips et al. (2004) キノドモズモドキ

Maxent model の利点・欠点 Maxent model の利点  Maxent model は種の「いる」情報だけを使い、 「いない」情報が必要ない。 GARP は両方必要。  GARP の予測値は離散だが、 Maxent model は連 続 で、予測がきめ細かい。  Software が色々な結果を出してくれる。 Maxent model の欠点(?)  Maximum entropy って、何?  Software が出す結果が謎。

そもそも Entropy とは? Entropy :分布の不確実性 不確実性の定量化 『驚き』  イベント  確率  『驚き』 Entropy :期待される驚き(ドキドキ感) 宝くじの1等が当選する確率が1億分の1だとする。 当たったら、相当びっくりする → 『驚き』 買う時点では、それほどドキドキしない → 期待される驚き

Maximum entropy model とは? ドキドキ感を最大にする model  意味:ある値になる確率に偏りがない状態 Maximum entropy distribution の例  最小値と最大値が決定: 一様分布  平均値と分散が決定: 正規分布  正で平均値が決定: 指数分布 Maxent での環境要因と種が存在する確率  環境要因の平均値が決定 (種が「いる」サンプ ルポイントでの環境要因の平均値) : 指数分布 環境要因の値 f 平均値

Maxent model で生息地を予測する 種の生息地の予測の場合  複数の環境要因が影響している  異なる場所が同じ環境要因の値を持っている  種が「いる」サンプルポイントの環境要因の平均値は、 真の平均値ではない 正規化の係数 ポイント 環境要因の種類 環境要因の値 Gibbs 関数 overfitting を防ぐ l 1 -reguralization 一様分布から (log loss) を最小化する を探す。 λ を探す方法は、 iterative scaling method とか、 gradient and second-order descend method とか、 sequential-update algorithm とか、色々あるらしい。

Maxent model の software Maximum Entropy Species Distribution Modeling, Version 種の「いる」 分布 環境データ モデルの種類 予測結果 の出力 Linear features を選べば指数分布のモデルになるが、 auto features などを選ぶと、環境要因の値によって λ が異なる複雑な結果になる。

Software が吐き出してくる謎の結果 Omission rate (含まれない割合) Cumulative threshold (この閾値以上の適合度という意味) Cumulative threshold が 20 の時、 適合度が 20 以上と予測された 地域には、種が「いる」地域の 20% が理論的に含まれない。 適合度が閾値以上の 地域の面積 Training data での種の 「いる」地域が予測に 含まれない割合 Test data での種の 「いる」地域が予測 に含まれない割合 Omission rate

Software が吐き出してくる謎の結果 ROC (Receiver Operating Characteristic) 適していると予測された地域の割合 AUC ROC curve の面積。 種が「いる」地域が 正しく予測に含まれ る確率の期待値。 1 に近いほど精度が 高い。 AUC (Area Under the ROC Curve) AUC in random model =0.5 適していると予測された地域の割合に対して、種が「いる」地域 が予測に含まれる割合。 Omission rate Training data での種の 「いる」地域が予測に 含まれる割合 Test data

Software が吐き出してくる謎の結果 Variable contribution と Jackknife test 環境要因の影響の強さを割合で 出してくれる。 ただし、最適値の探索結果なの で、アルゴリズムが異なると違う 結果になる。 Training gain と test gain と AUC の3つの結果が出てきて、比較 することができる。 Training と AUC の結果が異なる と、考察が必要になる。 ある環境要因の影響を除く test の場合、環境要因間の 相関の影響を受ける。

Software が吐き出してくる謎の結果 Response curves ( Jackknife test のおまけ) ある特定の環境要因の値の影響 をみる。 他の環境要因を除外し、ある 特定の環境要因のみの値の 影響をみる。 環境要因間の相関の影響を 受ける。

まとめ: 素晴らしき Maxent の世界 Maxent model の欠点の克服?  Maximum entropy はドキドキ感を最大にする理論。  Software から謎の結果は出てくるが、使える結果はあ まりないかも。 結論  Software を使う時は、 maximum entropy の数式の理解は 役に立たない。  重要なのは、 ROC curve 。 Maxent の予測精度を表す。  Jackknife test や response curve は、環境要因間の相関があ るので、 1つの環境要因のものだけを使った方が無難。  Software とは別に、統計をやらなくてはいけない。