地球観測衛星による 植生指標データからの 長期年間変動のモデリング -ML法、MAP法を用いて-

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
表計算ソフトで動作するNEMUROの開発
実証分析の手順 経済データ解析 2011年度.
全体ミーティング (4/25) 村田雅之.
相関係数 植物生態学研究室木村 一也.
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
新しい科学の文法を目指して - 統計科学の立場から -
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
Bias2 - Variance - Noise 分解
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
“You Should Go To Kyoto”
顧客生涯価値 TexPoint fonts used in EMF.
東京工業大学 機械制御システム専攻 山北 昌毅
小標本検査データを元にした 疲労破損率のベイズ推定
需要パターンを考慮した 発注方式の比較検討
第6章 連立方程式モデル ー 計量経済学 ー.
P4-21 ネットワーク上の経路に対する 回帰問題について
東京大学理学系研究科 天文センター M2 江草 芙実
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
リモートセンシングデータによる佐鳴湖汚濁状況の把握
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
予測に用いる数学 2004/05/07 ide.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
北大MMCセミナー 第62回 附属社会創造数学センター主催 Date: 2016年11月4日(金) 16:30~18:00
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
統計現象 高嶋 隆一 6/26/2019.
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
北大MMCセミナー 第28回 Date: 2014年10月3日(金)14:30~16:00 ※通常と開始時間が異なります
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

地球観測衛星による 植生指標データからの 長期年間変動のモデリング -ML法、MAP法を用いて- 高知大学理学部 情報科学教室 吉岡和浩・本田理恵 JPGU 2008 Thank you, chair man. The topics that I would like to talk is the problem of the missing data and the noises, and the sparsness, which commonly occur in the Earth-obsearvation sattelite data, I would like to talk on how we can cope with it. My main reseach field is scientific data mining, and I'm new to Earth obsearvation study. So I'll be glad if I could have comments or feed back from either view point of data mining and the earth Observational study .

はじめに リモートセンシングによって地球環境データが長期間に わたって蓄積され、また、データの整備(校正)が進ん できた。 e.g, NOAA GIMMS (NDVI 1981-2006の25年分) 他方、機械学習や統計学習の手法を利用して大量データ から知識発見を行う“データマイニング”の研究が諸分野 で発展している。 リモートセンシングデータからも、データマイニング的 アプローチにより有用な変動パターンの発見が可能にな ることが期待できる。

The GIMMS (Global Inventory Modeling and Mapping Studies) 地球観測衛星 NOAA 7, 9, 11, 14, 16 , 17号搭載の AVHRR から構築されたNDVI(植生指標)のデータセット 1981-2006年(25年分!) Viewing geometry, 火山性エアロゾル, その他の影響要 因の校正がなされている Color NDVI 植物          活動 黄色  小   小 緑    大    大 Year 2000 NDVI

Example of MODIS EVI Data 問題点 EVI, NDVIなど、植物活動指標は、大気、地表(雪 など)、センサの状態などの影響により、ノイ ズや欠落を多く含み、そのまま扱うのが難しい

This may cause the bias of the soluiton. 過去の検討例 This may cause the bias of the soluiton. Zhang et al. 2003 恣意的な分割、欠落値補間による最小2乗法フィッティング ML, MAP法による統計的モデリング(Honda 2006) →一年単位のデータにしか対応していなかった。 c c c c EVI c c c c c T

本研究の目的 植生指標“多年”データのモデリングをデータマイニング的アプローチで検討する ノイズ・欠落への高い耐性確保 スケーラビリティ確保 →統計モデリングのアプローチ スケーラビリティ確保   →大量データへの適用性 自動化   →恣意的なデータ操作を排除 高利用性確保 モデル関数へのフィッテング問題とすることで、2次情報の抽出など利用性を高める→green up時期の推定など

モデル関数 Piecewise ロジスティック関数(Zhang et al (2003), Honda(2006)) 区分境界 は、 区分境界 は、 得られたモデルの交点から 自然に決める 手法の説明に移ります。 まず、モデリングについて説明します。モデリングとは、離散値を関数形で近似することをいいます。 本研究では、従来法に基き、次のようなロジスティック関数の合成でモデリングします。 冬から夏の遷移を表現するf1,夏から冬の遷移を表現するf2を用いて、モデリングします。 F1とf2の交点ttは、関数より、計算します。

本研究で用いたパラメータ推定法 Piecewise ロジスティック関数モデルに基づい て、より統計的に厳密なパラメータ推定法を 用いる Maximum Likelifood (ML) approach モデルの周りに、観測値がある確率密度分布で存在するこ とを仮定して、尤度を最大化するパラメータを決める ノイズ分布をモデルに含めることができる Maximum a Posterior (MAP) approach ノイズ分布に加え、パラメータの分布がモデル自身に含ま れる データが欠落しているとき, MAP は、パラメータの確率密度 分布を頼りにする ノイズに加え、欠落への耐性が期待できる。

Maximum a Posterior (MAP) observation 観測値がモデルの周りにガウス分布を すると仮定する。 モデルパラメータの確率密度分布を仮定する。 事後確率を最大化するような、パラメータを求める model 事前確率 prior probability 事後確率 Posterior Probability

Example of fitting result

Prediction error Take one time point from each time series and guess that value from the model built from the rest of the data. Prediction Accuracy measure Mean predictor MAP Zhang et al (2003) 0.135 0.209* * Fitting error (not a prdiction error)

実験 各年数で50ケース試行 多年分の人工データに各方策を適用し、方策 ごとの計算時間、精度の違いをみる。 初期値の影響を軽減するため、1ケース当り20回の試行を行い、最も尤度または事後確率が高いものを解とする。 項目 設定手法(または数値) アルゴリズム ML,MAP 区分化 固定,自動決定 年数 1,3,5,8,13,18,23 実験の説明に移ります。モデリング実験として、対象データの年数を変化させて、モデリングを行い、手法ごとの違いや、実行時間・精度がどのように遷移するかを見ました。実験には以下の方策をしようしました。アルゴリズムは、MLとMAPを使用し、年範囲の境界の扱い方は固定する方式と逐次決定する方式、という選択肢からの組み合わせで実験しました。 また、対象データの年数はこのようになります。 各年数で50ケース試行しました。 また、1ケースあたり20回、θの初期値を変えながらモデリングを行い、最も優れた回を結果としました。

実験結果1-失敗件数- 年範囲固定 ML MAP 年範囲 自動決定 自動決定ML 1年 3年 5年 2 8年 13年 1 18年 23年 3年 5年 2 8年 13年 1 18年 23年 50ケース中の失敗件数を表にまとめます。行が年数・列が手法となります。 年範囲を固定したMLでは、このように失敗したケースがありました。それ以外では、失敗のあったケースはありませんでした。 今後の実験結果集計では、失敗したケースを除いて集計しました。

実験結果の評価方法 50ケースを通じての、反復回数・実行時間・誤差の平均値・標準偏差を算出 誤差は以下の式で算出 は、対象データ は推定結果 結果として、反復回数、実行時間、誤差の、50ケースを通じた平均値と標準偏差を算出しました。 誤差は以下の式で算出しました。ここで、nはデータ数、y(t)は推定対象、f(t)は推定結果と意味します。

実験結果2-誤差- まず、誤差の結果を説明します。 横軸に年数・縦軸に誤差をとった図で、各点が平均値、各点から上下に伸びるバーが標準偏差を意味します。 まず、年範囲を固定した場合での誤差を見ると、年数が増加しても、誤差はほぼ横ばいであることが分かります。年範囲を自動決定した場合を加えます。 年範囲を自動決定としたほうが、やや平均値が低く見えますが、この差は標準偏差の間である為、優位な差とは断定できません。 結果として、どの手法も、一年分で実行したときとほぼ同じ精度が達成できました。

実験結果3-反復回数- で増加 次に、年数が増加したときの反復回数の遷移を示します。 横軸が年数で縦軸は反復回数です。 反復回数は、4手法ともに、O(n)で増加しています。 一方、データ数やパラメータ数は、年数に比例して増えますので、これでは、実行時間の急激な増加が予想されます。

実験結果4-実行時間- で増加 次は実行時間の遷移です。 各手法とも実行時間はO(n2)で増加していました。 本研究は、大量の多年分データへの適用を考えているので、これは、スケーラビリティの観点から問題となります。

対策 モデリング範囲を固定し、スライド 範囲を5年とし、2年のオーバーラップを持たせる →データの始点、終点付近の精度の維持の為 VI 対策として、一度にモデリングする範囲を一定にし、徐々にスライドさせる方式を検討しました。 図で説明すると、このようになります。今回、一度にモデリングする範囲を5年とし、2年のオーバーラップをもたせるようにしました。 これは、データの始点・終点付近の精度を維持する為です。 日数

実験結果5-実行時間- 結果として、計算時間の増加はO(n)に抑えることができました。 また、誤差も一年分のデータに対して実施したときと同等の精度に抑えることに成功しました。

Application Accurate determination of Phenological transition dates Zhang et al (2003)

結果 ML, MAP法 年境界自動決定 推定範囲を区分化しスライド MAPのMLに対する優位性は明確には確認できず 本研究の手法は、ノイズ・欠落に耐性をもち、スケーラブ ルで、自動化可能、という、データマイニングに好ましい 性質を備える可能性を確認した。 ML, MAP法 →ノイズ、欠落への耐性確保 年境界自動決定 →人為的作業を排除しつつ、複数年になっても1年の時と同 様の制度が確保できる 推定範囲を区分化しスライド 計算時間    から    に削減→スケーラビリティ確 保 MAPのMLに対する優位性は明確には確認できず 今後は、GIMMS, MODIS-EVIなど、現実の長期間、広範囲の データでの検証を行っていく