地球観測衛星による 植生指標データからの 長期年間変動のモデリング -ML法、MAP法を用いて- 高知大学理学部 情報科学教室 吉岡和浩・本田理恵 JPGU 2008 Thank you, chair man. The topics that I would like to talk is the problem of the missing data and the noises, and the sparsness, which commonly occur in the Earth-obsearvation sattelite data, I would like to talk on how we can cope with it. My main reseach field is scientific data mining, and I'm new to Earth obsearvation study. So I'll be glad if I could have comments or feed back from either view point of data mining and the earth Observational study .
はじめに リモートセンシングによって地球環境データが長期間に わたって蓄積され、また、データの整備(校正)が進ん できた。 e.g, NOAA GIMMS (NDVI 1981-2006の25年分) 他方、機械学習や統計学習の手法を利用して大量データ から知識発見を行う“データマイニング”の研究が諸分野 で発展している。 リモートセンシングデータからも、データマイニング的 アプローチにより有用な変動パターンの発見が可能にな ることが期待できる。
The GIMMS (Global Inventory Modeling and Mapping Studies) 地球観測衛星 NOAA 7, 9, 11, 14, 16 , 17号搭載の AVHRR から構築されたNDVI(植生指標)のデータセット 1981-2006年(25年分!) Viewing geometry, 火山性エアロゾル, その他の影響要 因の校正がなされている Color NDVI 植物 活動 黄色 小 小 緑 大 大 Year 2000 NDVI
Example of MODIS EVI Data 問題点 EVI, NDVIなど、植物活動指標は、大気、地表(雪 など)、センサの状態などの影響により、ノイ ズや欠落を多く含み、そのまま扱うのが難しい
This may cause the bias of the soluiton. 過去の検討例 This may cause the bias of the soluiton. Zhang et al. 2003 恣意的な分割、欠落値補間による最小2乗法フィッティング ML, MAP法による統計的モデリング(Honda 2006) →一年単位のデータにしか対応していなかった。 c c c c EVI c c c c c T
本研究の目的 植生指標“多年”データのモデリングをデータマイニング的アプローチで検討する ノイズ・欠落への高い耐性確保 スケーラビリティ確保 →統計モデリングのアプローチ スケーラビリティ確保 →大量データへの適用性 自動化 →恣意的なデータ操作を排除 高利用性確保 モデル関数へのフィッテング問題とすることで、2次情報の抽出など利用性を高める→green up時期の推定など
モデル関数 Piecewise ロジスティック関数(Zhang et al (2003), Honda(2006)) 区分境界 は、 区分境界 は、 得られたモデルの交点から 自然に決める 手法の説明に移ります。 まず、モデリングについて説明します。モデリングとは、離散値を関数形で近似することをいいます。 本研究では、従来法に基き、次のようなロジスティック関数の合成でモデリングします。 冬から夏の遷移を表現するf1,夏から冬の遷移を表現するf2を用いて、モデリングします。 F1とf2の交点ttは、関数より、計算します。
本研究で用いたパラメータ推定法 Piecewise ロジスティック関数モデルに基づい て、より統計的に厳密なパラメータ推定法を 用いる Maximum Likelifood (ML) approach モデルの周りに、観測値がある確率密度分布で存在するこ とを仮定して、尤度を最大化するパラメータを決める ノイズ分布をモデルに含めることができる Maximum a Posterior (MAP) approach ノイズ分布に加え、パラメータの分布がモデル自身に含ま れる データが欠落しているとき, MAP は、パラメータの確率密度 分布を頼りにする ノイズに加え、欠落への耐性が期待できる。
Maximum a Posterior (MAP) observation 観測値がモデルの周りにガウス分布を すると仮定する。 モデルパラメータの確率密度分布を仮定する。 事後確率を最大化するような、パラメータを求める model 事前確率 prior probability 事後確率 Posterior Probability
Example of fitting result
Prediction error Take one time point from each time series and guess that value from the model built from the rest of the data. Prediction Accuracy measure Mean predictor MAP Zhang et al (2003) 0.135 0.209* * Fitting error (not a prdiction error)
実験 各年数で50ケース試行 多年分の人工データに各方策を適用し、方策 ごとの計算時間、精度の違いをみる。 初期値の影響を軽減するため、1ケース当り20回の試行を行い、最も尤度または事後確率が高いものを解とする。 項目 設定手法(または数値) アルゴリズム ML,MAP 区分化 固定,自動決定 年数 1,3,5,8,13,18,23 実験の説明に移ります。モデリング実験として、対象データの年数を変化させて、モデリングを行い、手法ごとの違いや、実行時間・精度がどのように遷移するかを見ました。実験には以下の方策をしようしました。アルゴリズムは、MLとMAPを使用し、年範囲の境界の扱い方は固定する方式と逐次決定する方式、という選択肢からの組み合わせで実験しました。 また、対象データの年数はこのようになります。 各年数で50ケース試行しました。 また、1ケースあたり20回、θの初期値を変えながらモデリングを行い、最も優れた回を結果としました。
実験結果1-失敗件数- 年範囲固定 ML MAP 年範囲 自動決定 自動決定ML 1年 3年 5年 2 8年 13年 1 18年 23年 3年 5年 2 8年 13年 1 18年 23年 50ケース中の失敗件数を表にまとめます。行が年数・列が手法となります。 年範囲を固定したMLでは、このように失敗したケースがありました。それ以外では、失敗のあったケースはありませんでした。 今後の実験結果集計では、失敗したケースを除いて集計しました。
実験結果の評価方法 50ケースを通じての、反復回数・実行時間・誤差の平均値・標準偏差を算出 誤差は以下の式で算出 は、対象データ は推定結果 結果として、反復回数、実行時間、誤差の、50ケースを通じた平均値と標準偏差を算出しました。 誤差は以下の式で算出しました。ここで、nはデータ数、y(t)は推定対象、f(t)は推定結果と意味します。
実験結果2-誤差- まず、誤差の結果を説明します。 横軸に年数・縦軸に誤差をとった図で、各点が平均値、各点から上下に伸びるバーが標準偏差を意味します。 まず、年範囲を固定した場合での誤差を見ると、年数が増加しても、誤差はほぼ横ばいであることが分かります。年範囲を自動決定した場合を加えます。 年範囲を自動決定としたほうが、やや平均値が低く見えますが、この差は標準偏差の間である為、優位な差とは断定できません。 結果として、どの手法も、一年分で実行したときとほぼ同じ精度が達成できました。
実験結果3-反復回数- で増加 次に、年数が増加したときの反復回数の遷移を示します。 横軸が年数で縦軸は反復回数です。 反復回数は、4手法ともに、O(n)で増加しています。 一方、データ数やパラメータ数は、年数に比例して増えますので、これでは、実行時間の急激な増加が予想されます。
実験結果4-実行時間- で増加 次は実行時間の遷移です。 各手法とも実行時間はO(n2)で増加していました。 本研究は、大量の多年分データへの適用を考えているので、これは、スケーラビリティの観点から問題となります。
対策 モデリング範囲を固定し、スライド 範囲を5年とし、2年のオーバーラップを持たせる →データの始点、終点付近の精度の維持の為 VI 対策として、一度にモデリングする範囲を一定にし、徐々にスライドさせる方式を検討しました。 図で説明すると、このようになります。今回、一度にモデリングする範囲を5年とし、2年のオーバーラップをもたせるようにしました。 これは、データの始点・終点付近の精度を維持する為です。 日数
実験結果5-実行時間- 結果として、計算時間の増加はO(n)に抑えることができました。 また、誤差も一年分のデータに対して実施したときと同等の精度に抑えることに成功しました。
Application Accurate determination of Phenological transition dates Zhang et al (2003)
結果 ML, MAP法 年境界自動決定 推定範囲を区分化しスライド MAPのMLに対する優位性は明確には確認できず 本研究の手法は、ノイズ・欠落に耐性をもち、スケーラブ ルで、自動化可能、という、データマイニングに好ましい 性質を備える可能性を確認した。 ML, MAP法 →ノイズ、欠落への耐性確保 年境界自動決定 →人為的作業を排除しつつ、複数年になっても1年の時と同 様の制度が確保できる 推定範囲を区分化しスライド 計算時間 から に削減→スケーラビリティ確 保 MAPのMLに対する優位性は明確には確認できず 今後は、GIMMS, MODIS-EVIなど、現実の長期間、広範囲の データでの検証を行っていく