Presentation is loading. Please wait.

Presentation is loading. Please wait.

隠れマルコフモデルによる 時系列気象画像からの知識発見

Similar presentations


Presentation on theme: "隠れマルコフモデルによる 時系列気象画像からの知識発見"— Presentation transcript:

1 隠れマルコフモデルによる 時系列気象画像からの知識発見
高知大学理学部数理情報科学科 本田研究室 B003G013N  勝吉進一

2 背景 現象の理解,予測 近年、時間で変動するような画像が大量にデータベースへ蓄積されるようになってきた 時間空間変動パターン知識の抽出
1週間の時系列気象画像 時間空間変動パターン知識の抽出 近年、時間で変動するような画像が、データベースで蓄積されるようになってきました。それに伴い、(クリック)データからの時間、空間変動パターンの知識ニーズが高まっています。例えば(クリック)今画面に出ている1週間で変化していくようなの時系列気象画像や、おおまかに季節によって変動する雲画像もその一つです。このように時間で変動するような画像データベースには、一週間という短いサイクルで変動するデータから一年でパターンが変動するデータがあり、このような現象の(クリック)理解や予測が高まっています。これらをふまえ、--スライド2へ 春、秋 現象の理解,予測

3 気象画像に対して適用し、その有用性を調べる
目的 時系列画像データベースから時間空間変動パターンを抽出する手法を確立 自己組織化マップ(SOM)による画像系列を記号系列に変換 隠れマルコフモデルによるモデル化 本研究では(クリック)時系列画像データベースからの時間空間変動パターンからのパターン抽出する手法の確立し、(クリック)自己組織化マップ(SOM)による画像系列の記号系列への変換を行い、(クリック)隠れマルコフモデルによるモデル化を行い、(クリック)それらを気象画像に対し適応し、その有用性を調べることを目的とします。 気象画像に対して適用し、その有用性を調べる

4 HMM:隠れマルコフモデル 確率的な状態遷移と確率的な記号出力を備えた計算機の数学的モデル:オートマトンの一種
Time flies like an arrow. 「光陰矢の如し」 「時蝿は矢を好む」 隠れマルコフモデルとは、確率的な状態遷移と確率的な記号出力を備えた計算機の数学的モデル:オートマトンといわれており、観測された状態遷移系列から、その出力記号を生成した状態遷移系列を一意的に復元できないために、言い換えれば状態遷移系列モデルが内部に隠れていて外から見えないため),「隠れ(hidden)」という名前が冠されています。つぎに簡単な例を挙げて隠れマルコフモデルついて説明していきます。 名詞,動詞,前置詞,冠詞,名詞 名詞,名詞,動詞,冠詞,名詞 品詞:状態,単語:出力記号 品詞という状態が隠れている・・・【隠れ】

5 [バウム・ウェルチアルゴリズム,EMアルゴリズム]
隠れマルコフモデル(推定問題) 画像系列→記号 季節など→状態 (1)Q={q1,・・・,qN}:状態の有限集合 (2)∑={o1,・・・,oM}:出力記号の有限集合 (3) A ={aij } :状態遷移確率分布 (4)B={bi(ot)}  :記号出力確率分布 (5)π={πi}  :初期状態確率分布 5項組M=(Q,∑,A,B,π) 右の図は先ほど説明した品詞付けの隠れマルコフモデルを表しています。図の青色で表されているものは、状態の有限集合Qを表しています。Timeや Fliesのような茶色のものは出力記号お有限集合∑を表し、緑色は状態遷移確率分布A、水色のものは記号出力確率分布B、ピンク色デ表されているものは初期状態確率分布を表しています。隠れマルコフモデルはこのような5項組モデルで定義されています。 推定問題 出力記号系列Oから、P(O|M)を最大にするようなモデルMを求める問題 [バウム・ウェルチアルゴリズム,EMアルゴリズム]

6 実験条件 使用する画像データ ・1997年~2000年の1月1日~12月31日の画像 ・気象衛星ひまわりによる日本上空の赤外画像(雲画像)
・高知大,菊地研究室でアーカイブ ・計1335枚(欠損あり) ・画像の記号系列の変換    クラスタ化・・・二段階ブロック化自己組織化マップ      (KATAOKA1997) 使用する画像データは、1997-2000の1月1日―12月31日までの気象衛星ひまわりによる日本上空の赤外画像(雲画像)(高知大菊地研究室) からアーカイブさせていただいたもの計1335枚を画像データとして使用しています。また,画像データに施される手法として、クラスタ化には二段階ブロック化 自己組織化マップ(KATAOKA1997、HONDA2002)の手法を使っています。この手法を使うことによって、(クリック)このように台風の位置が変動しているような画像でもブロック化されることによって同じタイプの画像として認識することが可能となっています。

7 クラスタリング結果  0   1   2   3   4   5  6   7   8   9   10  11  12  13   14  15   16  17  18  19   20  21   22  23  24  25   26  27   28  29  30  31   32  33   34  35  今画面に表示されているものがKATAOKA2002の手法によってクラスタ化された雲画像です。~番のクラスタにはこのような雲画像が集まっており、同じように ~番のクラスタにも同じように分類された雲画像が集まっております。このクラスタ化された画像に(クリック)0~35までナンバーをつけもう 一度時系列に展開すると 0,1,1,2,4,・・・・

8 クラスタの時系列展開 クリックこのようになります、青い点が2000年、赤い点が97年、黄色い点が98年水色の点が99年を表し、横軸が一年における日にち、縦軸がクラスタIDを 表しています。このような記号のデータを入力記号系列として実験を行います。

9 実験 モデルのパラメータの推定(状態遷移確率,記号出力確率,初期状態確率) ・隠れマルコフモデルによるモデル化
・バウム・ウェルチアルゴリズム,EMアルゴリズムによってパラメータ推定 ・入力記号系列:クラスタの記号系列を28日ごとにセグメント化[95個] ・状態数は2~8の変動パラメータとする。 モデルのパラメータの推定(状態遷移確率,記号出力確率,初期状態確率) それでは実験の説明を行いたいと思います。まず目的となる隠れマルコフモデルによるモデル化を前のスライドで説明した推定問題と同じように EMアルゴリズムを使いモデルのパラメータ推定を行います。この際に学習データとなる記号系列が必要であるので、先ほどのスライドで表した クラスタの記号データを入力記号系列として28日ずつに分けて使用しました。また状態数は未知であるため状態数においては2~8の変動パラメータとしました。これら条件のもとモデル(状態遷移確率、記号出力確率、初期状態確率)のパラメータ推定をおこないました。

10 BIC(ベイズの情報量基準)による状態数選択
本実験において、状態数は未知であったため状態数においては2~8の変動パラメータとしてモデルを推定したが、実際求められたデータがどの状態においてがモデルとしての妥当性が高いかを調べるために、BIC(ベイスの情報量基準)を使い最適な状態数おけるモデルの選択を行いました。BICの式は-2(最大対数尤度)+dkとなっており、このdkは自由度に値しモデルの状態数が当てはまります。その検証結果がこのグラフに表れているのですが、BICの値は一番0に近く最小となるものがモデルとしてもっともらしいということが分かります。この結果、状態数5,6,または7,がBICの値が低いことより妥当性が高いとおもわれます。 ではこれからモデル推定の結果を説明したいと思います。 BICが小 →もっともらしい モデル BIC= ‐2(最大対数尤度)+dklogn  (dk:モデルの自由度 n:出力記号数)

11 実験結果1 真冬 春、秋、梅雨 春、秋 夏、秋 盛夏

12 状態系列の復元 手法:ビタビ・アルゴリズム
このようになります。このグラフは状態数5における最適な1年の状態を表しており縦軸に各状態、横軸に日数を表しています。この結果から夏のように状態3で安定しているところもあるが、1月、二月のようにように一つの季節の中でも短い変動があって2つの状態で行き来してあることも分かった。

13 まとめ、今後の課題 ・ BIC(ベイスの情報基準)より、状態数が5,6のときがモデルに適していることが分かった。 考察
・ 自己組織化マップによるクラスタリングと、隠れマルコフモデルによって時間空間変動パターンに関する知識を抽出することができた。 ・ BIC(ベイスの情報基準)より、状態数が5,6のときがモデルに適していることが分かった。 課題  ・本研究のシステムを使い、他のもっと複雑な時系列画像においても適用して有用性を確認する。 さいごに考察としてBIC(ベイスの情報基準)より、状態数が3,4のときがモデルに適していることが分かった。 最適な状態遷移系列を求めたことによって、1つの季節で安定している所もあれば、二つの状態の変動で成り立っている所もあることがわかり季節間のでの特徴を発見することができた本実験においてのシステムの有用性を確認できた。 課題として、本研究のシステムを使い、たのもと複雑な時系列データにおいても適用していくことが次の課題であると思われます。

14 情報量基準

15 情報量基準 これがAIC,BICの結果です。BICの値に注目してみると状態数が3、4または5が一番データとして妥当性が高いとされています。
状態数というのは時系列気象データで言うと、季節等にあてはまるものであるので、やはり春夏秋冬であるとか、春と秋がにているのではないかというところから、状態数が4付近のものが妥当性が高いと見られます。 AICのほうを確認してみると、状態数と共に情報量基準の値が0に近づいていってるので、状態数を増やして最実験する必要があるとかんがえられました。

16 実験結果

17 システム概要 SOM 学習 画像 知識発見 HMM データ 1 2 3 4 5 6 7 8 9 EMアルゴリズム
クラスタリング 画像 学習 ・・・. ・・・ 36 AIC,BIC EMアルゴリズム バウム・ウェルチアルゴリズム 知識発見 データ HMM パラメータ推定 次にシステム概要について説明します。まず画像データベースをSOMで学習し、そのSOMで学習したものをクラスタリングします。 クラスタリングによって分類されたデータを使い、今度はEMアルゴリズムをつかいHMMによって必要な記号出力確率や初期確率のパラメータを推定します.それによって得られたデータは妥当であるかをAIC,BICによって判断します。 最後に隠れマルコフモデルを使い時系列データの理解、予測をします。

18 モデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムを
隠れマルコフモデル 時系列気象画像のクラスタID 記号系列ABCを出力する状態遷移系列は? S1-S3-S2, S2-S1-S2, S2-S3-S2の3種類。それぞれの確率は、 0.8×0.2×0.5×1.0×0.4×0.5=0.016 0.2×0.5×0.1×0.8×0.5×0.5=0.002 0.2×0.5×0.5×1.0×0.4×0.5=0.01 よって隠れマルコフモデルがABCを出力する確率は三つの合計0.028となる 0.4 状態数2~8までにおいての最適なモデル 記号ABCを 出力する確率 状態遷移系列を 求めたい!! モデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムを 使用 S2 0.2 0.5 0.3 最適な状態遷移系列 ビタビ・アルゴリズム 0.1 0.5 0.4 S1 0.8 S3 0.0 0.5 0.3

19 画像データの説明 SOM SOM ヒストグラムを用いた二段階SOM Step1:時系列気象画像をm×nに 分割する
    分割する Step2:分割された画像を自己組織化     マップによって学習させる Step3:学習データのクラスタIDの     ヒストグラムをつくる Step4:ヒストグラムを再び自己組織化  マップにかけ学習する Step5:学習データが集合し、クラスタ     に分けられる SOM 時系列気象画像 SOM 1  2  3  4  5 6  7 ・・・・・・・・・・・・・

20 実験 ・隠れマルコフモデルによるモデル化 EMアルゴリズムによってモデルのパラメータ推定 ☆学習データとなる記号系列が必要である。
今回本研究では、時系列気象画像のクラスタIDを97年から00年まで 1月1日~12月31日の順に並べ、記号系列とし、それぞれの年度は独 立させる学習データとし、さらに2週間(14日)と4週間(28日) に分け、2週間に対しては後半の一週間を次の系列の初めの一週間 となるようにする。(例:“ ”→“ ”) 同じように4週間に対しては後半の二週間を次の系列の初めの二週 間となるように反復させ、それぞれの14日、28日を独立させた 記号系列を学習データとした。この学習データにより、モデルのパ ラメータを推定した それでは実験の説明を行いたいと思います。まず目的となる隠れマルコフモデルによるモデル化を前のスライドで説明した推定問題と同じように EMアルゴリズムを使いモデルのパラメータ推定を行います。この際に学習データとなる記号系列が必要であるので、先ほどのスライドで表した クラスタの記号データを入力記号系列として28日ずつに分けて使用しました。

21 AIC,BIC AIC(赤池の情報量基準) BIC(ベイスの情報量基準) :情報量基準によるモデルの妥当性検証
 :情報量基準によるモデルの妥当性検証 AIC=‐2(最大対数尤度)+2dk* BIC= ‐2(最大対数尤度)+dk* *dk:フリーパラメータ=O(O‐1)+O(N-1)+O-1 O:状態数 N:記号数 n:モデルにかかわる出力記号の数 状態遷移確率の フリ―パラメータ 記号出力確率のフリー パラメータ 初期状態確率のフリーパラメータ 次に、先ほどEMアルゴリズムによって得られたデータの、どの状態数のときのもでるが妥当性が高いかを調べるためにAIC(赤池の情報量基準)BIC(ベイスの情報量基準)を使用します。AIC=‐2(最大対数尤度)+フリーパラメータ BIC= ‐2(最大対数尤度)+フリーパラメータ*lognとなっています。またこのAIC,BICの結果として0に近いものが妥当性が高いとみられます。

22 状態遷移系列の復元 (ビタビ・アルゴリズム)
S1→S2=0.5 S1→S3=0.5 S2→S1=0.1 S2→S2=0.4 S2→S3=0.5 初期状態 ・隠れマルコフモデルにおいての最適な状態遷移系列を求めるアルゴリズム A B C 0.8 最大の確率が得られた地点から太い矢印を逆向きにたどると S2→S3→S1 従って最適な状態遷移系列は S1→S3→S2となる S1 S1 S1 0.2 0.8 [0.16] [0.008] 0.2 ビタビアルゴリズムは、(クリック)隠れマルコフモデルにおける最適な状態遷移系列を求めるアルゴリズムのことをいいます。 では美旅アルゴリズムを下の簡単なモデルを使いながら説明したいと思います。このモデルは状態が三つの隠れマルコフモ出るで、状態はS1S2S3となっており、出力記号はABCで各確率は図のとうりです。では実際の動きをを右の図で説明します。初期状態確率は矢印の状態遷移上の数字で、各状態遷移確率は初期状態の左に書いているとうりです。s1、s2、s3の中のかくりつは各状態から各記号が出力される確率、状態の下のかっこは文頭からの現在地までの累積確率を表しています。ビタビアルゴリズムは、各状態の各出力記号にて最大の状態を記憶していくアルゴリズムで、この(クリック)S1S2S3からS1へ状態遷移する確率のうちS2が確率が高いため、ここでその状態遷移の前の記憶されます。ここでは(クリック)太線で表します。同じように確率が高いじょうたい遷移を記憶していき最終的に確率が一番高い地点から矢印をたどって戻っていくことによってもとまります。今回最大の最適な状態遷移とある総確率のちてんから太い矢印を(クリック)逆向きにたどると(クリック)S2S3S1となり、したがって最適な状態遷移系列はS1S3S2となります。 このように最適な状態をもとめるアルゴリズムをビタビ・アルゴリズムといいます。この美旅アルゴリズムをつかい、先ほどEMアルゴリズムによって求められた状態5のモデル使って最大の状態遷移系列を求めると(クリック) S2 S2 S2 0.5 0.0 0.5 [0.1] [0.0] [0.016] S3 S3 S3 0.0 0.0 1.0 0.0 [0.0] [0.08]

23 実験結果1(学習データが28日の状態5のモデル)
0.85 0.94 0.9 状態6[0.17] 状態5[0.14] 状態1[0.2](春,秋) 0.25 0.0 0.09 0.02 0.02 状態3[0.19] これらは状態数5のモデルのパラメータ推定によって得られたモデルです。これらのカラーはそれぞれの状態からの記号出力確率で,確率を色で表し、赤に近くなるにつれ0.25になり、青に近くなるにつれ0に近づきます。出力記号は左にある雲のクラスタの位置に対応させています。よって状態1における一番上の右端にある色はクラスタ0番の記号出力確率となります。また状態間に存在している矢印はその状態遷移を表しており、また数字は状態遷移する確率が表されています。各状態数の横に記されている数字は初期状態確率が表されています。記号出力確率が高いクラスタの雲画像から各状態においての季節を照らし合わせてみると 状態1は夏の終わり、秋、秋雨、状態2は冬、状態3は春、秋、状態4盛夏、状態5は初夏、梅雨という予測がたった。 0.01 状態4[0.24] 状態2[0.7](盛夏) 0.01 0.03 0.95 0.91 0.87

24 謝辞  本卒業研究に際して,  数理情報科学科菊地時夫助教授には時系列気象画像データの提供を頂きました。ここで心からの感謝を申し上げたいと思います。ありがとうございました。 本卒業研究に際して,  数理情報科学科菊地時夫助教授には時系列気象画像データの提供を頂きました。ここで心からの感謝を申し上げたいと思います。ありがとうございました。


Download ppt "隠れマルコフモデルによる 時系列気象画像からの知識発見"

Similar presentations


Ads by Google