隠れマルコフモデルによる 時系列気象画像からの知識発見

Slides:



Advertisements
Similar presentations
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
最大エントロピーモデルに基づく形態素解析と辞書による影響
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
コンパイラ 2011年10月17日
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
Deep learningによる 読唇システム
言語体系とコンピュータ 第5回.
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
ことばとコンピュータ 2007年度1学期 第3回.
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
雑音重み推定と音声 GMMを用いた雑音除去
Observable modified Condition/Decision coverage
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
コンパイラ 2012年10月15日
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
サポートベクターマシン によるパターン認識
MPIを用いた並列処理 ~GAによるTSPの解法~
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
予測に用いる数学 2004/05/07 ide.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
バイトコードを単位とするJavaスライスシステムの試作
様々な情報源(4章).
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
HMM音声合成における 変分ベイズ法に基づく線形回帰
構造的類似性を持つ半構造化文書における頻度分析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
回帰分析入門 経済データ解析 2011年度.
コンパイラ 2012年10月11日
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報数理Ⅱ 第10章 オートマトン 平成28年12月21日.
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

隠れマルコフモデルによる 時系列気象画像からの知識発見 高知大学理学部数理情報科学科 本田研究室 B003G013N  勝吉進一

背景 現象の理解,予測 近年、時間で変動するような画像が大量にデータベースへ蓄積されるようになってきた 時間空間変動パターン知識の抽出 1週間の時系列気象画像 時間空間変動パターン知識の抽出 近年、時間で変動するような画像が、データベースで蓄積されるようになってきました。それに伴い、(クリック)データからの時間、空間変動パターンの知識ニーズが高まっています。例えば(クリック)今画面に出ている1週間で変化していくようなの時系列気象画像や、おおまかに季節によって変動する雲画像もその一つです。このように時間で変動するような画像データベースには、一週間という短いサイクルで変動するデータから一年でパターンが変動するデータがあり、このような現象の(クリック)理解や予測が高まっています。これらをふまえ、--スライド2へ 夏 冬 春、秋 現象の理解,予測

気象画像に対して適用し、その有用性を調べる 目的 時系列画像データベースから時間空間変動パターンを抽出する手法を確立 自己組織化マップ(SOM)による画像系列を記号系列に変換 隠れマルコフモデルによるモデル化 本研究では(クリック)時系列画像データベースからの時間空間変動パターンからのパターン抽出する手法の確立し、(クリック)自己組織化マップ(SOM)による画像系列の記号系列への変換を行い、(クリック)隠れマルコフモデルによるモデル化を行い、(クリック)それらを気象画像に対し適応し、その有用性を調べることを目的とします。 気象画像に対して適用し、その有用性を調べる

HMM:隠れマルコフモデル 確率的な状態遷移と確率的な記号出力を備えた計算機の数学的モデル:オートマトンの一種 Time flies like an arrow. 「光陰矢の如し」 「時蝿は矢を好む」 隠れマルコフモデルとは、確率的な状態遷移と確率的な記号出力を備えた計算機の数学的モデル:オートマトンといわれており、観測された状態遷移系列から、その出力記号を生成した状態遷移系列を一意的に復元できないために、言い換えれば状態遷移系列モデルが内部に隠れていて外から見えないため),「隠れ(hidden)」という名前が冠されています。つぎに簡単な例を挙げて隠れマルコフモデルついて説明していきます。 名詞,動詞,前置詞,冠詞,名詞 名詞,名詞,動詞,冠詞,名詞 品詞:状態,単語:出力記号 品詞という状態が隠れている・・・【隠れ】

[バウム・ウェルチアルゴリズム,EMアルゴリズム] 隠れマルコフモデル(推定問題) 画像系列→記号 季節など→状態 (1)Q={q1,・・・,qN}:状態の有限集合 (2)∑={o1,・・・,oM}:出力記号の有限集合 (3) A ={aij } :状態遷移確率分布 (4)B={bi(ot)}  :記号出力確率分布 (5)π={πi}  :初期状態確率分布 5項組M=(Q,∑,A,B,π) 右の図は先ほど説明した品詞付けの隠れマルコフモデルを表しています。図の青色で表されているものは、状態の有限集合Qを表しています。Timeや Fliesのような茶色のものは出力記号お有限集合∑を表し、緑色は状態遷移確率分布A、水色のものは記号出力確率分布B、ピンク色デ表されているものは初期状態確率分布を表しています。隠れマルコフモデルはこのような5項組モデルで定義されています。 推定問題 出力記号系列Oから、P(O|M)を最大にするようなモデルMを求める問題 [バウム・ウェルチアルゴリズム,EMアルゴリズム]

実験条件 使用する画像データ ・1997年~2000年の1月1日~12月31日の画像 ・気象衛星ひまわりによる日本上空の赤外画像(雲画像) ・高知大,菊地研究室でアーカイブ ・計1335枚(欠損あり) ・画像の記号系列の変換    クラスタ化・・・二段階ブロック化自己組織化マップ      (KATAOKA1997) 使用する画像データは、1997-2000の1月1日―12月31日までの気象衛星ひまわりによる日本上空の赤外画像(雲画像)(高知大菊地研究室) からアーカイブさせていただいたもの計1335枚を画像データとして使用しています。また,画像データに施される手法として、クラスタ化には二段階ブロック化 自己組織化マップ(KATAOKA1997、HONDA2002)の手法を使っています。この手法を使うことによって、(クリック)このように台風の位置が変動しているような画像でもブロック化されることによって同じタイプの画像として認識することが可能となっています。

クラスタリング結果  0   1   2   3   4   5  6   7   8   9   10  11  12  13   14  15   16  17  18  19   20  21   22  23  24  25   26  27   28  29  30  31   32  33   34  35  今画面に表示されているものがKATAOKA2002の手法によってクラスタ化された雲画像です。~番のクラスタにはこのような雲画像が集まっており、同じように ~番のクラスタにも同じように分類された雲画像が集まっております。このクラスタ化された画像に(クリック)0~35までナンバーをつけもう 一度時系列に展開すると 0,1,1,2,4,・・・・

クラスタの時系列展開 クリックこのようになります、青い点が2000年、赤い点が97年、黄色い点が98年水色の点が99年を表し、横軸が一年における日にち、縦軸がクラスタIDを 表しています。このような記号のデータを入力記号系列として実験を行います。

実験 モデルのパラメータの推定(状態遷移確率,記号出力確率,初期状態確率) ・隠れマルコフモデルによるモデル化 ・バウム・ウェルチアルゴリズム,EMアルゴリズムによってパラメータ推定 ・入力記号系列:クラスタの記号系列を28日ごとにセグメント化[95個] ・状態数は2~8の変動パラメータとする。 モデルのパラメータの推定(状態遷移確率,記号出力確率,初期状態確率) それでは実験の説明を行いたいと思います。まず目的となる隠れマルコフモデルによるモデル化を前のスライドで説明した推定問題と同じように EMアルゴリズムを使いモデルのパラメータ推定を行います。この際に学習データとなる記号系列が必要であるので、先ほどのスライドで表した クラスタの記号データを入力記号系列として28日ずつに分けて使用しました。また状態数は未知であるため状態数においては2~8の変動パラメータとしました。これら条件のもとモデル(状態遷移確率、記号出力確率、初期状態確率)のパラメータ推定をおこないました。

BIC(ベイズの情報量基準)による状態数選択 本実験において、状態数は未知であったため状態数においては2~8の変動パラメータとしてモデルを推定したが、実際求められたデータがどの状態においてがモデルとしての妥当性が高いかを調べるために、BIC(ベイスの情報量基準)を使い最適な状態数おけるモデルの選択を行いました。BICの式は-2(最大対数尤度)+dkとなっており、このdkは自由度に値しモデルの状態数が当てはまります。その検証結果がこのグラフに表れているのですが、BICの値は一番0に近く最小となるものがモデルとしてもっともらしいということが分かります。この結果、状態数5,6,または7,がBICの値が低いことより妥当性が高いとおもわれます。 ではこれからモデル推定の結果を説明したいと思います。 BICが小 →もっともらしい モデル BIC= ‐2(最大対数尤度)+dklogn  (dk:モデルの自由度 n:出力記号数)

実験結果1 真冬 春、秋、梅雨 春、秋 夏、秋 盛夏

状態系列の復元 手法:ビタビ・アルゴリズム このようになります。このグラフは状態数5における最適な1年の状態を表しており縦軸に各状態、横軸に日数を表しています。この結果から夏のように状態3で安定しているところもあるが、1月、二月のようにように一つの季節の中でも短い変動があって2つの状態で行き来してあることも分かった。

まとめ、今後の課題 ・ BIC(ベイスの情報基準)より、状態数が5,6のときがモデルに適していることが分かった。 考察 ・ 自己組織化マップによるクラスタリングと、隠れマルコフモデルによって時間空間変動パターンに関する知識を抽出することができた。 ・ BIC(ベイスの情報基準)より、状態数が5,6のときがモデルに適していることが分かった。 課題  ・本研究のシステムを使い、他のもっと複雑な時系列画像においても適用して有用性を確認する。 さいごに考察としてBIC(ベイスの情報基準)より、状態数が3,4のときがモデルに適していることが分かった。 最適な状態遷移系列を求めたことによって、1つの季節で安定している所もあれば、二つの状態の変動で成り立っている所もあることがわかり季節間のでの特徴を発見することができた本実験においてのシステムの有用性を確認できた。 課題として、本研究のシステムを使い、たのもと複雑な時系列データにおいても適用していくことが次の課題であると思われます。

情報量基準

情報量基準 これがAIC,BICの結果です。BICの値に注目してみると状態数が3、4または5が一番データとして妥当性が高いとされています。 状態数というのは時系列気象データで言うと、季節等にあてはまるものであるので、やはり春夏秋冬であるとか、春と秋がにているのではないかというところから、状態数が4付近のものが妥当性が高いと見られます。 AICのほうを確認してみると、状態数と共に情報量基準の値が0に近づいていってるので、状態数を増やして最実験する必要があるとかんがえられました。

実験結果

システム概要 SOM 学習 画像 知識発見 HMM データ 1 2 3 4 5 6 7 8 9 EMアルゴリズム クラスタリング 画像 学習 1 2 3 4 5 6 7 8 9 ・・・. ・・・ 36 AIC,BIC EMアルゴリズム バウム・ウェルチアルゴリズム 知識発見 データ HMM パラメータ推定 次にシステム概要について説明します。まず画像データベースをSOMで学習し、そのSOMで学習したものをクラスタリングします。 クラスタリングによって分類されたデータを使い、今度はEMアルゴリズムをつかいHMMによって必要な記号出力確率や初期確率のパラメータを推定します.それによって得られたデータは妥当であるかをAIC,BICによって判断します。 最後に隠れマルコフモデルを使い時系列データの理解、予測をします。

モデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムを 隠れマルコフモデル 時系列気象画像のクラスタID 記号系列ABCを出力する状態遷移系列は? S1-S3-S2, S2-S1-S2, S2-S3-S2の3種類。それぞれの確率は、 0.8×0.2×0.5×1.0×0.4×0.5=0.016 0.2×0.5×0.1×0.8×0.5×0.5=0.002 0.2×0.5×0.5×1.0×0.4×0.5=0.01 よって隠れマルコフモデルがABCを出力する確率は三つの合計0.028となる 0.4 状態数2~8までにおいての最適なモデル 記号ABCを 出力する確率 状態遷移系列を 求めたい!! モデルのパラメータ推定には、バウム・ウェルチアルゴリズム、EMアルゴリズムを 使用 S2 0.2 0.5 0.3 最適な状態遷移系列 ビタビ・アルゴリズム 0.1 0.5 0.4 S1 0.8 S3 0.0 0.5 0.3

画像データの説明 SOM SOM ヒストグラムを用いた二段階SOM Step1:時系列気象画像をm×nに 分割する     分割する Step2:分割された画像を自己組織化     マップによって学習させる Step3:学習データのクラスタIDの     ヒストグラムをつくる Step4:ヒストグラムを再び自己組織化  マップにかけ学習する Step5:学習データが集合し、クラスタ     に分けられる SOM 時系列気象画像 SOM 1  2  3  4  5 6  7 ・・・・・・・・・・・・・

実験 ・隠れマルコフモデルによるモデル化 EMアルゴリズムによってモデルのパラメータ推定 ☆学習データとなる記号系列が必要である。 今回本研究では、時系列気象画像のクラスタIDを97年から00年まで 1月1日~12月31日の順に並べ、記号系列とし、それぞれの年度は独 立させる学習データとし、さらに2週間(14日)と4週間(28日) に分け、2週間に対しては後半の一週間を次の系列の初めの一週間 となるようにする。(例:“13243433453213”→“34532133245671”) 同じように4週間に対しては後半の二週間を次の系列の初めの二週 間となるように反復させ、それぞれの14日、28日を独立させた 記号系列を学習データとした。この学習データにより、モデルのパ ラメータを推定した それでは実験の説明を行いたいと思います。まず目的となる隠れマルコフモデルによるモデル化を前のスライドで説明した推定問題と同じように EMアルゴリズムを使いモデルのパラメータ推定を行います。この際に学習データとなる記号系列が必要であるので、先ほどのスライドで表した クラスタの記号データを入力記号系列として28日ずつに分けて使用しました。

AIC,BIC AIC(赤池の情報量基準) BIC(ベイスの情報量基準) :情報量基準によるモデルの妥当性検証  :情報量基準によるモデルの妥当性検証 AIC=‐2(最大対数尤度)+2dk* BIC= ‐2(最大対数尤度)+dk* *dk:フリーパラメータ=O(O‐1)+O(N-1)+O-1 O:状態数 N:記号数 n:モデルにかかわる出力記号の数 状態遷移確率の フリ―パラメータ 記号出力確率のフリー パラメータ 初期状態確率のフリーパラメータ 次に、先ほどEMアルゴリズムによって得られたデータの、どの状態数のときのもでるが妥当性が高いかを調べるためにAIC(赤池の情報量基準)BIC(ベイスの情報量基準)を使用します。AIC=‐2(最大対数尤度)+フリーパラメータ BIC= ‐2(最大対数尤度)+フリーパラメータ*lognとなっています。またこのAIC,BICの結果として0に近いものが妥当性が高いとみられます。

状態遷移系列の復元 (ビタビ・アルゴリズム) S1→S2=0.5 S1→S3=0.5 S2→S1=0.1 S2→S2=0.4 S2→S3=0.5 初期状態 ・隠れマルコフモデルにおいての最適な状態遷移系列を求めるアルゴリズム A B C 0.8 最大の確率が得られた地点から太い矢印を逆向きにたどると S2→S3→S1 従って最適な状態遷移系列は S1→S3→S2となる S1 S1 S1 0.2 0.8 [0.16] [0.008] 0.2 ビタビアルゴリズムは、(クリック)隠れマルコフモデルにおける最適な状態遷移系列を求めるアルゴリズムのことをいいます。 では美旅アルゴリズムを下の簡単なモデルを使いながら説明したいと思います。このモデルは状態が三つの隠れマルコフモ出るで、状態はS1S2S3となっており、出力記号はABCで各確率は図のとうりです。では実際の動きをを右の図で説明します。初期状態確率は矢印の状態遷移上の数字で、各状態遷移確率は初期状態の左に書いているとうりです。s1、s2、s3の中のかくりつは各状態から各記号が出力される確率、状態の下のかっこは文頭からの現在地までの累積確率を表しています。ビタビアルゴリズムは、各状態の各出力記号にて最大の状態を記憶していくアルゴリズムで、この(クリック)S1S2S3からS1へ状態遷移する確率のうちS2が確率が高いため、ここでその状態遷移の前の記憶されます。ここでは(クリック)太線で表します。同じように確率が高いじょうたい遷移を記憶していき最終的に確率が一番高い地点から矢印をたどって戻っていくことによってもとまります。今回最大の最適な状態遷移とある総確率のちてんから太い矢印を(クリック)逆向きにたどると(クリック)S2S3S1となり、したがって最適な状態遷移系列はS1S3S2となります。 このように最適な状態をもとめるアルゴリズムをビタビ・アルゴリズムといいます。この美旅アルゴリズムをつかい、先ほどEMアルゴリズムによって求められた状態5のモデル使って最大の状態遷移系列を求めると(クリック) S2 S2 S2 0.5 0.0 0.5 [0.1] [0.0] [0.016] S3 S3 S3 0.0 0.0 1.0 0.0 [0.0] [0.08]

実験結果1(学習データが28日の状態5のモデル) 0.85 0.94 0.9 状態6[0.17] 状態5[0.14] 状態1[0.2](春,秋) 0.25 0.0 0.09 0.02 0.02 状態3[0.19] これらは状態数5のモデルのパラメータ推定によって得られたモデルです。これらのカラーはそれぞれの状態からの記号出力確率で,確率を色で表し、赤に近くなるにつれ0.25になり、青に近くなるにつれ0に近づきます。出力記号は左にある雲のクラスタの位置に対応させています。よって状態1における一番上の右端にある色はクラスタ0番の記号出力確率となります。また状態間に存在している矢印はその状態遷移を表しており、また数字は状態遷移する確率が表されています。各状態数の横に記されている数字は初期状態確率が表されています。記号出力確率が高いクラスタの雲画像から各状態においての季節を照らし合わせてみると 状態1は夏の終わり、秋、秋雨、状態2は冬、状態3は春、秋、状態4盛夏、状態5は初夏、梅雨という予測がたった。 0.01 状態4[0.24] 状態2[0.7](盛夏) 0.01 0.03 0.95 0.91 0.87

謝辞  本卒業研究に際して,  数理情報科学科菊地時夫助教授には時系列気象画像データの提供を頂きました。ここで心からの感謝を申し上げたいと思います。ありがとうございました。 本卒業研究に際して,  数理情報科学科菊地時夫助教授には時系列気象画像データの提供を頂きました。ここで心からの感謝を申し上げたいと思います。ありがとうございました。