時空間データからのオブジェクトベース知識発見 EMアルゴリズムによる雲画像からオブジェクト抽出 高知大学理学研究科 王帥 本田理恵
背景 リモートセンシングやGISなどの様々な分野において、時間・空間で変動するデータ集合からのパターン発見が重要になっていている。 空間データ内の特徴であるオブジェクトの属性(位置、広がり、テクスチャなど)を時系列データとして抽出 記述されたデータからのパターンの発見 予測への応用
本研究の目的 時系列画像からの不特定数・不定形状のオブジェクトの抽出法の検討 ひまわり(GMS-5)の気象画像に適用 EMアルゴリズムによる混合密度分布推定 ひまわり(GMS-5)の気象画像に適用 成分数不定性の問題の解決法
オブジェクト抽出の方法 任意の雲点の座標 Xi=(xi,yi) 間引き画像 原画像 2値画像 オブジェクト 多変量正規分布の混合分布でモデル化 未知パラメータ q: 成分数 {ωj、μj、Σj}
EMアルゴリズムによるパラメータ推定 成分数qとモデルパラメータ{ωj、μj、Σj}の初期値を与える。 対数尤度 のパラメータの期待値を計算 Mステップ 対数尤度を最大するパラメータを計算
実験環境 実行時間:約33分43秒 CPU Pentium Ⅲ 1GHz OS TurboLinux Server6.5 メモリ 256Mb データ個数 1243 反復回数 100 実行時間:約33分43秒
成分数の影響
成分数不定性の解決法 異なる成分数での試行結果を評価して最良のケースを選択 総当たり試行 逐次試行 大きめの成分数を与えて複数回試行し、重み係数の大きい安定成分のみ抽出
実験 アルゴリズム qmax=10 重み係数閾値=0.05 Q:パラメータ 最大成分数qmaxを与える。 M回のEMアルゴリズム(異なる初期値)による推定実行 重み係数が閾値を超える成分のみ取り出す。 M回の試行の内、Q%以上出現した類似解のみ正当な解として取り出す。 qmax=10 重み係数閾値=0.05 Q:パラメータ
試行結果1 (成分数10)
試行結果2 (成分数10)
試行結果3 (成分数10)
ファイル クラス 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 37 112 46 43 105 63 111 48 167 136 156 40 149 82 184 107 35 123 36 47 52 133 83 183 109 24 119 103 135 118 53 44 106 114 84 121 173 113 85, 34 56 155 87 120 131 70 150 85 134 55 157 49 182 102 41 58 45 158 32 147 67 125 81 39 78 29
10回の試行結果の重ね合わせ (成分数10)
まとめ 不特定数・不定形状のオブジェクトを検出においてEMアルゴリズムは基本的に有効であるが、成分数(オブジェクト数:未知)が解に大きな影響を与えてしまう。 複数試行での安定成分検出の実験では、代表的な成分は6割のケースで出現し、おおむね有効なアルゴリズムであることがわかる。 ただし表現の不定性や大量の計算時間の問題がある。 今後、最適成分数を評価するアルゴリズムを再検討する必要がある。
理想的な値 成分数と標準偏差がわかれば、理想的な結果が得られるが、それはわかりませんから,
Fe.98070816.pgm
Fe.98070816の2値画像
Fe.98070816データ間引き3
成分数3
成分数4
成分数5