先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別) B4 三浦 善輝
1.Introduction (紹介) この研究に用いられている人工ニュー ラルネットは、コホネンによって紹介 された自己組織化マップ(SOM)であ る。 ⇒言葉と画像認識のフィールドの情 報処理ツールとして、最初に使われた。
1.Introduction (紹介) この論文の目的は、地域の頻度分析の ために、SOMを使って均一な地方を特 定することである。 SOMは制御された実験データを使用し て2つのクラスタ分析、K-means法と ward法で比較されます。
1.Introduction (紹介) クラスタ分析 ⇒地域の頻度分析のために均一な地方を 特定するのに用いられる。 ⇒地域の頻度分析のために均一な地方を 特定するのに用いられる。 ⇒統計多変量解析の標準的な方法である。 ⇒大きくて複雑なデータセットをグルー プのメンバーが類似した特徴を共有する 少数のデータグループに下げることがで る。
2.Self organizing map (自己組織化マップ) SOMの構造は、図1に示されます。 SOMは、1個の入力層と1個の出力層(コホネン層)から成ります。 [SOMのアルゴリズム] 1.入力層は、M個のニューロンである。 3.重みベクトルと入力ベクトルの間の ユークリッド距離を求める。 出力層は、平面で組織されたN個の ニューロンである。 4.入力ベクトルから最も小距離である 重みベクトルによる出力ニューロンは 勝ちニューロン とする。 , 2.図1の中の入力層と出力層をつ なぐ線は、重みを意味します。 5.時刻t+1の更新している重みベクト ルを求める。 初めは、小さな乱数で初期化 される。 η:学習率パラメータ σ:偏差
3.Experimental design (実験的なデザイン) 3.1. The process of the K-means method (K-means法の処理) 各データxi(1…n)に対してランダムにクラスタを割 り振る。 割り振ったデータをもとに各クラスタの中心 Vj(1…K)を計算する。計算は通常割り当てられた データの各要素の平均が使用される。 各 xi と各 Vj との距離を求め、xi を最も近い中心 のクラスタに割り当て直す。 上記の処理で全ての xi のクラスタの割り当てが 変化しなかった場合は処理を終了する。それ以 外の場合は新しく割り振られたクラスタから Vj を再計算して上記の処理を繰り返す。
3.Experimental design (実験的なデザイン) 3.2. The process of Ward's method (ウォード法の処理) ・クラスタ内の偏差平方和:S= を計算 N:クラスタ内のデータの数 M:M次元ベクトル Xi:標本データ(i=1 ~N、j= 1 ~M) X:標本平均(クラスターの重心) ・偏差平方和の増加量⊿Sができるだけ小さくなるようにクラスタをまとめる。 ・上記の処理を繰り返し、クラスタをまとめる。
3.Experimental design (実験的なデザイン) 3.3. Results and discussions (結果と議論) ・(a)と(b)の実験には、全3つのデータセット ・(a):全てが球のデータセット (b):1つの球のデータセット、 2つのベルトの形のデータセット
3.Experimental design (実験的なデザイン) 3.3. Results and discussions (結果と議論) ・図3は、2つのデータセットを15×15セルのネットワーク上に配置した。 ・それぞれ(a),(b)は、3つのマップに分けられる。
3.Experimental design (実験的なデザイン) 3.3. Results and discussions(結果と議論) ・図4:k-mean法、図5:ward法 ・図4、図5共にいくつかの境界点は、間違ったクラスタに分類されている。
3.Experimental design (実験的なデザイン) 3.3. Results and discussions(結果と議論) ・クラスタ分析実験の結果(表1)は、正常にクラスタに割り当てられている割合(%)として表現される。 ・SOMのクラスタ精度:全て100% ・データセット1のクラスタ精度:K-meansは97.3%、wardは95.0% ・データセット2のクラスタ精度:K-meansは68.3%、wardは70.3% ・特にデータセットがベルトの形((b)の実験)のとき、SOMはK-means法とward法より正確である。
4.Application(適用) 4.1.The study area and data(調査領域とデータ) ・図6は台湾の実際の雨量データ (+は雨量計の位置) ・調査領域は36,000 ・154台の雨量計
4.Application(応用) 4.2.Formation of regions(地方の形成) ・地方形成のために、利用できるデータはクラスタ分析に使われる。 ・緯度(m)[Latitude] ・経度(m)[Longitude] ・標高(m)[Elevation] ・年間平均降水量(mm)[Mean annual rainfall] ・年間降水量の標準偏差(mm)[Standard deviation of annual] ・各月間の月間平均降水量(mm)[Mean monthly rainfall for each month] ・各データには、目盛りの違いがあるので、データが0~1の間の値になるように計算される。
4.Application(応用) 4.2.Formation of regions(地方の形成) ・図7は、12×12セルのネットワーク上で得られる2次元のマップ ・157台の雨量計は、8つの集団に分類される。
4.Application(応用) 4.2.Formation of regions(地方の形成) ・図7で分類された雨量計の位置は 、図8のようになる。
4.Application(応用) 4.3.Heterogeneity measure(不均一性の測定) ・現場の特徴がクラスタ分析において、均一に特定されているか調査する ために、ホスキンとウォリスが開発した異質性検査(Heterogeneity test) を使ている。 ・異質性検査は、L-memontの分散と均一な地域に予想されること とを比較します。 ・加重された標準偏差は、 として計算 として計算 ・N:サイトの数 ・ :i番目のサイトのデータの数 ・ :sample L-CLのi番目のデータ
4.Application(応用) 4.3.Heterogeneity measure(不均一性の測定) ・異質性検査統計 :平均 :標準偏差 ・if H < 1 ならば “均一である” ・if 1 < H < 2 ならば “なんとかして不均一である” ・if H > 2 ならば “不均一である”
4.Application(応用) 4.3.Heterogeneity measure(不均一性の測定) □均一である □なんとかして不均一である □不均一である
5.Summary and conclusions (概要と結論) SOMは、K-mean法、ウォード法より 正確である。