Fuzzy c-Means法による クラスター分析に関する研究 畜産経営管理学講座 統計研究室 久田純司
クラスター分析とは クラスター分析とはデータ以外に基準を設定することなくデータの集まりをいくつかのグループに分ける方法
目的 1.HCMとFCMのクラスタリング精度の比較 2.FCMの特徴である帰属度の考察
HCM クラスタリングする対象を最も近いクラスター中心に割り当て中心を更新する方法 ある個体が属するクラスターは1つ ある個体 がクラスター に属する =1 ある個体 がクラスター に属さない =0
FCM FCMは個体がクラスターに帰属する度合いにあいまいさを認めあいまいさを帰属度で表す 変数 に0から1までの値をとることを許しその値を帰属性の度合い,つまり帰属度とする 各個体について全てのクラスターに対する帰属度を加えたものが1になる
目的関数の導入 FCMはこの目的関数を最適化し収束させることでクラスタリングを行う は 1を満たす適当なパラメータ は 1を満たす適当なパラメータ を大きくすると帰属性の度合いはよりあいまいになる はクラスター と個体 との距離
シミュレーション実験 HCMとFCMのクラスタリング精度の評価 それぞれ違う特徴をもつ2つのデータ群を2つのクラスターに分類し誤判別の割合で評価を行う FCMでは帰属度の一番大きいクラスターへ各個体を帰属させた
2つの2次元正規分布
(3)( )=( 0.5, -0.5) HCM 各20個,計40個 FCM(m=2,…,6) (1)( )=( 0.5, 0.5 ) (2)( )=( -0.5, -0.5 ) (3)( )=( 0.5, -0.5) HCM 各20個,計40個 FCM(m=2,…,6) 乱数を発生 を適用し2個の クラスターに分類
1つの の値について10000回繰り返し誤判別の割合を求める 一方から発生したデータを他方のクラスターへ分類 誤判別として個数を数える 1つの の値について10000回繰り返し誤判別の割合を求める
(1)の場合のデータ分布イメージ
(1)の場合の結果
(2)の場合のデータ分布イメージ
(2)の場合の結果
(3)の場合のデータ分布イメージ
(3)の場合の結果
クラスタリング精度の評価 FCMによる帰属度の大きいクラスターに各個体を帰属させるクラスタリングの精度が良いという傾向を得た
実際のデータへの適用
作家のMISIMA氏,NAKAJIMA氏,INOUE氏の 作品において2種類の助詞が使用されている相対頻度を表すデータを3個のクラスターに分類するクラスタリングを行う 彼等の作品に助詞の使用頻度による特徴があれば彼等の作品によるクラスターが作成されるはず HCMとFCM(m=2)を適用
分析結果
まとめ FCMの帰属度の大きいクラスターへ各個体を帰属させるクラスタリング技法の精度の良さを示す傾向を得た
帰属度による帰属順位