クラスター分析入門 高崎経済大学 宮田 庸一
データ 番号 ラベル x1 x2 1 A 2 B 3 C 4 D 6 5 E 8 7 F 9 G 10
クラスター分析 直感的に3 つのグループに分けられることがわかる クラスター分析≒ ”データが近いものは同じグループ”と考える
類似度 データとデータの”近さ”を測る 2点間の距離を”近さ”として考える 【例】 点A と点B の近さ Aには1, B には2,Cには3 と、数を割り振り、点A とC の距離であればd13とする
類似度行列 A B C D E F G 1 2 7.07 9.22 8 9.06 2.24 6.4 8.6 8.06 9 5.83 7.81 6 5.66 6.08 5.39 1.41 d23 d13
群平均法 A とB が一番近いことがわかる 2 つの点をまとめて1 つの群にする. これは(A,B) という記号で表す 次に(A,B),C,D,E,F,G それぞれの近さを測る A とB という点を含んだ群1 と点C との距離をd(1,2)3 と表す
群と点の距離 A d13 C B d23
群と群の距離 d14 D A d13 d24 C B d23
クラスタリングの一連の作業 A,B,C,D,E,F,G 一番近いのはA とB の距離d12=1 →(A,B),C,D,E,F,G 2番目に近いのはF とG の距離d67=1.4 (A,B)とCの距離d(1,2)3=2.12 その他の距離も計算→ F とG の距離が近い →(A,B),C,D,E,(F,G) →(A,B,C),D,E,(F,G)
デンドログラム きりの良い場所で線を引く d(1,2)3=2.12
Ward法(クラスター内平方和) 群2 群1 A(x1,y1) D(x4,y4) B(x2,y2) C(x3,y3) E(x5,y5)
Ward法(クラスター内平方和) 群2 群1 A(x1,y1) D(x4,y4) B(x2,y2) C(x3,y3) E(x5,y5)
Ward法 群1 と群2 を合わせたものと, 群1 と点E を合わせたものなど, どのクラスター内平方和が小さくなるのかを調べ, 最も小さくなるほうの群と結合する 最初は与えられたn 個のデータはそれぞれ別のクラスターだと考えて, その中で上の基準で群と群をまとめていって最後には1 つのクラスターにまとめる方法をWard法と言う.
R(インポート) データのインポート と入力しEnterを押す data02<-read.csv("c:\\Program Files \\R\\principal_data02.csv",header=T,row.name="name") と入力しEnterを押す name 国語 社会 数学 物理 英語 相川 英之 91 98 63 72 88 吾妻 博 57 70 83 79 阿部 美穂 64 78 82 66 飯田 卓也 67 40 上原 広幸 55 59 内田 弓子 95 81 76 14
Rによる実行 群平均法 hc<-hclust(dist(data02),"ave") plot(hc,xlab="",ylab="高さ",sub="") Ward法 hc<-hclust(dist(data02),“ward")