情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章 情報知能学科 白井 英俊
前回のコメント・質問 連関規則を作る時に、信頼度、サポートの下限の値を記入しますが、信頼度は事前確率より高くないといけないので、itemFrequenryで出した値の中で、一番高いのより、少し高くしといたほうがいいでしょうか。 itemFrequencyPlotとすることによって一行前にあったitemFrequencyという変数(?)をplotしてるのでしょうか? 温泉のデータマイニングの時、効能的には一緒なのにヘッドとボディの部分を入れ替えるだけで確率が変わるのが少し納得がいかなかった 信頼度とか前提確率とかはわかるのですがsupport(サポート)っていったい何なんだろうと思った
前回のコメント・質問(続き) inspect(SORT(雨ルール, “support”)[1:10, ]) について [1:10,]ってところは1~10まで並べるって意味なのでしょうか? options(digits=2)での表示桁数の変更はなぜ行っているのでしょうか? print(inspect(温泉ルール[c(20,21, 70, 69, 3, 4, 127, 83, 61), ]), digits=3)で、表示の最後にNULLと表示されるのはなぜでしょうか? Rを開きなおさずに、それまでの実行をなかったことにできるようなコマンドやツールはないのですか?
6章 クラスター分析 クラスター分析: 観測対象を、互いに似たもの同士(「類似度」)でグループ分け 二つの分類: 6章 クラスター分析 クラスター分析: 観測対象を、互いに似たもの同士(「類似度」)でグループ分け 二つの分類: 階層的: 「階層」とは動植物の体系のように、分類が大分類から小分類へと段階的に分類が細かくなっているようなもの 非階層的
6.1 階層的クラスター分析 類似度の定義 ユークリッド距離(日常的な感覚の「距離」) 2変数の場合: と の 距離dij = 6.1 階層的クラスター分析 類似度の定義 ユークリッド距離(日常的な感覚の「距離」) 2変数の場合: と の 距離dij = 多変量の場合(n次元)
6.1.2 動物の分類を例に 階層的クラスター分類の手順 変数を用いて個々の対象間の距離をすべて計算し、その中で距離が最も短い対象同士を併合して、最初のクラスターを作成 新しく併合されたクラスターと他の対象間の距離を再度計算し、手順1で計算された対象間の距離を含めてもっとも近いものを併合する。 手順2を繰り返して、すべてのクラスターが統合されるまで計算 クラスターが併合される過程を表すデンドログラムを描く
動物の分類を例にした距離 標準化(平均0.0、分散1.0) 動物 体重(kg) 脳の重さ(g) 牛 465 423 馬 521 655 ゴリラ 207 406 人間 62 1320 チンパンジー 52 440 動物 体重 脳の重さ 牛 0.921 -0.581 馬 1.175 0.016 ゴリラ -0.246 -0.625 人間 -0.902 1.727 チンパンジー -0.947 -0.537 距離を求める 「牛」と「馬」を一つのクラスターにする 牛 馬 ゴリラ 人間 0.65 1.17 1.56 2.94 2.69 2.44 チンパンジー 1.87 2.19 0.71 2.26 最小値
クラスター間の距離 最短距離法: クラスター内の要素からの最短距離 最長距離法: クラスター内の要素からの最長距離 C1:牛+馬 ゴリラ 人間 2.44 チンパンジー 0.71 2.26 1.34 2.80 最小値 2.01 「ゴリラ」と「チンパンジー」を 一つのクラスターにする 重心法: クラスターの重心(平均)からの距離 最短距離法: クラスター内の要素からの最短距離 最長距離法: クラスター内の要素からの最長距離 群平均法: クラスター内の要素からの距離の平均
デンドログラム
6.1.4 ウォード法 ウォード法:2つのクラスターを併合する時に、クラスター内の平方和を最小にするようにクラスターを併合する クラスター間の距離:2つのクラスターを併合した時の平方和(散布度)の増加量で定義 平方和の増加量が大きい⇒2つのクラスターが類似していない ⇒平方和の増加量が小さいものから併合することで、似たもの同士がまとまる 散らばりの変化量=併合後の平方和 - ∑(それぞれの平方和)
ウォード法(続き) 利点:鎖効果が起こりにくい 鎖効果:ある一つのクラスターに対象が一つずつ順番に吸収されて、クラスターの形成がなされていく減少。 特に最短距離法でこれが起こりやすい 重心法は、クラスター併合後に距離が短くなる場合があり、距離の単調性が保証されない クラスター法は実用場面でよく使われ、お勧め
ヒートマップ (図6.5)
6.2 非階層的クラスター分析 非階層的手法では、あらかじめ指定したクラスター数で観測対象を分類 利点:計算が速い。大量のデータを処理する場合は、クラスター数の大体の目星をつけて、クラスター数を変えて非階層的手法を数回実施した方が効率が良い(場合が多い) 欠点: クラスター数を指定しなければ分析できない
k-means法 MacQueen(1967)による提案 N個の観測対象をK個の初期クラスターに任意に分類しておく 各クラスターの中心点を計算 N個の観測対象のK個のクラスターの中心点への距離を計算(N*K個) すべての観測対象に関して、その時点で各自が所属しているクラスターへの距離が、K個のクラスターの中で一番近ければ計算終了。さもなければ、一番近いクラスターに割り当てなおして2へ。
k-means法の確認 4つの観測対象、2次元の特徴量 この観測対象を2つのクラスターに 分ける(K=2) AB と CD に分類 x1 x2 A 6 4 B -2 2 C D AB と CD に分類 クラスターの中心点を 求める: AB = (2,3), CD = (-1,-1)
k-means法の確認(続) (3) それぞれの観測対象から、これらの中心点への距離を計算(右表、赤字は各行の最小値) (AB) (CD) A 17 74 B 10 C 29 2 D 25 (4) Bが誤分類されているため、 クラスターを(A)と(BCD)に分類し、中心点を計算:(A)=(6,4), (BCD)=(-1.3, 0 ) 観測対象 (A) (BCD) A 69.8 B 68 4.44 C 72 5.78 D 80 0.44 (5)それぞれの観測対象から、これらの中心点への距離を計算(右表)⇒終了
非階層法の注意 クラスターの解釈は分析者の責任 初期クラスターの初期値に依存するため、出力はいつも同じとは限らない 分析者の判断により、適切なクラスター数を決定して解釈を行う