情報知能学基礎演習豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章

情報知能学基礎演習豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
情報知能学科白井　英俊

前回のコメント・質問連関規則を作る時に、信頼度、サポートの下限の値を記入しますが、信頼度は事前確率より高くないといけないので、itemFrequenryで出した値の中で、一番高いのより、少し高くしといたほうがいいでしょうか。 itemFrequencyPlotとすることによって一行前にあったitemFrequencyという変数（？）をplotしてるのでしょうか？温泉のデータマイニングの時、効能的には一緒なのにヘッドとボディの部分を入れ替えるだけで確率が変わるのが少し納得がいかなかった信頼度とか前提確率とかはわかるのですがsupport(サポート)っていったい何なんだろうと思った

前回のコメント・質問（続き) inspect(SORT(雨ルール, “support”)[1:10, ]) について
[1:10,]ってところは１～10まで並べるって意味なのでしょうか？ options(digits=2)での表示桁数の変更はなぜ行っているのでしょうか？ print(inspect(温泉ルール[c(20,21, 70, 69, 3, 4, 127, 83, 61), ]), digits=3)で、表示の最後にNULLと表示されるのはなぜでしょうか？ Rを開きなおさずに、それまでの実行をなかったことにできるようなコマンドやツールはないのですか？

6章クラスター分析クラスター分析：観測対象を、互いに似たもの同士（「類似度」）でグループ分け二つの分類：
6章　クラスター分析クラスター分析：　観測対象を、互いに似たもの同士（「類似度」）でグループ分け二つの分類：階層的：　「階層」とは動植物の体系のように、分類が大分類から小分類へと段階的に分類が細かくなっているようなもの非階層的

6.1 階層的クラスター分析類似度の定義ユークリッド距離（日常的な感覚の「距離」） 2変数の場合：との距離dij =
6.1 階層的クラスター分析類似度の定義　　ユークリッド距離（日常的な感覚の「距離」） 2変数の場合：　と　　　　　　　の　　　　距離dij = 　　　多変量の場合(n次元)

6.1.2 動物の分類を例に階層的クラスター分類の手順
変数を用いて個々の対象間の距離をすべて計算し、その中で距離が最も短い対象同士を併合して、最初のクラスターを作成新しく併合されたクラスターと他の対象間の距離を再度計算し、手順1で計算された対象間の距離を含めてもっとも近いものを併合する。手順2を繰り返して、すべてのクラスターが統合されるまで計算クラスターが併合される過程を表すデンドログラムを描く

動物の分類を例にした距離標準化（平均0.0、分散1.0）動物体重(kg) 脳の重さ(g) 牛 465 423 馬 521 655
ゴリラ 207 406 人間 62 1320 チンパンジー 52 440 動物体重脳の重さ牛 0.921 -0.581 馬 1.175 0.016 ゴリラ -0.246 -0.625 人間 -0.902 1.727 チンパンジー -0.947 -0.537 距離を求める「牛」と「馬」を一つのクラスターにする牛馬ゴリラ人間 0.65 1.17 1.56 2.94 2.69 2.44 チンパンジー 1.87 2.19 0.71 2.26 最小値

クラスター間の距離最短距離法：クラスター内の要素からの最短距離最長距離法：クラスター内の要素からの最長距離
C1：牛＋馬ゴリラ人間 2.44 チンパンジー 0.71 2.26 1.34 2.80 最小値 2.01 「ゴリラ」と「チンパンジー」を一つのクラスターにする　重心法：　クラスターの重心（平均）からの距離　最短距離法：　クラスター内の要素からの最短距離　最長距離法：　クラスター内の要素からの最長距離　群平均法：　クラスター内の要素からの距離の平均

デンドログラム

6.1.4 ウォード法ウォード法：２つのクラスターを併合する時に、クラスター内の平方和を最小にするようにクラスターを併合する
クラスター間の距離：2つのクラスターを併合した時の平方和（散布度）の増加量で定義平方和の増加量が大きい⇒２つのクラスターが類似していない　　⇒平方和の増加量が小さいものから併合することで、似たもの同士がまとまる散らばりの変化量＝併合後の平方和 - ∑（それぞれの平方和）

ウォード法（続き）利点：鎖効果が起こりにくい
鎖効果：ある一つのクラスターに対象が一つずつ順番に吸収されて、クラスターの形成がなされていく減少。　　特に最短距離法でこれが起こりやすい　　重心法は、クラスター併合後に距離が短くなる場合があり、距離の単調性が保証されないクラスター法は実用場面でよく使われ、お勧め

ヒートマップ（図6.5)

6.2 非階層的クラスター分析非階層的手法では、あらかじめ指定したクラスター数で観測対象を分類
利点：計算が速い。大量のデータを処理する場合は、クラスター数の大体の目星をつけて、クラスター数を変えて非階層的手法を数回実施した方が効率が良い（場合が多い）欠点：　クラスター数を指定しなければ分析できない

k-means法 MacQueen(1967)による提案 N個の観測対象をK個の初期クラスターに任意に分類しておく
各クラスターの中心点を計算 N個の観測対象のK個のクラスターの中心点への距離を計算(N*K個）すべての観測対象に関して、その時点で各自が所属しているクラスターへの距離が、K個のクラスターの中で一番近ければ計算終了。さもなければ、一番近いクラスターに割り当てなおして２へ。

k-means法の確認４つの観測対象、2次元の特徴量この観測対象を2つのクラスターに分ける(K=2) AB と CD に分類
x1 x2 A 6 4 B -2 2 C D AB と CD に分類クラスターの中心点を　　　　求める： AB = (2,3), CD = (-1,-1)

k-means法の確認（続) (3) それぞれの観測対象から、これらの中心点への距離を計算（右表、赤字は各行の最小値)
(AB) (CD) A 17 74 B 10 C 29 2 D 25 (4) Bが誤分類されているため、クラスターを(A)と(BCD)に分類し、中心点を計算：(A)=(6,4), (BCD)=(-1.3, 0 ) 観測対象 (A) (BCD) A 69.8 B 68 4.44 C 72 5.78 D 80 0.44 (5)それぞれの観測対象から、これらの中心点への距離を計算（右表)⇒終了

非階層法の注意クラスターの解釈は分析者の責任初期クラスターの初期値に依存するため、出力はいつも同じとは限らない
分析者の判断により、適切なクラスター数を決定して解釈を行う

情報知能学基礎演習豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章

Similar presentations

Presentation on theme: "情報知能学基礎演習豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章

Similar presentations

Presentation on theme: "情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章"— Presentation transcript:

Similar presentations

About project

フィードバック

情報知能学基礎演習豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章

Presentation on theme: "情報知能学基礎演習豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章"— Presentation transcript: