Cluster Analysis 徳山研究室M2 鈴木　晶子.

Cluster Analysis 徳山研究室M2 鈴木　晶子

発表内容クラスタリングとは大量のデータを操作するために、クラスタリングメソッドに要求されることクラスタリング技術の紹介
分割法、階層的手法、密度に基づく方法、格子に基づく方法、モデルに基づく方法 Outlier detection

クラスタリングとはクラスタリング(Clustering) データをクラス(class)またはクラスタ(cluster)にグループ化すること
同じクラスタに属するオブジェクトを比較した時には、互いに高い類似性をもつ異なるクラスタに属するオブジェクトを比較した時には、高い相違性をもつ非類似度(dissimilarity)は、オブジェクトを記述する属性値に基づいて評価される

クラスタリングの応用(1/2) クラスタリングは多くの分野において、幅広く用いられている応用例：
自動車保険において、高い損害賠償を伴う保険証保持者のグループを特定する情報検索の目的で、ウェブ上の文書をクラス分けするクラスタリングによって、データの密な領域と疎な領域を識別することができるデータの大域的な分布パターンや、属性間の相関を発見することができる

クラスタリングの応用(2/2) クラスタリングをデータマイニングのツールとして用いる場合、2通りの用い方がある
データ分布を調べ、各クラスタの特徴を観察するための独立したツールとしての用い方特徴づけ、あるいは分類を行うための、前処理としての用い方

クラスタリングへの要求データマイニング分野において、クラスタリングに要求されること Scalability(拡張性)
異なるタイプの属性を扱えること任意のカタチをしたクラスタの発見入力パラメータを決定するための知識ができるだけ求められないことノイズの入ったデータを扱えること入力レコードの順序に依存しないこと高次元性 Constraint-based clustering(特定の制約下におけるクラスタリング) 解釈のしやすさと、使いやすさ

様々な種類のデータクラスタリングで扱うデータには様々な種類がある Interval-scaled variables
連続した値をとる Binary variables(ニ値変数) Nominal variables ニ値変数の一般化で、2つ以上の状態をとる Ordinal variables 値に順序が定められている Ratio-scaled variables 指数スケールのような、非線形の尺度をもつ

タイプの混合したデータ多くのデータベースにおいては、様々なタイプの変数が混ざっている
このようなデータの非類似度は、全ての変数を[0.0, 1.0]の共通したスケール上に置き換えることにより、求めることができる

主なクラスタリング手法の分類 Partitioning methods (分割手法) Hierarchical methods
(階層的手法) Density-based methods (密度に基づく手法) Grid-based methods (格子に基づく手法) Model-based methods (モデルに基づく手法)

8.4 Partitioning Methods

Partitioning Method 入力 n個のオブジェクトからなるデータベースクラスタの数k(k≦n) 出力入力に対するk個の分割
各分割がクラスタを表すクラスタは、目的となる分割基準(距離など)を最適化するように形成される各オブジェクトは厳密にひとつのグループに属する

古典的な分割手法各クラスタに代表点を定め、クラスタ内の各オブジェクトと代表点との非類似度を求めるこの和を最小化するように分割を行う
代表点の取り方として、k-means法とk-medoids法が有名 k-means method そのクラスタに含まれているオブジェクトの平均値（重心）をもとにして評価される k-medoids method medoid(最もクラスタの中心付近に位置するオブジェクト)をもとにして評価される

k-Means Method

k-means methodの性質クラスタが小さくまとまっていて、互いに離れたところにあれば、うまく機能する
大きなデータセットの処理には比較的拡張性があり、効果的クラスタの平均値が定義できる時にしか使えないカテゴリ属性が含まれるデータには用いることができないクラスタの数kをあらかじめ指定する必要があるノイズやoutlierの影響を受けやすい

k-Medoids Method PAM(Partitioning around Medoids)
k-medoids algorithmを取り入れたもののひとつはじめに、ランダムにk個のmedoidを選び、その後良いmedoidsを選ぶよう繰り返す取り得る全てのオブジェクトのペアについて考え、medoidとなるオブジェクトを交換してより良いものへ変えていく

k-medoids methodの性質 k-means法に比べてノイズやoutlierの影響を受けにくい

大きなデータベースへの適用大きなデータベースに対する効率的な分割アルゴリズム
CLARA(Clustering LARge Applications) CLARANS(Clustering LARge Applications based upon RANdomized Search)

CLARAとCLARANS CLARA CLARANS データの集合全体について考える代わりに、データの小さなサンプルをとって考える
このサンプルの中から、PAMを用いてmedoidを決定するサンプルをいくつかとり、得られた結果の中から最も良いものを出力する CLARANS CLARAを改良したもの medoidを更新した時に新たにサンプリングを行う点において、CLARAと異なっている

8.5 Hierarchical Methods

Hierarchical Methods 与えられたデータオブジェクトの集合に対する、階層構造(hierarchical decomposition)を生成する階層構造がボトムアップ的に形成されるかトップダウン的に形成されるかによって、凝集型(agglomerative)と分枝型(divisive)に分かれる

2つのタイプのメソッド【凝集型メソッド】（ボトムアップ） step 0 1 2 3 4 a ab b abcde c cde d de e
【分枝型メソッド】（トップダウン）

階層的手法の難しさ純粋な階層的クラスタリングでは、一度マージあるいは分割が行われると、それを修正することができない
階層的手法の質を向上させるアイデア →他のクラスタリング手法を組み合わせる BIRCH CURE ROCK Chameleon

BIRCH BIRCH: Balanced Iterative Reducing and Clustering using Hierarchies クラスタを要約して表現するために2つの概念を用いる clustering feature clustering feature tree(CF tree)

clustering featureとCF tree
CF(clustering feature) クラスタの要約情報を3つの要素で表す N : クラスタ内の点の数 LS: N点の線形和 SS: N点の二乗和 CF tree clustering featureを格納する平衡木 nonleaf nodeには、その子ノードが持っているCFの総和が格納される

CF Tree node A (root: 全てのデータ) node B node C node D オブジェクトの集合（サブクラスタ）

アルゴリズムの流れ Phase 1 データベースをスキャンしてCF木を作るオブジェクトが挿入されるたびにCF木が動的に構築されていく
オブジェクトは、最も距離が近い葉エントリーに挿入される CF木のサイズが主記憶の容量を超えたら、CF木を再構築する Phase 2 既存のクラスタリングアルゴリズムを適用し、CF木の葉ノードをクラスター化する

BIRCHの特色計算時間がオブジェクト数に対して線形入力されたオブジェクトに対して動的なクラスタリングが可能
高速で実行可能で、大きなデータベースにも拡張可能 CF木の各ノードはある限られた数のエントリーしか持つことができないため、CF木のノードはユーザから見て「自然な」ものになっているとは限らないクラスタの形が球状でない場合、うまく働かない

8.6 Density-Based Methods

Density-Based Methods
その“近傍”(neighborhood) の密度がある閾値を越えている限り、クラスタを成長させ続けるノイズ(outlier)を取り除いたり、任意の様々な形をしたクラスタを発見するために用いることができる

Density-Based Methods
密度に基づくクラスタリングアルゴリズム DBSCAN OPTICS cluster orderingという順序をオブジェクトに対して与えてクラスタリングを行う DENCLUE 密度分布関数(density distribution function)という関数を定め、この関数の値をもとにクラスタリングを行う

DBSCAN DBSCAN: Density-Based Spatial Clustering of Applications with Noise 半径ε以内にMinPts個以上のオブジェクトを含むようなオブジェクトを、次々に集めていく Oから density-reachable ε オブジェクトO

DBSCAN density-based cluster density-reachableなオブジェクトの極大集合をクラスタと考える
どのクラスタにも含まれないオブジェクトはノイズとみなされる

8.7 Grid-Based Methods

Grid-Based Methods 格子データ構造を用いる方法空間を、格子構造を形成する有限個のセルに量子化する
クラスタリングの操作は、この格子構造に対して行われる処理時間はデータの数ではなくセルの数に依存するため、速い

Grid-Based Methods STING 典型的なgrid-based approach
格子セルに格納された統計情報をもとに探索を行う WaveCluster ウェーブレット変換を用いてクラスタリングを行う CLIQUE 高次元データ空間におけるクラスタリングのための方法

CLIQUE CLIQUE: Clustering In QUEst density-based とgrid-basedの手法を統合したもの
大きなデータベースにおいて、高次元データをクラスタリングするのに有用

CLIQUE 1st step n次元データ空間を、長方形ユニットに分割その中から、“密な”ユニットを特定する
ユニットは、その中に含まれているデータの割合がある閾値を超えた時に密であるとする Apriori propertyに基づいて探索される 2nd step 連結高濃度ユニットを覆う最大領域を決定し、クラスタとする

Apriori Property Apriori property
k次元ユニットが密ならば、そのユニットを(k-1)次元空間に射影したものも密であるあるk次元ユニットにおいて (k-1)次元空間への射影が密ではない ↓ k次元ユニットも密ではない k-1次元空間で見つかった高濃度ユニットから、k次元空間における高濃度ユニットの候補を生成することが可能

CLIQUEの特徴入力の順序が結果に影響しにくいデータ分布を推測する必要がない入力サイズに線形時間
データの次元が増えた時に良い拡張性を示す手法の単純さを犠牲にして、結果の精度を悪化させている

8.8 Model-Based Clustering Methods

Model-Based Clustering
与えられたデータと、ある数学的モデルとの適合性を最適化する主に2つのアプローチがある統計的アプローチ(statistical approach) ニューラルネットワーク (neural network approach)

Statistical Approach 概念クラスタリング(conceptual clustering)
機械学習におけるクラスタリングの方法最初に類似したオブジェクトのグループを特定し、その後、各グループの特徴を見つけ出す（この点が従来のクラスタリングと異なる）各グループは概念またはクラスを表す多くの手法では、概念あるいはクラスを決定するために確率的尺度を用いている

概念クラスタリングの例 COBWEB classification treeという階層構造を生成する

Neural Network Approach
各クラスタを見本(exemplar)として表す見本はクラスタの”プロトタイプ”として振舞う新たなオブジェクトは、何らかの距離尺度に基づいて、最も類似している見本を持つクラスタへ分配される有名なものに次の2つの手法がある競合学習(competitive learning) 自己組織化特徴マップ (self-organizing feature maps)

8.9 Outlier Analysis

Outlierってなに outlier 他のデータと著しく異なっていたり、つじつまの合わないデータ例：年齢が999歳

Outlier Mining outlierそのものに特別な関心がある場合がある不正行為の特定特別なマーケティング医療における分析
クレジットカードの異常な使用の特定特別なマーケティング極端に低い、あるいは高い収入をもつ人のふるまいを識別する医療における分析医療手当に対する異常な反応の発見 outlierを発見し、分析すること →outlier mining

Outlier Miningの方法(1/2) 統計的アプローチ(statistical approach)
与えられたデータ集合に対して確率モデル（正規分布とか）を仮定し、モデルに対しdiscordancy test(不一致テスト)を用いることでoutlierを識別するテストの適用にはデータ集合のパラメータ(データ分布など) 分布のパラメータ(平均値や分散など) 予測されるoutlierの数が必要となる

Outlier Miningの方法(2/2) 距離に基づくアプローチ (distance-based approach)
データの集合Sのうち、少なくとも割合pのオブジェクトが距離d以上離れているとき、そのオブジェクトはoutlierであるとする偏差に基づくアプローチ (deviation-based approach) グループに含まれているオブジェクトの主な特徴を調べることにより、outlierを特定するこの特徴から逸脱していると考えられるオブジェクトはoutlierとみなされる

Cluster Analysis 徳山研究室M2 鈴木　晶子.

Similar presentations

Presentation on theme: "Cluster Analysis 徳山研究室M2 鈴木　晶子."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Cluster Analysis 徳山研究室M2 鈴木 晶子.

Similar presentations

Presentation on theme: "Cluster Analysis 徳山研究室M2 鈴木 晶子."— Presentation transcript:

Similar presentations

About project

フィードバック

Cluster Analysis 徳山研究室M2 鈴木　晶子.

Presentation on theme: "Cluster Analysis 徳山研究室M2 鈴木　晶子."— Presentation transcript: