Cluster Analysis 徳山研究室M2 鈴木 晶子.

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
「わかりやすいパターン認識」 第1章:パターン認識とは
Data Clustering: A Review
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
Scalable Collaborative Filtering Using Cluster-based Smoothing
実証分析の手順 経済データ解析 2011年度.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
EMアルゴリズム クラスタリングへの応用と最近の発展
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
ガウス過程による回帰 Gaussian Process Regression GPR
サポートベクターマシン によるパターン認識
Fuzzy c-Means法による クラスター分析に関する研究
決定木とランダムフォレスト 和田 俊和.
第9章 混合モデルとEM 修士2年 北川直樹.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
音高による音色変化に着目した音源同定に関する研究
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
IIR輪講復習 #17 Hierarchical clustering
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
Introduction to Soft Computing (第11回目)
Anja von Heydebreck et al. 発表:上嶋裕樹
コンポーネントランク法を用いたJavaクラス分類手法の提案
予測に用いる数学 2004/05/07 ide.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
第4章 社会構造概念はどのように豊穣化されるか
Data Clustering: A Review
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Data Clustering: A Review
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
Data Clustering: A Review
自己組織化マップ Self-Organizing Map SOM
Data Clustering: A Review
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第16章 動的計画法 アルゴリズムイントロダクション.
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
メソッドの同時更新履歴を用いたクラスの機能別分類法
情報工学概論 (アルゴリズムとデータ構造)
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
Data Clustering: A Review
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
混合ガウスモデル Gaussian Mixture Model GMM
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

Cluster Analysis 徳山研究室M2 鈴木 晶子

発表内容 クラスタリングとは 大量のデータを操作するために、クラスタリングメソッドに要求されること クラスタリング技術の紹介 分割法、階層的手法、密度に基づく方法、格子に基づく方法、モデルに基づく方法 Outlier detection

クラスタリングとは クラスタリング(Clustering) データをクラス(class)またはクラスタ(cluster)にグループ化すること 同じクラスタに属するオブジェクトを比較した時には、互いに高い類似性をもつ 異なるクラスタに属するオブジェクトを比較した時には、高い相違性をもつ 非類似度(dissimilarity)は、オブジェクトを記述する属性値に基づいて評価される

クラスタリングの応用(1/2) クラスタリングは多くの分野において、幅広く用いられている 応用例: 自動車保険において、高い損害賠償を伴う保険証保持者のグループを特定する 情報検索の目的で、ウェブ上の文書をクラス分けする クラスタリングによって、データの密な領域と疎な領域を識別することができる データの大域的な分布パターンや、属性間の相関を発見することができる

クラスタリングの応用(2/2) クラスタリングをデータマイニングのツールとして用いる場合、2通りの用い方がある データ分布を調べ、各クラスタの特徴を観察するための独立したツールとしての用い方 特徴づけ、あるいは分類を行うための、前処理としての用い方

クラスタリングへの要求 データマイニング分野において、クラスタリングに要求されること Scalability(拡張性) 異なるタイプの属性を扱えること 任意のカタチをしたクラスタの発見 入力パラメータを決定するための知識ができるだけ求められないこと ノイズの入ったデータを扱えること 入力レコードの順序に依存しないこと 高次元性 Constraint-based clustering(特定の制約下におけるクラスタリング) 解釈のしやすさと、使いやすさ

様々な種類のデータ クラスタリングで扱うデータには様々な種類がある Interval-scaled variables 連続した値をとる Binary variables(ニ値変数) Nominal variables ニ値変数の一般化で、2つ以上の状態をとる Ordinal variables 値に順序が定められている Ratio-scaled variables 指数スケールのような、非線形の尺度をもつ

タイプの混合したデータ 多くのデータベースにおいては、様々なタイプの変数が混ざっている このようなデータの非類似度は、全ての変数を[0.0, 1.0]の共通したスケール上に置き換えることにより、求めることができる

主なクラスタリング手法の分類 Partitioning methods (分割手法) Hierarchical methods (階層的手法) Density-based methods (密度に基づく手法) Grid-based methods (格子に基づく手法) Model-based methods (モデルに基づく手法)

8.4 Partitioning Methods

Partitioning Method 入力 n個のオブジェクトからなるデータベース クラスタの数k(k≦n) 出力 入力に対するk個の分割 各分割がクラスタを表す クラスタは、目的となる分割基準(距離など)を最適化するように形成される 各オブジェクトは厳密にひとつのグループに属する

古典的な分割手法 各クラスタに代表点を定め、クラスタ内の各オブジェクトと代表点との非類似度を求める この和を最小化するように分割を行う 代表点の取り方として、k-means法とk-medoids法が有名 k-means method そのクラスタに含まれているオブジェクトの平均値(重心)をもとにして評価される k-medoids method medoid(最もクラスタの中心付近に位置するオブジェクト)をもとにして評価される

k-Means Method

k-means methodの性質 クラスタが小さくまとまっていて、互いに離れたところにあれば、うまく機能する 大きなデータセットの処理には比較的拡張性があり、効果的 クラスタの平均値が定義できる時にしか使えない カテゴリ属性が含まれるデータには用いることができない クラスタの数kをあらかじめ指定する必要がある ノイズやoutlierの影響を受けやすい

k-Medoids Method PAM(Partitioning around Medoids) k-medoids algorithmを取り入れたもののひとつ はじめに、ランダムにk個のmedoidを選び、その後良いmedoidsを選ぶよう繰り返す 取り得る全てのオブジェクトのペアについて考え、medoidとなるオブジェクトを交換してより良いものへ変えていく

k-medoids methodの性質 k-means法に比べてノイズやoutlierの影響を受けにくい

大きなデータベースへの適用 大きなデータベースに対する効率的な分割アルゴリズム CLARA(Clustering LARge Applications) CLARANS(Clustering LARge Applications based upon RANdomized Search)

CLARAとCLARANS CLARA CLARANS データの集合全体について考える代わりに、データの小さなサンプルをとって考える このサンプルの中から、PAMを用いてmedoidを決定する サンプルをいくつかとり、得られた結果の中から最も良いものを出力する CLARANS CLARAを改良したもの medoidを更新した時に新たにサンプリングを行う点において、CLARAと異なっている

8.5 Hierarchical Methods

Hierarchical Methods 与えられたデータオブジェクトの集合に対する、階層構造(hierarchical decomposition)を生成する 階層構造がボトムアップ的に形成されるかトップダウン的に形成されるかによって、凝集型(agglomerative)と分枝型(divisive)に分かれる

2つのタイプのメソッド 【凝集型メソッド】(ボトムアップ) step 0 1 2 3 4 a ab b abcde c cde d de e 【分枝型メソッド】(トップダウン)

階層的手法の難しさ 純粋な階層的クラスタリングでは、一度マージあるいは分割が行われると、それを修正することができない 階層的手法の質を向上させるアイデア →他のクラスタリング手法を組み合わせる BIRCH CURE ROCK Chameleon

BIRCH BIRCH: Balanced Iterative Reducing and Clustering using Hierarchies クラスタを要約して表現するために2つの概念を用いる clustering feature clustering feature tree(CF tree)

clustering featureとCF tree CF(clustering feature) クラスタの要約情報を3つの要素で表す N : クラスタ内の点の数 LS: N点の線形和 SS: N点の二乗和 CF tree clustering featureを格納する平衡木 nonleaf nodeには、その子ノードが持っているCFの総和が格納される

CF Tree node A (root: 全てのデータ) node B node C node D オブジェクトの集合(サブクラスタ)

アルゴリズムの流れ Phase 1 データベースをスキャンしてCF木を作る オブジェクトが挿入されるたびにCF木が動的に構築されていく オブジェクトは、最も距離が近い葉エントリーに挿入される CF木のサイズが主記憶の容量を超えたら、CF木を再構築する Phase 2 既存のクラスタリングアルゴリズムを適用し、CF木の葉ノードをクラスター化する

BIRCHの特色 計算時間がオブジェクト数に対して線形 入力されたオブジェクトに対して動的なクラスタリングが可能 高速で実行可能で、大きなデータベースにも拡張可能 CF木の各ノードはある限られた数のエントリーしか持つことができないため、CF木のノードはユーザから見て「自然な」ものになっているとは限らない クラスタの形が球状でない場合、うまく働かない

8.6 Density-Based Methods

Density-Based Methods その“近傍”(neighborhood) の密度がある閾値を越えている限り、クラスタを成長させ続ける ノイズ(outlier)を取り除いたり、任意の様々な形をしたクラスタを発見するために用いることができる

Density-Based Methods 密度に基づくクラスタリングアルゴリズム DBSCAN OPTICS cluster orderingという順序をオブジェクトに対して与えてクラスタリングを行う DENCLUE 密度分布関数(density distribution function)という関数を定め、この関数の値をもとにクラスタリングを行う

DBSCAN DBSCAN: Density-Based Spatial Clustering of Applications with Noise 半径ε以内にMinPts個以上のオブジェクトを含むようなオブジェクトを、次々に集めていく Oから density-reachable ε オブジェクトO

DBSCAN density-based cluster density-reachableなオブジェクトの極大集合をクラスタと考える どのクラスタにも含まれないオブジェクトはノイズとみなされる

8.7 Grid-Based Methods

Grid-Based Methods 格子データ構造を用いる方法 空間を、格子構造を形成する有限個のセルに量子化する クラスタリングの操作は、この格子構造に対して行われる 処理時間はデータの数ではなくセルの数に依存するため、速い

Grid-Based Methods STING 典型的なgrid-based approach 格子セルに格納された統計情報をもとに探索を行う WaveCluster ウェーブレット変換を用いてクラスタリングを行う CLIQUE 高次元データ空間におけるクラスタリングのための方法

CLIQUE CLIQUE: Clustering In QUEst density-based とgrid-basedの手法を統合したもの 大きなデータベースにおいて、高次元データをクラスタリングするのに有用

CLIQUE 1st step n次元データ空間を、長方形ユニットに分割 その中から、“密な”ユニットを特定する ユニットは、その中に含まれているデータの割合がある閾値を超えた時に密であるとする Apriori propertyに基づいて探索される 2nd step 連結高濃度ユニットを 覆う最大領域を決定し、 クラスタとする

Apriori Property Apriori property k次元ユニットが密ならば、そのユニットを(k-1)次元空間に射影したものも密である あるk次元ユニットにおいて (k-1)次元空間への射影が密ではない ↓ k次元ユニットも密ではない k-1次元空間で見つかった高濃度ユニットから、k次元空間における高濃度ユニットの候補を生成することが可能

CLIQUEの特徴 入力の順序が結果に影響しにくい データ分布を推測する必要がない 入力サイズに線形時間 データの次元が増えた時に良い拡張性を示す 手法の単純さを犠牲にして、結果の精度を悪化させている

8.8 Model-Based Clustering Methods

Model-Based Clustering 与えられたデータと、ある数学的モデルとの適合性を最適化する 主に2つのアプローチがある 統計的アプローチ(statistical approach) ニューラルネットワーク (neural network approach)

Statistical Approach 概念クラスタリング(conceptual clustering) 機械学習におけるクラスタリングの方法 最初に類似したオブジェクトのグループを特定し、その後、各グループの特徴を見つけ出す(この点が従来のクラスタリングと異なる) 各グループは概念またはクラスを表す 多くの手法では、概念あるいはクラスを決定するために確率的尺度を用いている

概念クラスタリングの例 COBWEB classification treeという階層構造を生成する

Neural Network Approach 各クラスタを見本(exemplar)として表す 見本はクラスタの”プロトタイプ”として振舞う 新たなオブジェクトは、何らかの距離尺度に基づいて、最も類似している見本を持つクラスタへ分配される 有名なものに次の2つの手法がある 競合学習(competitive learning) 自己組織化特徴マップ (self-organizing feature maps)

8.9 Outlier Analysis

Outlierってなに outlier 他のデータと著しく異なっていたり、つじつまの合わないデータ 例:年齢が999歳

Outlier Mining outlierそのものに特別な関心がある場合がある 不正行為の特定 特別なマーケティング 医療における分析 クレジットカードの異常な使用の特定 特別なマーケティング 極端に低い、あるいは高い収入をもつ人のふるまいを識別する 医療における分析 医療手当に対する異常な反応の発見 outlierを発見し、分析すること →outlier mining

Outlier Miningの方法(1/2) 統計的アプローチ(statistical approach) 与えられたデータ集合に対して確率モデル(正規分布とか)を仮定し、モデルに対しdiscordancy test(不一致テスト)を用いることでoutlierを識別する テストの適用には データ集合のパラメータ(データ分布など) 分布のパラメータ(平均値や分散など) 予測されるoutlierの数 が必要となる

Outlier Miningの方法(2/2) 距離に基づくアプローチ (distance-based approach) データの集合Sのうち、少なくとも割合pのオブジェクトが距離d以上離れているとき、そのオブジェクトはoutlierであるとする 偏差に基づくアプローチ (deviation-based approach) グループに含まれているオブジェクトの主な特徴を調べることにより、outlierを特定する この特徴から逸脱していると考えられるオブジェクトはoutlierとみなされる