IIR輪講復習 #17 Hierarchical clustering

Slides:



Advertisements
Similar presentations
Cluster Analysis 徳山研究室M2 鈴木 晶子.
Advertisements

人工知能特論 8.教師あり学習と教師なし学習
クラスタ分析手法を用いた新しい 侵入検知システムの構築
Data Clustering: A Review
ヒープソートの演習 第13回.
アルゴリズムイントロダクション第2章 主にソートに関して
Scalable Collaborative Filtering Using Cluster-based Smoothing
実証分析の手順 経済データ解析 2011年度.
第四回 線形計画法(2) 混合最大値問題 山梨大学.
2章 データ構造.
構造的表現 Structure and Space
アルゴリズムとデータ構造 --- 理論編 --- 山本 真基
人工知能概論 第10回 学習と認識(1) クラスタリング
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
EMアルゴリズム クラスタリングへの応用と最近の発展
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
マーケティング戦略.
ヒープソートの復習.
IIR輪講復習 #5 Index compression
精密工学科プログラミング基礎Ⅱ 第3回資料 今回の授業で習得してほしいこと: 2次元配列の使い方 (前回の1次元配列の復習もします.)
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
クラスタリング 距離と分類の考え方.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
IIR輪講復習 #4 Index construction
IIR輪講復習 #1 Boolean retrieval
Fuzzy c-Means法による クラスター分析に関する研究
Spectral Clustering による 語義曖昧性解消のための 教師あり類似度学習
Data Clustering: A Review
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
IIR輪講復習 #10 XML retrieval
ソートアルゴリズムの種類 選択ソート (selection sort) バブルソート (bubble sort)
ソフトウェア部品分類手法への コンポーネントランク法の応用
IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
Anja von Heydebreck et al. 発表:上嶋裕樹
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
コンポーネントランク法を用いたJavaクラス分類手法の提案
早わかりアントコロニー最適化 (Ant Colony Optimization)
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
6. Workload characterization techniques
クラスター分析入門 高崎経済大学 宮田 庸一.
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
第4章 社会構造概念はどのように豊穣化されるか
Data Clustering: A Review
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
構造的表現 Structure and Space
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
Data Clustering: A Review
Data Clustering: A Review
ソフトウェアプロダクト集合に対する 派生関係木の構築
サポートベクターマシン Support Vector Machine SVM
Data Clustering: A Review
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
演習1に関する講評 ~ 業務仕様を書く難しさ ~
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
ヒープソートの復習 第12回.
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Webページタイプによるクラスタ リングを用いた検索支援システム
Data Clustering: A Review
MAUI Project 2009 インターネットにおける近接性
北大MMCセミナー 第23回 Date:2014年3月6日(木) 16:30~18:00 ※通常と曜日が異なります
Presentation transcript:

IIR輪講復習 #17 Hierarchical clustering

お知らせ たつをさんによる補足情報 復習資料おきば http://chalow.net/clsearch.cgi?cat=IIR http://bloghackers.net/~naoya/iir/ppt/

参考 http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント, スライドからの引用あり

本章のテーマ 階層型クラスタリング 前回: フラットクラスタリング 類似度の計算手法 計算量 クラスタへのラベリング

階層型クラスタリングとは 構造化されたクラスタリング デンドログラムの構築

階層型クラスタリングの特徴 デンドログラムの断面でクラスタが得られる フラットより精度が高い (反論あり) 計算量がフラットより多い

トップダウン or ボトムアップ 凝集クラスタリング 分岐型クラスタリング agglomerative clustering HAC (Hierarchical Agglomerative Clustering) 単元クラスタをまとめながら単一のクラスタにマージ ボトムアップ 18章で主に扱うのはこちら 分岐型クラスタリング divisive clustering フラットクラスタリングでクラスタを分割しながら階層を作る トップダウン

HACのアルゴリズム N x N 類似度行列 C を計算 N - 1 ステップのマージを実行 計算量 Θ(N3) 最も似ているクラスタ二つを見つけてマージ マージされた箇所の C の行と列を更新 計算量 Θ(N3) 優先度付きキューで改善 Θ(N2logN) ※フラットクラスタリングは線型 Θ(IKNM)

SIMPLEHAC

EFFICIENTHAC 優先度付きキューで計算量を改善

EFFICIENTHAC の例

階層クラスタリングの評価関数 評価関数 → 凝集時にどのクラスタをマージすべきかを判断する指標 最短距離法 最長距離法 群平均凝集法 重心法 single-linkage clustering 最長距離法 complete-linkage clustering 群平均凝集法 group average agglomerative clustering GAAC 重心法 centroid clustering ウォード法 Ward's method

評価関数における"距離" 距離は適当なものを使う ユークリッド距離、cos 類似度 etc

評価関数 ※ http://www.kamishima.net/jp/clustering/ より引用

評価関数 (IIR版)

各評価関数の違い

最短距離 Single-link 2クラスタ中にある、最も似ている要素の最短距離 局所的 ・・・ クラスタの一部しか考慮されない 空間濃縮の性質 → 外乱に極めて弱い チェイニング効果 ・・・ 大きなクラスタにどんどん吸い寄せられる

最長距離 Complete-link 2クラスタ中にある、最も似ていない要素間の類似度 局所的ではない ・・・ クラスタ全体を考察 空間拡散の性質 → 外れ値に対して敏感

群平均 GAAC 同じクラスタ内の対を含む、文書の全てについて計算 距離に内積を用いると、式変形により計算量減らすことができる IIR で紹介されている4つの中ではベスト?

重心 Centroid clustering 各クラスタの重心の類似度を利用 マージの最中で重心が移動するため「反転」が生じる

各評価関数の違い (再掲)

各評価関数の違いまとめ ※Single-link だけ Θ(N2) なのは、merge-best persistant の性質を利用して NBM 配列で最適化できるから

そのほかの話題 クラスタのラベリング 実装に関する小話 差分クラスタラベリング クラスタインターナルラベリング 小話程度 内積計算は転置インデックスを使うと良い 100,000 文書くらいが限界 HAC とフラットクラスタリングを組み合わせると良い K-means のシードを HAC で選ぶ