Data Clustering: A Review

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
顔表情クラスタリングによる 映像コンテンツへのタギング
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
「わかりやすいパターン認識」 第1章:パターン認識とは
ひでき 平成17年4月12日 「日本教」モデルを ネットワーク分析する ひでき 平成17年4月12日.
Data Clustering: A Review
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
プログラミング言語としてのR 情報知能学科 白井 英俊.
コメント 「ファセット・アプローチの 魅力とパワー」
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
グループ研究1班 第一章 経営戦略とは何か 雨森 彩 大嶋 健夫 小沢 博之.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
論理式の表現を数学的に取り扱いやすくするために代数学の助けを借りる.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
EMアルゴリズム クラスタリングへの応用と最近の発展
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
テキストの類似度計算
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
Fuzzy c-Means法による クラスター分析に関する研究
Spectral Clustering による 語義曖昧性解消のための 教師あり類似度学習
決定木とランダムフォレスト 和田 俊和.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音高による音色変化に着目した音源同定に関する研究
IIR輪講復習 #17 Hierarchical clustering
第14章 モデルの結合 修士2年 山川佳洋.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
訓練データとテストデータが 異なる分布に従う場合の学習
Anja von Heydebreck et al. 発表:上嶋裕樹
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
知能情報システム特論 Introduction
第4章 社会構造概念はどのように豊穣化されるか
Number of random matrices
コンピュータにログイン 第1章 コンピュータにログイン 啓林館 情報A最新版 (p.6-13)
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
Data Clustering: A Review
サポートベクターマシン Support Vector Machine SVM
Data Clustering: A Review
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
Data Clustering: A Review
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Data Clustering: A Review A.K. Jain, M.N. Murty, P.J. Flynn 院生ゼミ '04年4月13日(火曜日) 新納浩幸

本日の私の担当 第1章: Introduction 1.1 Motivation 1.2 Component of a Clustering Task 1.3 The User's Dilemma and the Role of Expertise 1.4 History 1.5 Outline 第2章: Definitions and Notations

クラスタリングとは 似たものどうしに分類すること

分類の観点 「似ている」にはある観点が必要 形の類似性

クラスタリングの重要性 データの解析はコンピュータの応用システムの基盤 exploratory(調査) データから法則を予想する confirmatory(確認) 新規のデータに対してある決定を行う どちらの処理においてもクラスタリングが 本質的な処理となる

クラスタリングの適用分野 パターン分析 grouping 意思決定 データには事前の情報がない 機械学習 データマイニング 文書検索 画像分割 パターン分類 ... データには事前の情報がない 例) 正規分布など クラスタリングはデータ間の 関係を調べる基本手法

分類と識別(1) clustering discriminant analysis 違いは重要 データを分類する 少数の分類されたデータが 与えられ,新たなデータを それらクラスターのどれかに 分類する (教師なし学習) (教師付き学習)

分類と識別(2) クラスタリング 識別(→帰納学習) 予め分類されている 少数のデータ 未分類のデータ

本サーベイの位置づけ クラスタリングの対象範囲は広い クラスタリングのサーベイは困難 統計学,決定理論をルーツにもつクラスター分析の 中心的な概念と手法をサーベイする パターン認識や画像分析...現状の要約 機械学習...非常に近い分野のスナップショット その他...クラスタリングの重要性のイントロ

クラスタリングのステップ Step 1. パターンの表現 (付加的に,素性抽出/選択を含む) Step 2. 類似度(メジャー)の定義

Step1. パターンの表現 パターンはベクトルで表現される.ベクトルの各次元を どのようなもの(観点)に対応させるか. 次元(観点)を素性と呼ぶ (予想される)クラスターの数 利用可能なパターンの数 素性の数,タイプ,大きさ これらを勘案して 決める 開発者には制御不可能なものも多い

素性選択と素性抽出 素性選択 素性をたくさん集めておき,そのクラスタリングで重要 そうな素性を選択する 素性抽出 入力した素性(複数かも)を変形して,新たな素性を 作成する パターンの表現を決定する際には重要

Step2. 類似度の定義 通常はパターンを n 次元実数値ベクトルで表現し, ユークリッド距離によって,非類似度を定義する. その他,様々な類似度の定義が存在する 本サーベイの4章で紹介

Step3. クラスタリング 様々な手法が存在する 5章 * 出力の形はハードかファジー ハード: パターンはどれかひとつのクラスターに属す ファジー:パターンは各クラスターに属する度合いを持つ * 手法は階層型か分割型 階層型: ボトムアップ,各パターンの統合を繰り返して 全体が1つのクラスタになる. 分割型: トップダウン,評価関数を最適にする分割を 求める * その他,確率的な手法,グラフ理論からの手法

Step4. データの要約 得られた各クラスターに簡潔な表現を与える 人間からみて意味のある分類かどうかは不明なので, 人間が直感的に簡潔な表現を与えられるとは限らない 通常はクラスターの代表点がその表現に対応する

Step5. 出力の評価 クラスタリング手法の優劣は不可能 出力したクラスタリングはその手法にとっては意味がある クラスタリング結果の評価(クラスター有効性分析) 評価関数を利用,しかしその関数は主観的 有効性分析:客観的評価,意味のある分類が偶然 起こったものでないことを確認,統計的な手法では 検定で可能,3つのタイプがある (1) 外的評価... 事前の構造を作っておき比較 (2) 内的評価... データが本質的に適切かを決定 (3) 相対的評価... 構造を比較し,相対的なメリットを測る

クラスタリング手法の比較 どの手法を使えばよいのか? Dubes and Jain [1976] (1)クラスターが形成される方法 (2)データの構造 (3)データの構造に対する敏感性 1つの評価の指針,しかし,以下の重要な疑問を 扱う明確なクラスタリング手法はない 正規化の方法,ドメイン知識の利用方法, 膨大な数のデータに対するクラスタリング手法

万能のクラスタリング手法 どんなデータでも扱えるような万能な クラスタリング手法はない どんなクラスタリング手法もクラスターの 形状や類似度に基づくクラスターの構成 に関してなんらかの暗黙の仮定をもつため 人間には可能なのか? No! 高次元になると人間にとっても難しい

よりよいクラスタリングへ ユーザのやるべきこと * 利用するクラスタリング手法をよく理解する * データ収集の詳細を知ること * 専門家(扱うデータの)を持つこと 領域固有の知識 素性抽出,類似度の計算.クラスタリング, クラスターの表現,を改善する

データ発生過程の制約 mixture resolving [Titeerington et al. '85] データは密度関数の混合から発生している クラスタリングの問題 * いくつの密度関数の混合かを決める * それぞれの密度関数のパラメータを決める [Bajcsy '97] density clustering と素性空間の分割

クラスタリングの歴史 パターン認識,画像処理,文書検索,生物学,精神医学, 心理学,考古学,地質学,地理学,マーケッティング などの分野で使われてきた,歴史がある クラスタリングはいろいろな名前で呼ばれてきた 教師なし学習,分類学,ベクトル量子化, 観察による学習, 様々な解説本,解説記事も出版された (具体的には論文参照)

本論文の構成 2章: 論文で使う用語と記号の定義 3章: パターンの表現,素性抽出,素性選択の概要 4章: 様々な類似度 大事,中心 5章: クラスタリング手法の整理,解説 6章: 応用事例,画像解析とデータマイニング 7章: まとめ 本ゼミでは省略

用語と記号の定義(1) パターン(素性ベクトル,事例,データ) 素性(属性) パターンの各次元 次元 パターンが何次元のベクトルか

用語と記号の定義(2) パターン集合 パターンの集合,n個あるときは n 行 d 列の行列 クラス クラスターのラベル(?) ハード ハードクラスタリング, i 番目のパターンが属するクラスラベル(1~k)

用語と記号の定義(3) ファジー ファジークラスタリング, i 番目のパターンが j 番目のクラスに属する度合い 距離関数 素性空間上の距離を測るものさし