Data Clustering: A Review

Slides:



Advertisements
Similar presentations
1 高速フーリエ変換 (fast Fourier transform). 2 高速フーリエ変換とは? – 簡単に言うとフーリエ変換を効率よく計算 する方法 – アルゴリズムの設計技法は分割統治法に基 づいている 今回の目的は? – 多項式の積を求める問題を取り上げ、高速 フーリエ変換のアルゴリズムを用いた解法.
Advertisements

利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
Ibaraki Univ. Dept of Electrical & Electronic Eng. Keiichi MIYAJIMA
計算機工学III オペレーティングシステム #14 ファイル: より進んだファイルシステム 2006/07/21 津邑 公暁
「わかりやすいパターン認識」 第1章:パターン認識とは
第6回 仮想記憶とページング ページング ページ取り出し方式 ページ置き換え方式 中間テスト(40分)
記 憶 管 理(1) オペレーティングシステム 第9回.
極小集合被覆を列挙する 実用的高速アルゴリズム
離散システム特論 整列(sorting)アルゴリズム 2.
Data Clustering: A Review
アルゴリズムイントロダクション第2章 主にソートに関して
アルゴリズムとデータ構造1 2008年7月22日
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
第11回 整列 ~ シェルソート,クイックソート ~
遺伝的アルゴリズム  新川 大貴.
算法数理工学 第1回 定兼 邦彦.
情報知能学科「アルゴリズムとデータ構造」
Approximation of k-Set Cover by Semi-Local Optimization
アルゴリズムとデータ構造 --- 理論編 --- 山本 真基
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
データ構造とアルゴリズム 分割統治 ~ マージソート~.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
第11回 整列 ~ シェルソート,クイックソート ~
Data Clustering: A Review
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
IIR輪講復習 #17 Hierarchical clustering
情報工学概論 (アルゴリズムとデータ構造)
わんくま同盟茶藝部顧問 Microsoft MVP for VC episthmh
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
Internet広域分散協調サーチロボット の研究開発
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
アルゴリズムとデータ構造1 2005年7月1日
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
25. Randomized Algorithms
アクションゲームにおけるプレイヤのレベルに応じたマップの自動生成手法の研究
分子生物情報学(2) 配列のマルチプルアライメント法
アルゴリズムとプログラミング (Algorithms and Programming)
先進的計算基盤システムシンポジウム SACSIS2007併設企画 マルチコアプログラミングコンテスト 「Cellスピードチャレンジ2007」
Data Clustering: A Review
プログラミング 4 整列アルゴリズム.
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Data Clustering: A Review
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
アルゴリズムとデータ構造1 2006年7月11日
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
Data Clustering: A Review
Data Clustering: A Review
自己組織化マップ Self-Organizing Map SOM
第Ⅱ部 協力ゲームの理論 第7章 提携形ゲームと配分 2008/07/01(火) ゲーム理論合宿 M1 藤井敬士.
第4回 メモリ管理 主記憶(メインメモリ)の管理 固定区画方式と可変区画方式 空き領域の管理 スワッピング.
第16章 動的計画法 アルゴリズムイントロダクション.
ISO23950による分散検索の課題と その解決案に関する検討
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Le Lu, Rene Vidal John Hopkins University (担当:猪口)
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
データの圧縮.
計算の理論 I 反復補題 火曜3校時 大月 美佳 平成16年7月13日 佐賀大学知能情報システム学科.
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
Webページタイプによるクラスタ リングを用いた検索支援システム
Jan 2015 Speaker: Kazuhiro Inaba
Data Clustering: A Review
2008年 7月17日 応用数理工学特論 期末発表 鈴木綾華,程飛
情報処理Ⅱ 第8回:2003年12月9日(火).
Presentation transcript:

Data Clustering: A Review A.K. Jain, M.N. Murty, P.J. Flynn ~5.12 Divide and Conquer Appoach~ 院生ゼミ ‘04年6月22日(火曜日) 谷津 哲平

大きいデータセット対策 進化的アプローチなどでは 学習,制御のパラメータを得ることが難しい データセットが大きいと時間がかかる 解決策のひとつ 分割統治法 (Divide and Conquer Approach) Two-level 手法による2,000 のパターンを含む データセットのクラスタリングの提示 [stahl 1986]

分割統治法 Divide and Conquer Approach  大きなサイズの問題をいくつかの小さなサイズの問題に分割し,小さなサイズの解から元の問題の解を得る. 分割が高速にできることと、 元の問題の解が部分問題の解から高速に求められることが必要 分割 例)マージソート,クイックソート Two-level algorithmなど 併合 マージソート

Two-level algorithm データの分割 代表の選択 k個 p個 補助記憶領域に n×d のデータを保持 主記憶領域 補助記憶領域 k個 p個 補助記憶領域に n×d のデータを保持 このデータを p 個のブロックに分割する 各ブロックには n/p 個のパターンがあると仮定する 主記憶領域に移してブロック毎に k 個のクラスタに分ける

Two-level algorithm データの分割 代表の選択 pk個 k個 p個 各クラスタから一つ以上の代表を選択する 主記憶領域 pk個 補助記憶領域 k個 p個 各クラスタから一つ以上の代表を選択する 1クラスタあたり1つの代表を選ぶと全代表は pk 個となる つまり,これらの代表 pk は,さらに k 個のクラスタに分けられている

Single-linkとの比較 距離計算の回数 計算の数を大きく節約できる 5つのクラスタに分けるときの n:データ数 p:分割数 各ブロックのポイントが合理的に均質なときにのみ有効

まとめ ・分割統治法は,大きなサイズの問題をいくつかの小さなサイズの問題に分割し,小さなサイズの解から元の問題の解を得る手法 ・Two-level アルゴリズムはレベルを広げることが可能 (データセットが非常に大きく,    主記憶領域が小さいならより多くのレベルが必要) レベルを増やせば,大きいデータセットにも使える