Data Clustering: A Review

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
「わかりやすいパターン認識」 第1章:パターン認識とは
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
Data Clustering: A Review
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
Introduction to Soft Computing (第12回~第13回)
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
EMアルゴリズム クラスタリングへの応用と最近の発展
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
第6章 カーネル法 修士2年 藤井 敬士.
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
ニューラルコンピューティングを理解する 第一版:2006/12/12 第二版:2007/11/12
第9章 混合モデルとEM 修士2年 北川直樹.
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
ボルツマンマシンの定義 ボルツマンマシン(Boltzmann machine)は、スピン・システムをヒントに作られたモデルである。
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
Data Clustering: A Review
ニューラルコンピューティングを理解する 2006/12/12 Graduate School of Media and Governance
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Number of random matrices
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
Data Clustering: A Review
自己組織化マップ Self-Organizing Map SOM
Data Clustering: A Review
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Data Clustering: A Review
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Data Clustering: A Review A.K. Jain, M.N. Murty, P.J. Flynn 院生ゼミ ‘04年6月1日(火曜日) 新納浩幸

本日の私の担当 第5章: 5.7 Artificial Neural Networks for Clustering ニューラルネットワーク(NN)を 用いたクラスタリング

ANN (あるいは NN ) Artificial Neural Network の略. NN と略すことも多い. この30年間,NN を識別やクラスタリングに 用いる研究が活発に行われてきた. ポイントとなる重要な特徴 (1) NN は数値ベクトルを扱う.結果,パターンは数値 ベクトルで表現しなければならない. (2) NN は並列かつ分散型の構成をもつ (3) NN はノード間の適切な重みを学習する. 重みの学習によって,パターンの正規化と 特徴選択を行っているとみなせる

NN(for 識別) 入力、 出力 となるような関数 f を推定する学習方法 訓練データ 特徴 *関数の表現形式がネットワークの重みなので、具体的な 関数の形はわからない * 関数自体の表現力は高く、どんな関数でも表現できる * 分類問題の解決は1つの応用、他、様々な応用がある * 多くの研究成果があるがまだ未知な部分も多い

関数の表現形式 入力ユニット j から 中間ユニット k への重み 中間ユニット i から 出力ユニット j への重み から中間層の各ユニットの 入出力をつくり、そこから をつくる。結局、関数を作っている。 入力ユニット j から 中間ユニット k への重み 中間ユニット i から 出力ユニット j への重み

NN(for クラスタリング) (1) SOM を例にして, 入力例,,,動物が13次元のベクトルで表現されている

NN(for クラスタリング) (2) 出力 似ているものが集まった形で平面状にマップされる

NN(for クラスタリング) (3)

競合学習 パターンが N 次元ベクトルとすると, 出力層の各ノードはN次元ベクトルに対応している. 入力パターンに対して最も距離の近い出力層のパターンが 選ばれ,その近傍が入力パターンに近づくように更新される

代表的な NN の例 LVQ (Learning Vector Quantization: ベクトル量子化) SOM (Self-Organizing Map: 自己組織化マップ) ART (Adaptive Resonance Theory model ) ほとんど同じ手法 ネットワークは単一層の構成 入力層から入るパターンが出力層で想起される 入力層と出力層の間の重みが学習

クラスタリングとの関係 学習,重みの更新の方法,が古典的なクラスタリング手法 と非常に似ている. K-means と LVQ との関係 [Pal el al. ’93] ART モデルの学習アルゴリズムは leader クラスタリング アルゴリズムとの関係 [Moor ’98]

SOM 多次元のベクトルの集合を直感的にわかりやすい 2次元上の点にマップする. LVQ や 音声認識で成功した 欠点 *初期の重みが適切に選ばれないと部分的に最適な 分割しか得られない. *収束の条件が,さまざまなパラメータで制御される. そのため,ある入力に対して異なる繰り返し回数では 出力が異なる. Stability (安定性) 問題

安定性と柔軟性 システムが安定 訓練データ内のパターンは,ある繰り返し回数 以上の学習に対しては,同じ識別結果になる Plasticity (柔軟性) の問題,とも関連深い 新しいデータに対して適応力がある 安定性は,繰り返しに従って,学習の割合が 0 になることを 意味し,これは柔軟性に影響を与える.

ART モデル 安定かつ柔軟である 欠点 *データの与えられる順序に依存して出力が変化する *ART によって作られたクラスターの大きさと数は Vigilance threshold の値に依存する 新しいパターンを既存のクラスのメンバーにするか そのパターンで新しいクラスターを作成するかを 決めるための値

その他 SOM と ART は Hypersoherical cluster を探すには 安定 [Hertz et al. ’91] Hyperellipsoidal cluster を取り出すために,正規化した マハラノビス汎距離を使った2階層のネットワークが提案 されている [Mao and Jain ’94] NN は出力のノード数(クラスの数)を固定している