パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

Slides:

Advertisements

Similar presentations

1 小暮研究会２第１章ベイジアンアルゴリズム２値選択ベルヌーイ試行尤度原理同一性交換可能性尤度についてのまとめ環境情報学部３年渡邊洋一.

Advertisements

PCFG の EM アルゴリズムとスムージング二宮崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付文脈自由文法 ) EM アルゴリズムスムージング教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

Determining Optical Flow. はじめにオプティカルフローとは画像内の明るさのパターンの動きの見かけの速さの分布オプティカルフローは物体の動きのよって変化するため、オプティカルフローより速度に関する情報を得ることができる.

コンピュータビジョン特論第８回対象追跡２００６年１１月２２日加藤丈和.

人工知能特論８．教師あり学習と教師なし学習

Data Clustering: A Review

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

Scalable Collaborative Filtering Using Cluster-based Smoothing

Pattern Recognition and Machine Learning 1.5 決定理論

Bassモデルにおける最尤法を用いたパラメータ推定

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

人工知能概論第10回学習と認識(1) クラスタリング

時空間データからのオブジェクトベース知識発見

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

雑音重み推定と音声ＧＭＭを用いた雑音除去

EMアルゴリズムクラスタリングへの応用と最近の発展

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

ベイジアンネットワーク概説第3章　ベイジアンネットワークモデルの　　　　　数学的基礎 3.5 情報量基準を用いた構造学習岩崎唯史.

クラスタリング距離と分類の考え方.

サポートベクターマシンによるパターン認識

Fuzzy c-Means法によるクラスター分析に関する研究

Data Clustering: A Review

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

決定木とランダムフォレスト和田　俊和.

グラフアルゴリズムの可視化数理科学コース　福永研究室高橋　優子 2018/12/29.

第9章　混合モデルとEM 修士２年北川直樹.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

IIR輪講復習 #17 Hierarchical clustering

第14章　モデルの結合修士２年山川佳洋.

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

第６章特徴空間の変換６．１特徴選択と特徴空間の変換６．２特徴量の正規化平成１５年５月２３日（金）発表者藤井丈明

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

Internet広域分散協調サーチロボットの研究開発

Introduction to Soft Computing （第11回目）

多変量解析ゼミ　第１０回第１２章クラスター分析発表者直江　宗紀.

決定木 Decision Tree DT 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Data Clustering: A Review

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

パターン認識特論担当：和田俊和部屋 A513 主成分分析

Data Clustering: A Review

パターン認識とニューラルネットワーク栗田多喜夫 2019/4/26 早稲田大学大学院理工学研究科講義.

Fourier 変換 Mellin変換演習課題

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

第3章　線形回帰モデル修士1年山田　孝太郎.

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

サポートベクターマシン Support Vector Machine SVM

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

HMM音声合成における変分ベイズ法に基づく線形回帰

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

人工知能特論II　第8回二宮　崇.

JNNS-DEX-SMI-玉川公開講座「交換モンテカルロ法とその応用」

パターン認識特論 ADA Boosting.

制約付き非負行列因子分解を用いた音声特徴抽出の検討

パターン認識特論 ADA Boosting.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

Data Clustering: A Review

Fourier 変換 Mellin変換演習課題

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513 Email twada@ieee パターン認識ークラスタリングとEMアルゴリズムー担当：和田　俊和　　　　部屋　A513 Email　twada@ieee.org 講義資料はhttp://wada1.sys.wakayama-u.ac.jp/PRA/ 単純クラスタリング、k-meansクラスタリング、最大距離アルゴリズム、 EMアルゴリズム

クラスタリングー似たものをまとめる処理ークラスタ（Cluster）=塊（かたまり） Clustering = クラスタを作る処理

クラスタリング＝教師なし学習どのクラスに属するかが明示的に示されていないトレーニングデータに、データ間の類似性もしくは相違性に基づいてクラスラベルを付けていくこと。つまり、教師信号は与えられない。この問題を解くには、何らかの仮定を導入する必要がある。

クラスタリングアルゴリズムの分類階層型クラスタリング非階層型クラスタリング凝集型アルゴリズム分割型アルゴリズム個々のデータがクラスタの状態からスタートして，クラスタの併合を繰り返してクラスタを形成する方法．分割型アルゴリズムデータ集合全体が一つのクラスタの状態からスタートして，分割を繰り返すことでクラスタリングする方法非階層型クラスタリング上記に当てはまらないクラスタリングクラスタリングの良さを表す目的関数を最適化するものもある．

凝集型と分割型の計算量

距離が決まればクラスタリングできるクラスタ間の距離が定義されれば，という処理を反復するだけでクラスタリングが出来る．距離を最小化するクラスタのペアをマージする，距離が最大になるようにクラスタを2分割する，という処理を反復するだけでクラスタリングが出来る．

集合間距離

クラスタリングの統合的枠組み：Lance-Williamsの更新式単リンク完全リンク重心間距離群平均 Ward

空間の濃縮と拡散と呼ぶ．クラスタが大きくなるほど併合しやすくなることを空間濃縮クラスタが大きくなるほど併合しにくくなることを空間拡散この中間を空間保存と呼ぶ．空間濃縮空間保存空間拡散単リンク群平均，重心完全リンク，Ward

非階層的クラスタリング

単純クラスタリング同一クラスタに属するパターン間の距離に関する制約を設ける中心からの距離がT以内に存在するパターンを一つのクラスタとする。 T以上離れている場合は、新しいクラスタ中心となる。 T T T T T

単純クラスタリング同一クラスタに属するパターン間の距離に関する制約を設ける

単純クラスタリング同一クラスタに属するパターン間の距離に関する制約を設ける欠点：データを与える順序に依存した結果しか得られない閾値Tを知る方法がない。

K-Meansクラスタリングクラスタ数をあらかじめ決めておくクラスタ中心をランダムに決めておき、クラスタ中心からの距離を基にしてそのデータの帰属クラスタを決めデータの帰属性をもとにしてクラスタ中心を再計算するクラスタ中心が移動していれば、２に戻る。

K-Meansクラスタリングクラスタ数をあらかじめ決めておく

K-Meansクラスタリングデモ

K-Meansクラスタリングクラスタ数をあらかじめ決めておく欠点クラスタ数を既知としなければならない。初期値に依存して結果が変わる。計算が収束しない場合がある。

ISODATAアルゴリズム K-means アルゴリズムにという条件を加えたもの。同じクラスタに属するサンプルが閾値未満の場合、そのクラスタを作らない。クラスタ間距離が閾値未満の場合、それらのクラスタをまとめるクラスタ内の分散が大きくなりすぎるとクラスタを分割するという条件を加えたもの。　Tou, Julius T. and Rafael C. Gonzalez. 1974. Pattern Recognition Principles. Addison-Wesley Publishing Co.

最大距離アルゴリズム最大クラスタ間距離を基準として、クラスタ間距離に関する制約を設ける各クラスタ間の距離が最大クラスタ間距離のn/m以上になるようにクラスタリングを行う。

最大距離アルゴリズム最大クラスタ間距離を基準として、クラスタ間距離に関する制約を設ける

他のクラスタリング手法グラフを用いたクラスタリング（最小全域木を用いたクラスタリングなど） Fuzzy クラスタリング階層的クラスタリング EMアルゴリズムその他

混合（確率密度）分布サンプルが複数の分布の重み付き和に従うときサンプルｘkからこのξjとθｊを求めることができれば、分布形状が決定できる。ちなみに、mは既知である。各ｘkに関して、どのｊの分布に従うかを決めることができれば、通常の最尤推定が適用できる。不完全データ完全データ

EM アルゴリズムの概要 E (Expectation) ステップ : 次で定義される完全データの対数尤度　　の条件付き期待値を計算する．（ここでは、　　と見なす。）具体的な計算方法は後に述べる。 M (Maximization) ステップ : をについて最大化した　　ものを　とおき、ｔ＝ｔ＋１として１に戻る。

E step の詳細分布モデル X がJ番目の要素分布に従う確率をとするとこれによって重み付けをした尤度の和として、が得られる。この式を最大化するξkとθkを求める。

M step の詳細問題：という条件の下で、を最大化するを求める。最大化する　　を求める。に Lagrange　の未定係数項を加えて式の変形をしていくと、結果的に、次式が得られる。 Θkに関してはこの式から求める。

M step の詳細：混合正規分布の場合

混合正規分布のあてはめ EM\MixtureEMj.html