パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
人工知能特論 8.教師あり学習と教師なし学習
Data Clustering: A Review
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
Scalable Collaborative Filtering Using Cluster-based Smoothing
Pattern Recognition and Machine Learning 1.5 決定理論
Bassモデルにおける 最尤法を用いたパラメータ推定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
人工知能概論 第10回 学習と認識(1) クラスタリング
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
EMアルゴリズム クラスタリングへの応用と最近の発展
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
クラスタリング 距離と分類の考え方.
サポートベクターマシン によるパターン認識
Fuzzy c-Means法による クラスター分析に関する研究
Data Clustering: A Review
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
決定木とランダムフォレスト 和田 俊和.
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
IIR輪講復習 #17 Hierarchical clustering
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
Internet広域分散協調サーチロボット の研究開発
Introduction to Soft Computing (第11回目)
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
Data Clustering: A Review
パターン認識とニューラルネットワーク 栗田多喜夫 2019/4/26 早稲田大学大学院理工学研究科講義.
Fourier 変換 Mellin変換 演習課題
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
パターン認識特論 ADA Boosting.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
パターン認識特論 ADA Boosting.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Data Clustering: A Review
Fourier 変換 Mellin変換 演習課題
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513 Email twada@ieee パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和     部屋 A513 Email twada@ieee.org 講義資料はhttp://wada1.sys.wakayama-u.ac.jp/PRA/ 単純クラスタリング、k-meansクラスタリング、最大距離アルゴリズム、 EMアルゴリズム

クラスタリング ー似たものをまとめる処理ー クラスタ(Cluster)=塊(かたまり) Clustering = クラスタを作る処理

クラスタリング =教師なし学習 どのクラスに属するかが明示的に示されていないトレーニングデータに、データ間の類似性もしくは相違性に基づいてクラスラベルを付けていくこと。つまり、教師信号は与えられない。 この問題を解くには、何らかの仮定を導入する必要がある。

クラスタリングアルゴリズムの分類 階層型クラスタリング 非階層型クラスタリング 凝集型アルゴリズム 分割型アルゴリズム 個々のデータがクラスタの状態からスタートして,クラスタの併合を繰り返してクラスタを形成する方法. 分割型アルゴリズム データ集合全体が一つのクラスタの状態からスタートして,分割を繰り返すことでクラスタリングする方法 非階層型クラスタリング 上記に当てはまらないクラスタリング クラスタリングの良さを表す目的関数を最適化するものもある.

凝集型と分割型の計算量  

距離が決まればクラスタリングできる クラスタ間の距離が定義されれば, という処理を反復するだけでクラスタリングが出来る. 距離を最小化するクラスタのペアをマージする, 距離が最大になるようにクラスタを2分割する, という処理を反復するだけでクラスタリングが出来る.

集合間距離  

クラスタリングの統合的枠組み:Lance-Williamsの更新式   単リンク 完全リンク 重心間距離 群平均 Ward

空間の濃縮と拡散 と呼ぶ. クラスタが大きくなるほど併合しやすくなることを空間濃縮 クラスタが大きくなるほど併合しにくくなることを空間拡散 この中間を空間保存 と呼ぶ. 空間濃縮 空間保存 空間拡散 単リンク 群平均,重心 完全リンク,Ward  

非階層的クラスタリング

単純クラスタリング 同一クラスタに属するパターン間の距離に関する制約を設ける 中心からの距離がT以内に存在するパターンを一つのクラスタとする。 T以上離れている場合は、新しいクラスタ中心となる。 T T T T T

単純クラスタリング 同一クラスタに属するパターン間の距離に関する制約を設ける

単純クラスタリング 同一クラスタに属するパターン間の距離に関する制約を設ける 欠点: データを与える順序に依存した結果しか得られない 閾値Tを知る方法がない。

K-Meansクラスタリング クラスタ数をあらかじめ決めておく クラスタ中心をランダムに決めておき、 クラスタ中心からの距離を基にしてそのデータの帰属クラスタを決め データの帰属性をもとにしてクラスタ中心を再計算する クラスタ中心が移動していれば、2に戻る。

K-Meansクラスタリング クラスタ数をあらかじめ決めておく

K-Meansクラスタリングデモ

K-Meansクラスタリング クラスタ数をあらかじめ決めておく 欠点 クラスタ数を既知としなければならない。 初期値に依存して結果が変わる。 計算が収束しない場合がある。

ISODATAアルゴリズム K-means アルゴリズムに という条件を加えたもの。 同じクラスタに属するサンプルが閾値未満の場合、そのクラスタを作らない。 クラスタ間距離が閾値未満の場合、それらのクラスタをまとめる クラスタ内の分散が大きくなりすぎるとクラスタを分割する という条件を加えたもの。  Tou, Julius T. and Rafael C. Gonzalez. 1974. Pattern Recognition Principles. Addison-Wesley Publishing Co.

最大距離アルゴリズム 最大クラスタ間距離を基準として、クラスタ間距離に関する制約を設ける 各クラスタ間の距離が最大クラスタ間距離のn/m以上になるようにクラスタリングを行う。

最大距離アルゴリズム 最大クラスタ間距離を基準として、クラスタ間距離に関する制約を設ける

他のクラスタリング手法 グラフを用いたクラスタリング(最小全域木を用いたクラスタリングなど) Fuzzy クラスタリング 階層的クラスタリング EMアルゴリズム その他

混合(確率密度)分布 サンプルが複数の分布の重み付き和に従うとき サンプルxkからこのξjとθjを求めることができれば、 分布形状が決定できる。ちなみに、mは既知である。 各xkに関して、どのjの分布に従うかを決めることが できれば、通常の最尤推定が適用できる。 不完全データ 完全 データ

EM アルゴリズムの概要 E (Expectation) ステップ : 次で定義される完全データの対数尤度   の条件付き期待値 を計算する.(ここでは、   と見なす。) 具体的な計算方法は後に述べる。 M (Maximization) ステップ : を について 最大化した   ものを  とおき、t=t+1として1に戻る。

E step の詳細 分布モデル X がJ番目の要素分布に従う確率を とすると これによって重み付けをした尤度の和として、 が得られる。この式を最大化するξkとθkを求める。

M step の詳細 問題: という条件の下で、 を 最大化する を求める。 最大化する  を求める。 に Lagrange の未定係数項を加えて式の変形をしていくと、結果 的に、次式が得られる。 Θkに関してはこ の式から求める。

M step の詳細:混合正規分布の場合

混合正規分布のあてはめ EM\MixtureEMj.html