人工知能概論 第10回 学習と認識(1) クラスタリング

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

0章 数学基礎.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
人工知能特論 8.教師あり学習と教師なし学習
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
Data Clustering: A Review
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Scalable Collaborative Filtering Using Cluster-based Smoothing
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
人工知能概論 第11回学習と認識(2) パターン認識
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
人工知能概論 第6章 確率とベイズ理論の基礎.
EMアルゴリズム クラスタリングへの応用と最近の発展
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
第12章 連続潜在変数 修士 1年 村下 昇平.
人工知能概論 第9回 位置推定(2) 粒子フィルタ
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
果物識別 マハラノビス距離を求める.
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
Fuzzy c-Means法による クラスター分析に関する研究
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音高による音色変化に着目した音源同定に関する研究
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
人工知能概論 第9回 位置推定(2) 粒子フィルタ
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
早わかりアントコロニー最適化 (Ant Colony Optimization)
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
Data Clustering: A Review
クラスター分析入門 高崎経済大学 宮田 庸一.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
Number of random matrices
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
第3章 線形回帰モデル 修士1年 山田 孝太郎.
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Webページタイプによるクラスタ リングを用いた検索支援システム
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

人工知能概論 第10回 学習と認識(1) クラスタリング 立命館大学 情報理工学部 知能情報学科 谷口忠大

STORY 学習と認識(1) さて,迷路を探索し,通り抜ける方法もわかった.自分の位置を見失っても自己位置推定で思い出すことができる.ホイールダック2号はこれで大丈夫だと思った. 「さあ,お宝とってゴールに向かうぞ!」 しかし,ちょっと待てよ.「お宝」や「ゴール」って何だろう.「お宝」とはどんなもので「ゴール」ってどんな見た目なんだろう.ホイールダック2号は地図はわかるが,目の前に「お宝」や「ゴール」があったとしても,それが「お宝」や「ゴール」であることを認識することができない.まずは,「お宝」や「ゴール」とはどんなものなのか,学習していないと話にならない.

仮定 学習と認識(1) ホイールダック2号は適切な画像特徴量を有限次元ベクトルとして取得できるものとする. 情報取得! エンコーディング!

Contents 10.1 クラスタリング 10.2 K-means法 10.3 混合ガウス分布 10.4 階層的クラスタリング 10.5 低次元化

10.1.1 クラスタリングとは何か? データの集まりをデータ間の類似度にしたがっていくつかのグループに分類することをクラスタリングという. この作業を自動化するのが機械学習におけるクラスタリングという種類に属する手法 自ら概念を獲得するロボットをつくろうとする場合にはクラスタリングは重要な要素技術になる.

10.1.2 特徴抽出 「自然な」クラスタリングとは? 大きさ? 形状? ロボットにとってこのグループ分けが「自然な」ものであるかどうかは,ロボットにどのような基準を与えるかに依存する. そのような類似性を定義するために,特徴量や特徴ベクトルによって張られる特徴空間の設計が重要になる.

特徴量抽出とクラスタリング 対象が特徴空間上の点として表されると,クラスタリングは特徴空間上の点をグループ分けする数学的な問題になる.

教師なし学習 入力として与えられたデータに潜む知識を発見する方法 クラスタリング 低次元化 大量のデータを幾つかのグループに自動的に分類する. 分類問題を教師データを用いずに行う. 低次元化 高次元のデータをより低次元な空間に写像することで,データを説明する少数のパラメータを発見する.または,可視化する.

Contents 10.1 クラスタリング 10.2 K-means法 10.3 混合ガウス分布 10.4 階層的クラスタリング 10.5 低次元化

10.2.1 K-means法のアルゴリズム このアルゴリズムでコスト関数Jを単調減少させられる. K-means 法を D3.js でビジュアライズしてみた http://tech.nitoyon.com/ja/blog/2013/11/07/k-means/ 自分で利用する場合 Cで書いてもとても簡単. Python (numpy, scipy) scipy.cluster.vq.kmeans もしくはvqという関数がある. R kmeansという関数が標準で用意されている. このアルゴリズムでコスト関数Jを単調減少させられる.

10.2.2 K-means法の例 c1 = (2 + 4 + 10)/3 = 16/3 = 5+1/3 S={2,4,6,10,12,14}という6個の一次元データがあったとする.これをk-means法を用いてクラスタリングする. 初期クラスターをS1={2,4,10}, S2={6,12,14}とした際に,k-means法のアルゴリズムを実行する. まず,初めのステップで,各クラスタの重心値は c1 = (2 + 4 + 10)/3 = 16/3 = 5+1/3 c2 = (6 + 12 + 14) = 32/3 = 10+2/3

K-means法の実行例

10.2.2 K-means法の例(続き) c1 = 16/3 = 5+1/3 c2 = 32/3 = 10+2/3 S={2,4,6,10,12,14}という6個の一次元データがあったとする.これをk-means法を用いてクラスタリングする. 初めのステップで,各クラスタの重心値は c1 = 16/3 = 5+1/3 c2 = 32/3 = 10+2/3 次にS={2,4,6,10,12,14}それぞれがc1, c2のどちらに近いかで分類する: c1: {2, 4, 6} c2: { 10, 12, 14}

K-means法の実行例

10.2.2 K-means法の例 c1: {2, 4, 6} c2: { 10, 12, 14} これから各クラスタの重心値: S={2,4,6,10,12,14}という6個の一次元データがあったとする.これをk-means法を用いてクラスタリングする. c1: {2, 4, 6} c2: { 10, 12, 14} これから各クラスタの重心値: c1 = (2+4+6)/3 = 4 c2 = (10+12+14)/3 = 12

K-means法の実行例

演習10-1 K-means法とは? K-means 法の説明として最も不適切なものを選べ. データを最も近いクラスタに帰属させ,その後にクラスタの代表点を更新する. クラスタ内のデータとクラスタの代表点の距離の和を減少させる. クラスタの代表点を更新する際にはデータの重心値をとるのであって中央値をとるのではない. K 個の方法を組み合わせて学習を進行させる.

演習10-2 K-means法 二次元平面上に {(0,0), (0,1), (0,2),(4,0), (4,1), (4,2)}の6点の点集合がある.これらに対してK-means法を適用しクラスタリングを行え. 初期のグループ分けはランダムに行うこと. クラスタ数はK=2 とせよ.

Contents 10.1 クラスタリング 10.2 K-means法 10.3 混合ガウス分布 10.4 階層的クラスタリング 10.5 低次元化

裏でデータが生成される確率を明示的に考える 10.3.1 確率モデルに基づくクラスタリング K-meansでは境界が確定的なので,クラスタへの帰属度合いなどが議論しにくい. また,データがどのクラスタに属するかの判定が距離のみで判断されるために,クラスタごとにデータ分布の広がりが異なるようなデータを適切に分けることができない. 確率モデルに基づいたクラスタリングとして混合分布モデルに拠るアプローチがある. 裏でデータが生成される確率を明示的に考える

10.3.2混合分布モデルのデータ生成過程 α1 α3 α2 P2 P1 P3 混合分布モデルでは,データが,元々どのようにして生成されたデータであるか,というモデルを考えて,その生成過程をベイズの定理を用いて逆方向に推定することでクラスタリングを行う. α1 要素分布の 選択確率 α3 α2 P2 P1 P3 要素分布

観測データojに対して P(k|oj)を求めるのが ベイズ定理を用いた解釈 この時にαj = P( j) であり,条件付き確率の視点から書き換えれば,上式は とできる. 観測データojに対して P(k|oj)を求めるのが クラスタリングとなる.

混合ガウス分布 混合ガウス分布 EMアルゴリズム 混合分布モデルで要素分布がガウス分布であるもの. 各要素分布が平均パラメータと分散パラメータを持つ. パラメータ更新がk-means法の重心の更新に相当する. EMアルゴリズム 最尤推定にもとづいて混合ガウス分布を学習するためのアルゴリズム

K-means法はEMアルゴリズムの近似になっている. 混合ガウス分布の学習はEMアルゴリズムを用いることが多い.EMアルゴリズムは平均については以下のようなアルゴリズムになる. Eステップ ガウス分布の平均値パラメータを固定した上で,全ての観測otに対して,P(k|ot)を計算する. wjt = P(k|ot)はデータotのクラスタkへの帰属度を与えていると考えられる. Mステップ j番目のガウス分布について全てのデータotをwjtで重みづけて平均をとり,平均値パラメータを更新する. K-means法はEMアルゴリズムの近似になっている.

LDA(Latent Dirichlet Allocation) 潜在ディリクレ配分法 Bleiらによって2003年に提案されて以降, 文章クラスタリングの標準的手法として用いられている. 多項分布の混合モデル. 人それぞれでしょうけど、オシム監督の走るサッカーだと、私は思います。 Bag-of-words 文章 トピック1 トピック2 トピック3 りんご みかん キウイ ・ 私 は には を ・ 走る サッカー 投げる ・

演習10-3 確率的クラスタリング 上の混合モデルが与えられているとする 観測 oj が与えられたとき、この観測がクラスターk に属する確率p(k| oj )を上に用いた記号を使って示せ. ヒント: (10.5)式  と上の式の関係  を読み解く 

演習10-3追加 三つのクラスタC1, C2, C3があるとする。 観測値 o が得られる確率は p(o|C1)=0.3, p(o|C2)=0.7, p(o|C3)=0.4 また要素分布の選択確率は p(C1)=0.5, p(C2)=0.2 p(C3)=0.3 とする。 観測o が与えられたとき、この観測がクラスターk(k はC1, C2, C3 )に属する確率p(k| o)はいくらか?

Contents 10.1 クラスタリング 10.2 K-means法 10.3 混合ガウス分布 10.4 階層的クラスタリング 10.5 低次元化

10.4 階層的クラスタリングと非階層的クラスタリング データ群を複数のクラスタに分類するクラスタリング 階層的クラスタリング クラスタ間の距離や類似度に基づいて,2つのクラスを逐次的に併合するなどの手法によってデータの階層構造を得る手法をと呼ぶ.結果はデンドログラムという木構造で表現される. 非階層的クラスタリング 階層的クラスタリング k-means 法 混合ガウス分布 隠れマルコフモデル LDA (Latent Dirichlet Allocation) その他 最短距離法 群平均法 ウォード法 その他

デンドログラム (階層的クラスタリング) 実際の実現には様々な手法がある. こちらのほうが「優れている」わけではない. 用途次第.

ウォード法 階層的クラスタリング 決定論的な階層的クラスター分析手法の中では安定した性質を持っていると言われる. 最短距離法 群平均法 ウォード法 その他 決定論的な階層的クラスター分析手法の中では安定した性質を持っていると言われる. 2つのクラスターを結合する際に「群内平方和の増加量」が最小になる二つのクラスターを一つにまとめる. 群内平方和=重心からの距離の二乗の和 D(A,B)=E(A∪B)-E(A)-E(B) E(X)は集合Xの群内平方和

演習10-4 デンドログラムの性質として最も不適切なものを選べ. 木構造のグラフの側面を持つ. データを順次併合していくことにより階層的クラスタリングがなされていく様子を表現している. ウォード法の結果を表すときに用いられる. デンドログラムは非階層型クラスタリングの結果を表現するためのものである.

Contents 10.1 クラスタリング 10.2 K-means法 10.3 混合ガウス分布 10.4 階層的クラスタリング 10.5 低次元化

10.5.1 クラスタリングと低次元化 クラスタリングと並ぶ教師なし学習の手法 高次元のデータをより低次元のベクトルで表現するのが低次元化の手法である. 可視化 特徴ベクトル抽出 データ圧縮 ソーシャルネットワークグラフ twitter mention map

主成分分析 主成分分析は具体的にはデータが高次元空間上に分布していると仮定して,その分布の主軸方向(最も分散の大きい方向)を発見し,それを第1主成分とする.その後,その次に分散の大きい軸をとるというように,順次,軸をとっていくことで,低次元空間を得ていく.データの分散共分散行列を固有値分解して求められる。 データの分布 主軸 第一主成分 第二主成分

主成分分析の例 N = 1000 人の学生がD = 30 科目の授業の履修を終えて,それぞれに100 点満点の成績を得たとする. 30 次元のデータを最も上手く表現できるような低次元の表現を得る. 分散共分散行列の 固有値分解

音声認識,画像認識で圧倒的最高性能を叩きだして,現在,Deep Learning ブーム 様々な低次元化手法 主成分分析 独立成分分析 カーネル主成分分析 MDS (多次元尺度法) 自己組織化マップ(SOM) GPLVM Deep Belief Network 主成分分析を学ぶなら とりあえず,これなど・・・ これなら分かる応用数学教室―最小二乗法からウェーブレットまで ,金谷 健一 Deep Learning が2011年ごろから 音声認識,画像認識で圧倒的最高性能を叩きだして,現在,Deep Learning ブーム

10.5.5 深層学習(deep learning) 深層学習(deep learning) は2010 年代に入ってから急速に注目されている低次元化手法であり,主にパターン認識のための特徴ベクトル抽出に用いられている.音声認識や画像認識で非常に高い性能を出すことに貢献している.

あ,”name{クラスター1}”がある! 宝箱という 知識を得る クラスター1 クラスター2 クラスター3

まとめ クラスタリングの基礎について学んだ. K-means 法のアルゴリズムを学び,簡単な数値例を通じてその動作を確認した. 混合ガウス分布におけるEMアルゴリズムの概略について学んだ. 階層的クラスタリングの概要について学んだ. 低次元化手法の概要について学び,その代表的な手法である主成分分析,独立成分分析,カーネル主成分分析,深層学習の概要を知った.

予習問題 p.153 の最小二乗法の説明を読んで、自分で式をおいかけてみよう pp.156-160 のナイーブベイズ法によるスパムフィルタの説明を読んで、(11.22)と(11.23)が得られることを確かめよう