Spectral Clustering による 語義曖昧性解消のための 教師あり類似度学習

Slides:



Advertisements
Similar presentations
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
Advertisements

白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
ラベル付き区間グラフを列挙するBDDとその応用
小町守(†), 工藤拓(‡), 新保仁(†), 松本裕治(†)
Scalable Collaborative Filtering Using Cluster-based Smoothing
ブートストラップ法 Espresso における 意味ドリフトのグラフ理論的分析
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
Semi-Supervised QA with Generative Domain-Adaptive Nets
DMLA 小町守 半教師あり学習 チュートリアル.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
サポートベクターマシン によるパターン認識
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
決定木とランダムフォレスト 和田 俊和.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
Large Margin Component Analysis by Lorenzo Torresani, Kuang-chih Lee
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
ICML2006勉強会 2006年7月29日 局所フィッシャー判別分析 東京工業大学 計算工学専攻 杉山 将.
IIR輪講復習 #17 Hierarchical clustering
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
訓練データとテストデータが 異なる分布に従う場合の学習
「R入門」  5.7 行列に対する諸機能  10月23日 (木) 発表者 大城亜里沙.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
主成分分析 Principal Component Analysis PCA
分子生物情報学(2) 配列のマルチプルアライメント法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
複数特徴量の重み付け統合による一般物体認識
部分的最小二乗回帰 Partial Least Squares Regression PLS
Nightmare at Test Time: Robust Learning by Feature Deletion
Data Clustering: A Review
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
サポートベクターマシン Support Vector Machine SVM
Data Clustering: A Review
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Max Cut and the Smallest Eigenvalue 論文紹介
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Data Clustering: A Review
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Spectral Clustering による 語義曖昧性解消のための 教師あり類似度学習 松本研研究会 2009-01-28 小町守

やりたいこと ラベル付きデータが少ない状況での語義曖昧性解消(半教師あり語義曖昧性解消) ラベルつきデータもラベルなしデータも両方活用 ラベルなしデータを用いたパターン(素性)・インスタンスの適切な重み付け ラベル見るのもアリ スペクトラルクラスタリング 教師あり距離(類似度)学習

本日の内容 kNN による語義曖昧性解消 教師あり類似度(距離)学習 半教師ありクラスタリング Spectral Clustering 制約付きスペクトラル学習による語義曖昧性解消実験

背景:kNNによる語義曖昧性解消 シード = 語義を当てたいインスタンス 距離 = インスタンス同士の類似度(正則化ラプラシアンカーネル) 学習 = k-nearest neighbor (k=3) →△分離平面がきれいにならない →△SVM に負けている シード

類似度尺度(距離)とは 2インスタンス間の(非)類似度を返す クラスタリング、知識獲得、構文解析、意味解析などに応用可能 ユークリッド距離、コサイン類似度、etc. イオンで はし を買ってきた ホームの はし は危険です どっちが「近い」? この はし わたるべからず

類似度(マハラノビス距離)学習 距離 →類似度行列のパラメータ M = W’W (W はインスタンス-パターン行列)を学習 →M を対角行列にするとパターンの「重み」を学習 Pointwise-mutual information や tf.idf は教師なしで重みをつけられるが、類似度学習ではラベル付きデータから重みを推定 素性選択や次元削減に相当

教師あり類似度学習 距離をグラフ全体で最適化するように学習 局所的な距離を学習 カーネルを学習 Relevant Component Analysis (Bar-Hillel ICML-2003) 局所的な距離を学習 Neighborhood Component Analysis (Goldberger et al. NIPS-2005) Large magin nearest neighbor (Weinberger et al. NIPS-2006) カーネルを学習 Kernel alignment (Cristianini et al. NIPS-2002) Idealized kernel (Kwok and Tsang ICML-2003)

最大マージンNN(LMNN)

LMNN のコスト関数 ただしηijはxiとxjが近傍にあるかどうか判定する関数(学習時には変わらない) SVM に似た定式化 ユークリッド距離に基づいて k 個のインスタンスを近傍とする [z]+はmax(z, 0)で、hinge loss に相当 SVM に似た定式化

コスト関数の効率的な最適化 Semi-definite programming として表現できる

本日の内容 kNN による語義曖昧性解消 教師あり類似度(距離)学習 半教師ありクラスタリング Spectral Clustering 制約付きスペクトラル学習による語義曖昧性解消実験

半教師ありクラスタリング ラベルを2項間の制約として入れる(Wagstaff and Cardie 2000) Must-link 2つのインスタンスが同じラベル Cannot-link 2つのインスタンスは違うラベル

K-means +半教師ありクラスタリング 制約ベース: インスタンスが制約を満たすようクラスタリング COP-kmeans (Wagstaff et al. ICML-2001) 距離ベース: 制約を考慮してインスタンス間の距離を再計算 CCL (Klein et al. 2002) Must-link を持つインスタンス同士の距離を0、cannot-linkを∞とし、Must-link に関係する距離を修正→最後はcomplete-linkでクラスタリング →△使えるクラスタリングに条件があるという問題

スペクトラルクラスタリング クラスタ間の類似度が最小(クラスタ内の類似度が最大)になるようなグラフカット

固有ベクトルとラプラシアンの関係 グラフラプラシアン L = D – A (Dは対角行列、ただし     ) の2番目に小さい固有ベクトルがそうしたグラフカットの近似になっている 2番目に小さい固有ベクトルを用いてデータを2つに分割できる(Shi and Malik CVPR-1997) K個の固有ベクトルを使って複数クラスタに分割できる(Ng et al. NIPS-2002; Meila and Shi AISTAT-2001) →○Kクラスの分類問題に利用できる

スペクトラル学習のアルゴリズム 類似度行列 A を作る 対角行列 D を作る A を正規化する(=N) Cos 類似度、ユークリッド距離、etc… 対角行列 D を作る A を正規化する(=N) D-1A, D-1/2AD-1/2, (A + dmaxI – D) / dmax (dmax = A の行和の最大値) N のk個の最大固有ベクトルを計算し、列に順番に並べて行列 X を作る X の各行を正規化する →ここから先がクラスタリングと分類で違う

スペクトラルクラスタリング 各インスタンスをXの各行にマップし k 個のクラスタに分割(K-means などを使う) 分類の場合は上記に変えて以下の2ステップ 各インスタンスをXの各行にマップ 各行を訓練事例として教師あり学習 インスタンスのラベルはマップされた X の行に相当するラベル

制約つきスペクトラルクラスタリング1 類似度行列に制約を入れる(Kamvar et al. IJCAI-2003) →○多クラスでも扱える Must-link のあるところは Aij = Aji = 1 Cannot-link のあるところは Aij = Aji = 0 残りは普通にスペクトラルクラスタリング →○多クラスでも扱える →△(数学的に)きれいではない →△?(制限)類似度尺度は0-1の範囲のみ

制約つきスペクトラルクラスタリング2 Subspace trick(De Bie et al. SSPR-2004) →○(数学的に)きれい 制約を書いた行列を用いることによって固有ベクトルの探索空間を変化させる(DMLA 12月17日) →○(数学的に)きれい →△(2クラスの場合はよいが)多クラスの場合Cannot-link の書き方が自明ではない 2 7 5 4 1 6 3

スペクトラル学習によるWSD Must-link、Cannot-link はラベル付きデータから生成できる 複数ラベルを考慮したモデルがよい Kamvar et al. の方法を試した →2クラスに限定すれば subspace trick も使えるが……

制約つきスペクトラル学習 類似度行列 A を作る 対角行列 D を作る 制約を満たすよう A を修正する A を正規化する(=N) Must-link のあるところは Aij = Aji = 1 Cannot-link のあるところは Aij = Aji = 0 A を正規化する(=N) N のk個の最大固有ベクトルを計算し、列に順番に並べて行列 X を作る →以下同様

(予想) スペクトラル学習はラベル付きデータが少ないときに有効 →SVM や kNN と比べてラベル付きデータが少ないところで勝ちたい いくつか分岐点がある 類似度尺度、クラスタリング(どのクラスタリング手法) or 分類(どの分類器)、正規化方法、制約の入れ方 →どれがよい?

実験設定 データ: Senseval-3 English Lexical Sample 手法(スペクトラル学習) 57単語、1語につき100-200文章の訓練データ 語義の数は平均して6.47個 10%, 25%, 50%, 75%, 100% で実験 手法(スペクトラル学習) 類似度行列 A = PPT (ただしPは各行で正規化) A の正規化 なし K = 50 (てきとう) 分類器 libsvm-2.84.0 (線形カーネル)

SVM, kNN(k=5) との比較 精度 データ量(利用できる訓練データに対する割合)

考察 ×最頻出語義ベースライン以下 結果を分析したところ、(全てではないが)ほとんど最頻出語義を選択してしまっている →類似度に正則化ラプラシアンカーネルを使うべき? Kの数は大きすぎると過学習するが、小さすぎると全く判別できない

まとめ 制約付きスペクトラル学習を用いて語義曖昧性解消ができる。 ただし、類似度行列、正規化方法、分類器、制約の入れ方など、設定するべきパラメータが多い。 特に類似度行列の選び方が意味ドリフトを防ぐために重要(みたい)。

TODO LMNN による類似度行列の学習 (2クラス問題に限定して)subspace trick を使ってみる (多クラス問題で Must-link のみに限定して)subspace trick を使ってみる

コメント・アドバイスありましたら どうぞよろしくお願いします。