DMLA 2008-06-17 小町守 半教師あり学習 チュートリアル.

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
最大エントロピーモデルに基づく形態素解析と辞書による影響
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
小町守(†), 工藤拓(‡), 新保仁(†), 松本裕治(†)
国内線で新千歳空港を利用している航空会社はどこですか?
Pattern Recognition and Machine Learning 1.5 決定理論
ブートストラップ法 Espresso における 意味ドリフトのグラフ理論的分析
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
Bias2 - Variance - Noise 分解
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
検索ログを用いた意味知識獲得のための ブートストラップ手法
Semi-Supervised QA with Generative Domain-Adaptive Nets
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
サポートベクターマシン によるパターン認識
Spectral Clustering による 語義曖昧性解消のための 教師あり類似度学習
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
第9章 混合モデルとEM 修士2年 北川直樹.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
訓練データとテストデータが 異なる分布に従う場合の学習
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
予測に用いる数学 2004/05/07 ide.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
検索ログを用いた意味知識獲得のためのブートストラップ手法
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
部分的最小二乗回帰 Partial Least Squares Regression PLS
Data Clustering: A Review
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
大規模コーパスに基づく同義語・多義語処理
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
Webページタイプによるクラスタ リングを用いた検索支援システム
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
プログラム依存グラフを用いた ソースコードのパターン違反検出法
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

DMLA 2008-06-17 小町守 半教師あり学習 チュートリアル

本チュートリアルのねらい (自分の博士論文に関係のある)半教師あり学習についての紹介 半教師あり学習使ってみようという人を増やす 長所と短所のサーベイ 半教師あり学習使ってみようという人を増やす

イントロダクション 半教師あり学習(Semi-supervised learning) ラベルありデータとラベルなしデータの両方を利用した学習法全般 ラベルありデータ: 正解が付与されているデータ ラベルなしデータ: 正解が付与されていないデータ 種類 クラスタリング、分類、回帰、ランキング、…

本チュートリアルで想定するNLPタスク 固有表現抽出タスク 新たなパターン獲得 新しい NE シード NE 新しい NE 新しい NE 大規模データ 大規模データ 大規模データ 新たなパターン獲得

本チュートリアルで想定するNLPタスク 語義曖昧性解消タスク 分類器 シード 用例 大規模データ 大規模データ 大規模データ 新たな用例獲得

半教師あり学習の目的 ラベルありデータとラベルなしデータが存在 ラベルなしデータを使って性能向上したい (前提) ラベルなしデータは大量に獲得可能 ラベルありデータは作成にコストがかかる 人手でつけるのは面倒 専門知識が必要 アノテーションツールが使いにくい(などなど……)

半教師あり学習が有効な場合(1) 前提 インスタンスがたくさんあるところに分離平面を引きたくない

半教師あり学習が有効な場合(2) 前提: データのよい生成モデルがある Gaussian Mixture のパラメータは EM で求めることができる クラスのラベルは正解付きデータから推定

2つのアルゴリズム 分類器に基づく手法 データに基づく手法 初期分類器から始め、反復的に分類器を洗練 Self-training/co-training データに基づく手法 データに備わっている構造を発見し、分類器を構築する際に用いる グラフベースの手法

分類器の予測結果に基づく手法 仮定 アルゴリズム 分類器の出した確信度の高い予測結果は正しい ラベルありデータから分類器を教師あり学習 ラベルなしデータのラベルを予測 ラベルなしデータと予測結果(擬似的な正解ラベル)をラベルありデータに追加 繰り返し

Self-training Yarowsky 1995 語義曖昧性解消(インスタンスは語義) One sense per discourse の制約により新しいパターン獲得

実際の学習法 ラベルなしデータのラベルを予測 予測ラベルを正解と見なしてラベルありデータに追加 閾値以上の確信度の予測結果のみを追加 確信度の上位k個の予測結果のみを追加 重み付きで全ての予測結果を追加 ラベルありデータ+予測ラベル付きラベルなしデータで分類器を教師あり学習

ブートストラップ(固有表現抽出) パターン抽出とインスタンス獲得を交互に繰り返して少量のシードインスタンスを反復的に増やす インスタンス 2018/9/22 ブートストラップ(固有表現抽出) パターン抽出とインスタンス獲得を交互に繰り返して少量のシードインスタンスを反復的に増やす インスタンス コーパス パターン MacBook Air アップルMacBook Air注文 アップル#注文 iPod touch アップルiPod touch注文 #:インスタンス が入るスロット MacBook Pro アップルMacBook Pro注文

特長と問題点 特長 問題点 複雑な仮定が不要 ラッパーとして用いることができる NLP で実際よく使われている 既存の分類器との親和性が高い NLP で実際よく使われている 問題点 真の分布に基づく分類器の実現は困難 初期に間違えると間違いが増幅される 収束条件がよく分からない

Self-training の問題点(cont.) 高次元スパース空間(素性の数が膨大で、訓練事例にはほとんど現れない場合)には不向き NLP では典型的には高次元スパース空間 本質的な性能の向上は見込めない 分類器自身が知っていることを再学習しても情報量は増えない (Cf. 能動学習 active learning) ラベルなしデータの量を増やしても性能が向上しないことが多い

Co-training (Multiview Learning) 仮定 素性分割が可能 分割した素性それぞれで十分な分類器が学習可能 分割した素性が条件付き独立 アルゴリズム 分割した素性から2つの学習器を学習 ラベルなしデータをそれぞれの分類器で分類 分類器1の確信度上位k個を分類器2のラベルありデータに追加 分類器2の確信度上位k個を分類器1のラベルありデータに追加 繰り返し

CO-training Blum & Mitchell 1998 ウェブページのラベル付け View1 の分類器の予測ラベルを View2 の分類器の訓練事例に、逆も同様にして反復 View 1 による分類器 View 2 による分類器 View1 ページにリンクしているハイパーリンクのテキスト View2 ウェブページのテキストそのもの

Co-training の特長と問題点 特長 問題点 Self-training より間違いに強い タスクの特徴をうまく捉えた使い方をした場合、ラベルありデータの数が少ない場合は性能が向上したという報告あり 問題点 自然に素性を分割できる場合のみ有効 全素性を使って教師あり学習したほうがよい性能を得られる場合が多い(ランダムに素性を分割する話もある)

Co-training の兄弟 Co-EM Multiview Learning 上位k個だけでなく全部の結果を追加する 各分類器が確率的にラベルなしデータを予測 ラベルなしデータと予測結果を重みP(y|x)で追加 Multiview Learning 素性分割なし 複数のタイプの分類器を学習 ラベルなしデータを全ての分類器で予測 ラベルの多数決の結果を追加

EM (Dempster et al, 1977) ラベルありデータとラベルなしデータの対数尤度を最大化 θ π x y Ll:ラベルありデータの対数尤度 Lu: ラベルなしデータの対数尤度 θ π x y

Stable Mixing of Information (Corduneanu 2002) ラベルありデータとラベルなしデータの対数尤度を線形補間 EM で最適化することができる 最適なλの値を求めるためのステップが必要

EMの特長と問題点 特長 問題点 ラベルなしデータを自然に組み込むことができる テキスト分類タスクではよい性能を示している 適切な生成モデルを使わないとよい性能は出ない パラメータを決めるステップが入る 少量のラベルありデータのときは性能向上するが大量にラベルありデータがあるときは性能が悪化するという報告(Merialdo, 1994)もある

類似度グラフを用いる手法 仮定 前提 アイデア 類似サンプルは同一ラベルを持つ傾向にある サンプル間の類似度を定義可能 事前知識, kNN アイデア 類似度グラフに対してグラフベースのアルゴリズムを用いてクラスタリング

類似度グラフによる手法の直感的解釈 Overlap がない状態でもpropagationでうまくいく 隣接するノードは類似のラベルを持つ(図は Zhu 2007 より引用)

類似度グラフによるラベルなしデータの利用

グラフによる手法の特長と問題点 特長 問題点 グラフ理論など数学的な背景が確立 よいグラフが得られていればよい性能が得られる 適切なグラフ構造(やエッジの重み)を得ることが難しい 計算量が相対的に大きい Transductive な方法が多い Transductive: テスト事例が既知のときの学習 Inductive: 未知データを含む全データを対象

まとめ Self/co-training グラフに基づく手法 教師あり学習との親和性が高いのでよく使われてきた うまくいったりいかなかったり、タスクに応じて使わないといけない グラフに基づく手法 NLP タスクにおけるよいグラフは自明でない 計算量が相対的に大きい

資料 言語処理学会第14回年次大会チュートリアル: 半教師あり学習による分類法:—現状と自然言語処理への適用—, 鈴木潤・藤野昭典 ICML 2007 Tutorial: Semi-supervised Learning, Xiaojin Zhu. NAACL 2006 Tutorial: Inductive Semi-supervised Learning with Applicability to NLP, A. Sarkar and G. Haffari.