ブートストラップ法 Espresso における 意味ドリフトのグラフ理論的分析

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
ラベル付き区間グラフを列挙するBDDとその応用
小町守(†), 工藤拓(‡), 新保仁(†), 松本裕治(†)
国内線で新千歳空港を利用している航空会社はどこですか?
秘密のリンク構造を持つグラフのリンク解析
参照共起分析の Webディレクトリへの適用
AllReduce アルゴリズムによる QR 分解の精度について
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
検索ログを用いた意味知識獲得のための ブートストラップ手法
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
DMLA 小町守 半教師あり学習 チュートリアル.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
プログラム実行履歴を用いたトランザクションファンクション抽出手法
サポートベクターマシン によるパターン認識
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Spectral Clustering による 語義曖昧性解消のための 教師あり類似度学習
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
複数特徴量の重み付け統合による一般物体認識
検索ログを用いた意味知識獲得のためのブートストラップ手法
北陸先端科学技術大学院大学 中田豊久,金井秀明,國藤進
超大規模ウェブコーパスを用いた 分布類似度計算
実空間における関連本アウェアネス 支援システム
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
文化財のデジタル保存のための 偏光を用いた透明物体形状計測手法
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Max Cut and the Smallest Eigenvalue 論文紹介
大規模コーパスに基づく同義語・多義語処理
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
ソフトウェア理解支援を目的とした 辞書の作成法
Webページタイプによるクラスタ リングを用いた検索支援システム
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Presentation transcript:

ブートストラップ法 Espresso における 意味ドリフトのグラフ理論的分析 小町守 奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座 ゼミナールII発表練習 2008年9月24日 2017/3/11

背景 人手コストがかかる →できるだけコスト減らしたい 人手の介在を最小限に しながら学習を行える 自然言語処理における機械学習の成功 教師あり手法 タグ付きコーパスが必要 整備された辞書が必要 人手コストがかかる →できるだけコスト減らしたい ブートストラップ 人手の介在を最小限に しながら学習を行える 2 3/11/2017 3/11/2017

アップルにMacBook Airを注文する ブートストラップ パターン抽出とインスタンス獲得を交互に繰り返して少 量のシードインスタンスを反復的に増やす インスタンス (抽出対象) コーパス パターン (インスタンス抽出の  ためのテンプレート) co-training とはどういう関係にあるか iPhone アップルにiPhoneを注文する アップルに#を注文する iPod touch アップルにiPod touchを注文する #:インスタンス が入るスロット MacBook Air アップルにMacBook Airを注文する 3/11/2017

博士論文のトピック Web 検索クエリログからの意味知識獲得のためのブー トストラップ手法 ブートストラップ法 Espresso における意味ドリフトのグラ フ理論的分析 グラフカーネルを用いた意味的類似度の定義と意味知 識獲得 3/11/2017

意味ドリフト=いったんジェネリックパターンを獲得してしまうとそれ以降シードインスタンスと関連性の低いインスタンスを獲得してしまう ブートストラップの問題点 意味ドリフト パラメータ数が多く調整が難しい 反復の初期段階で止めるほうが一般的によい精度 後述する Espressoではパラメータ数は8個 タスク・ドメイン依存 熱海 湯布院 〜の写真 広末涼子 イチロー …… 共起パターン ジェネリックパターン =多数のインスタンスと共起するパターン 意味ドリフト=いったんジェネリックパターンを獲得してしまうとそれ以降シードインスタンスと関連性の低いインスタンスを獲得してしまう シード 3/11/2017

本研究の主要な貢献 ブートストラップのグラフ理論による解析 Espresso (Pantel and Pennachiotti, 2006) のリンク解析的定式化 Espresso の収束解析 意味ドリフトと HITS (Kleinberg, 1999) のトピックドリフト との関連性 ブートストラップにおけるヒューリスティックの意義 グラフに基づくカーネルを用いた意味ドリフトの解決 ジェネリックパターンの影響を抑えつつ関連性の高いインスタ ンスを獲得する手法 6 2017/3/11 3/11/2017

行列の(p,i)要素はパターンpとインスタンスiの共起 ブートストラップの定式化 シードインスタンスのスコアベクトル パターン-インスタンス共起行列P 以下を反復 I と p が収束したら終了 行列の(p,i)要素はパターンpとインスタンスiの共起 インスタンスの類似度行列をM=PTP として、このステップを再帰的に行うと in=Mni0 インスタンスとパターン のベクトルを出力 3/11/2017

簡略化版 Espresso (Simplified Espresso) シードインスタンスのスコアベクトル パターン-インスタンス共起行列 以下を反復 iとpが収束したら終了 行列の(p,i)要素はパターンpとインスタンスiの正規化された自己相互情報量 パターン抽出はブートストラップにおいて必須ではない(小町ら, 2008) ブートストラップの反復の際スコア上位のパターン・インスタンスを獲得するというヒューリスティック 3/11/2017

意味ドリフトと HITS のトピックドリフトの関連性 Simplified Espresso では、各反復ごとにinを正規化しなが らn→∞とすると、シードインスタンスベクトルi0によらず in→Mの主固有ベクトル Pを隣接行列とするHITSが返す権威度ベクトルと一致 どのシードインスタンスに対してもランキングは一定 HITSではトピックドリフトと言われている現象 ブートストラップはHITSとは異なり反復の際スコア上位のパタ ーン・インスタンスのみ使うというヒューリスティック ブートストラップの反復を繰り返していくと意味ドリフトは不可避? ヒューリスティック入りの Espresso(Filtered Espresso) は意味ドリフト抑制に成功する? 3/11/2017

意味ドリフトとトピックドリフトの評価実験 Senseval-3 English Lexical Sample タスクのデータ Bank の語義を当てる 訓練事例262個・評価事例132個 評価事例中の再頻出語義は「土手」の意味の86個(F=0.674) … the financial benefits of the bank(銀行) 's employee package ( cheap mortgages and pensions, etc ) , bring this up to … 訓練事例には人手でつけた 語義がついている In that same year I was posted to South Shields on the south bank(土手) of the River Tyne and quickly became aware that I had an enormous burden … Possibly aligned to water a sort of bank(???) by a rushing river. 評価事例の語義を当てる 3/11/2017

ブートストラップによる語義曖昧性解消 シードインスタンス=語義を当てる対象の用例 システムの出力=スコアの高い順3インスタンスのうち多 数を占める語義(k=3 の k-nearest neighbour) 語義が同数の場合はスコアの一番高い語義 Espresso の足切りヒューリスティック(Filtered Espresso) 初期パターン数p=20 (反復ごとにp=p+1) 初期インスタンス数m=100 (反復ごとにm=m+100) 最初にテスト事例を入れてパターンインスタンス共起行列を作っているが、 最初にテスト事例がない状態でどうなるか知りたい(高村さん) 3/11/2017

Espresso のヒューリスティックの比較結果 反復を繰り返しても意味ドリフトは起きない →ヒューリスティックは意味ドリフトを抑えるために必要な処理 入力によらず 最頻出語義を 出力する 徐々にジェネリックインスタンスに高いスコアが割り振られ、意味ドリフトが起きている インスタンスの順番はHITSの重要度ランキングと一致 →意味ドリフトとHITSのトピックドリフトは同じ原因 3/11/2017

Filtered Espresso の学習曲線 最頻出語義の割合が増加 →意味ドリフトが起きている ヒューリスティックを入れても意味ドリフトが起きている 3/11/2017

グラフカーネルを用いた意味ドリフトの解決 Espresso 意味ドリフトが避けられない HITS 重要度の高いインスタンスを獲得してしまう ヒューリスティックの効果は限定的 設定しなければならないパラメータが多い 最適化が大変 関連度の高いインスタンスの獲得のための手法 ノイマンカーネル(重要度と関連度の混合) 正則化ラプラシアンカーネル(重要度によらない関連度) 3/11/2017

正則化ラプラシアンによる関連度の定義 湯布院 熱海 広末涼子 イチロー 〜の写真 〜の旅館 〜のホームページ …… 旅行パターンと共起するインスタンスは関連度高くしたい ジェネリックパターンと共起するインスタンスは関連度低くしたい パターン 湯布院 熱海 広末涼子 イチロー 〜の写真 〜の旅館 〜のホームページ …… インスタンス 3/11/2017

正則化ラプラシアンカーネル グラフ内の全経路の重み付き和 負のラプラシアン -L はグラフ G の自己ループの重みを 変更したものに相当 グラフGのラプラシアンL A:隣接行列 β:拡散係数 次数対角行列Dのi番目の対角要素 正則化ラプラシアン行列Rβ 3/11/2017

グラフカーネルによる意味ドリフト解決の評価 提案手法が意味ドリフトの抑制に成功しているかどうか グラフベースの語義曖昧性解消手法との比較 Agirre et al. (2006) との比較 HyperLex (Veronis, 2004) と PageRank (Brin and Page, 1998) を用いた実験 17 3/11/2017 3/11/2017

Espresso は意味ドリフトが避けられない Bank に対する予測ラベル(F値) Espresso は意味ドリフトが避けられない アルゴリズム 最頻出語義 それ以外 Simplified Espresso 100.0 0.0 Filtered Espresso 30.2 Filtered Espresso (最適パラメータ) 94.4 67.4 正則化ラプラシアン (β=10-2) 92.1 62.8 正則化ラプラシアンは 意味ドリフトを回避している 3/11/2017

グラフベースの語義曖昧性解消(名詞のみ) Espresso はパラメータのチューニングが必要 アルゴリズム F値 再頻出語義(ベースライン) 54.5 HyperLex 64.6 PageRank Simplified Espresso 44.1 Filtered Espresso 46.9 Filtered Espresso (最適パラメータ) 66.5 正則化ラプラシアン (β=10-2) 67.1 HyperLexやPageRankより数ポイント上 3/11/2017

まとめ グラフ理論によるブートストラップ法 Espresso の解析を 提案した HITS におけるトピックドリフトとブートストラップにおける 意味ドリフトの類似性を指摘した 正則化ラプラシアンカーネルがブートストラップにおける 意味ドリフトを抑制することを語義曖昧性解消タスクで示 した 今後の予定 固有表現抽出タスクでも提案手法が適用できるか検証 語義曖昧性解消タスクのドメイン適応 3/11/2017

3/11/2017

信頼性の高いインスタンスは信頼性の高いパターンに、パターンはインスタンスに支持されている Espresso アルゴリズム Espresso (Pantel and Pennacchiotti, 2006) 少量のシードインスタンスから始める 以下を反復 パターン抽出 パターンのランキングと選択 インスタンス獲得 信頼性の高いインスタンスは信頼性の高いパターンに、パターンはインスタンスに支持されている p:パターン, i:インスタンス P:パターン集合, I:インスタンス集合 pmi:自己相互情報量, max pmi:全P,I中のpmiの最大値 22 2017/3/11 3/11/2017

拡散係数βに対する感受性 ノイマンカーネル 正則化ラプラシアンカーネル パラメータによってかなり性能に違い パラメータによらずほとんど性能に違いは見られない 3/11/2017

Espresso (Pantel and Pennachiotti, 2006) 関連研究 Agirre et al. (2006) HyperLex (Veronis, 2004) と PageRank (Brin and Page, 1998) を用いた手法 単語をノード、単語間の共起の相対頻度を エッジとしたグラフを作成しクラスタリング パラメータ数が多く最適化が難しい Espresso (Pantel and Pennachiotti, 2006) グラフ解析との関連性については言及なし 3/11/2017