Bag of Grammarとルールベース手法を統合したWhyテキストセグメント判定

Slides:



Advertisements
Similar presentations
果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
形態素周辺確率を用いた 分かち書きの一般化とその応用
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
テキストの類似度計算
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
Semi-Supervised QA with Generative Domain-Adaptive Nets
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
視点移動カメラにおけるカメラキャリブレーション
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
線形判別分析 Linear Discriminant Analysis LDA
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
設計情報の再利用を目的とした UML図の自動推薦ツール
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
パターン認識特論 ADA Boosting.
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
パターン認識特論 ADA Boosting.
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
Presentation transcript:

Bag of Grammarとルールベース手法を統合したWhyテキストセグメント判定 2010.12.21. 神戸大学:田中克幸,滝口哲也,有木康雄

Introduction 研究背景・目的

Whyテキストセグメント判定とは? Q:龍馬はなぜ暗殺されたか? 数文からなるテキストセグメント(TS)集合において 大政奉還以降、龍馬は幕府に対する態度を軟化させ、徳川慶喜を含めた 諸侯会議による新政府の設立に傾いていたともいわれる。武力倒幕を目指 していた西郷隆盛、大久保利通らが、こうした龍馬の動きを看過できなくなり、 故意に幕府側に龍馬の所在を漏らしたとする説。 坂本 龍馬は、日本の近世末期に活動した武士。土佐郷士に生まれ、脱藩 したのち、倒幕および明治維新に影響を与えた幕末の志士である。 武市半平太とは「アギ(あご)」「アザ(痣)」とあだ名で呼び合う仲だった。 武力倒幕により、薩長倒幕側に武器の売り込みを狙った企業体・ジャーディ ン・マセソン系のイギリス人・グラバー、外交官・パークス、アーネスト・サトウ らにより仕組まれた陰謀であるとの説。龍馬は、中岡慎太郎によって暗殺さ れた。 数文からなるテキストセグメント(TS)集合において 原因・理由を含むテキストセグメントの判定を行うこと このようなテキストセグメントをWhyテキストセグメント(WTS)と呼ぶ そうでないものをNotWhyテキストセグメント(NWTS)と呼ぶ

従来手法 Bag of Grammar(BOG)手法 ルールベース(RB)手法 特徴量 機能語(BOG) 助詞・助動詞・接頭詞・連体 詞・接続詞・非自立 識別器 学習データより,BOG特徴量を 用いて機械学習により自動構築 WTS/NWTSの2値分類問題 TS識別方法 TSからBOGを抽出する 識別器より分類クラスを推定 特徴量 手動であつめたWhy特徴語 だから,理由,原因,“説”…etc 識別器 学習データより,Why特徴語を手 動で抽出してルール辞書を構築 ルールの有無の判定問題 TS識別方法 ルール辞書を参照する ルールが存在すればWTS

に,に,の,を, た,の,ら,により,た,で,ある,と,の,は,によって,た Whyテキストセグメント判定とは? 武力倒幕により、薩長倒幕側に武器の売り込みを 狙った企業体・ジャーディン・マセソン系のイギリス 人・グラバー、外交官・パークス、アーネスト・サトウ らにより仕組まれた陰謀であるとの説。龍馬は、中 岡慎太郎によって暗殺された。 BOG に,に,の,を, た,の,ら,により,た,で,ある,と,の,は,によって,た RB 説

研究目的 しかし・・・ よって本研究目的 統合方法 BOG手法では機能語以外のWhy特徴語が考慮されていない RB手法の問題点 ~が理由, ~が原因  RB手法の問題点 ルールの網羅性 高精度なWhyテキストセグメント判定手法が確立されていない状況 よって本研究目的 Whyテキストセグメント判定手法の精度向上を行う! BOG手法とRB手法を統合する手法を検討する どのような統合方法で精度向上は行えるか 統合方法 特徴空間統合モデル(Feature Hybrid model) 識別器統合モデル(Classifier Hybrid model) 線形結合モデル Cascadeモデル

Domain Independent Why Text Segment Classification with BOG+RB Model Approach Domain Independent Why Text Segment Classification with BOG+RB Model

特徴空間統合モデル 手法 利点 本研究 複数の特徴量を統合して1つの 特徴空間を作成する この特徴空間をもとに識別器 を構築する 簡単に識別器が構築できる 本研究 BOG+RB特徴量統合 G G CombinedFS G G G BOGFS G G G G RBFS G R G R R R R R R true false

識別器統合:線形モデル 方法 利点 本研究 true false 特徴量ごとに,別々に識別器 を構築 構築された識別器を重みによ り線形結合させる 利点 すでに構築された識別器を再 利用 簡単に違う特徴量の識別器を 追加できる 本研究 BOG/RB特徴量別に識別器を 構築する G BOGFS R RBFS ωは各識別器の認識精度より信頼度を求める=>Boosting Like method

識別器統合:Cascadeモデル 方法 本研究 true false 特徴量ごとに,別々に識別器を 構築 yes 方法 特徴量ごとに,別々に識別器を 構築 構築された識別器を1つ取り出し TSを識別する 識別結果がconfを満たすと結果と して出力 満たさない場合は次の識別器を 利用する どの識別器もconfを満たさない時 は最後の識別器の結果を出力 本研究 BOG/RB特徴量別に識別器を構 築 Confは識別確率を用いる no R G BOGFS RBFS false true

Experiment Preparations 博士研究ではQA技術に軸を置き 情報を集める際に、“~は何”だけではなく、更に高度な質問応答の必要性があるので、博士研究ではnon-factoid型QA技術を課題としてく Data Collection

特徴空間設計 RB特徴空間 BOG特徴空間 Yahoo!BestAnswer 文献[1]のルール辞書において: “理由語” [1] 渋沢潮, 林貴宏, 尾内理紀夫: Why 型質問の回答文をWEBから自動抽出するシステムの開発と評価,IPSJ,Vol.48,No.3,pp.1512-1523(2007). Yahoo!BestAnswer RB特徴空間 文献[1]のルール辞書において: “理由語” “前方指示語かつ理由語” にあるルールをRB特徴量として利用する A Ans Q BOG特徴空間 全てのAを形態素解析し, BOG特徴量を抽出する G R 異なったBOG特徴量(bogf)をもとに BOG特徴空間(BOGFS)を作成する それぞれの特徴量の単語頻度とドキュメント頻度を記録しておく RB特徴頻度分布 BOG特徴頻度分布

データ収集 Why-Q={なぜ,理由は何} Q={!Why-Q} Yahoo!BestAnswer Ans Q Ans Q A Ans Q #8000 *Whyらしい質問キーワードを含む質問の, ペアとなる回答を抽出しWTSとする *それ以外の質問の回答をNWTS #8000 8k.1 Data 8k.2 半分で識別器を構築する 残り半分をテストデータとする Feature Space Make Vector with tfidf LogitBoost (300 iteration) 特徴空間に対して,特徴頻度分布を もとにtf.idfを要素としてベクトル化する BOG特徴頻度分布 RB特徴頻度分布 評価 8k.1.cls vs 8k.2, 8k.2.cls vs 8k.1でF値を記録 BaseLineとF値を比較する

実験結果条件 学習方法 Base Line Methods 特徴空間統合モデル 識別器統合:線形モデル 識別器統合:Cascadeモデル LogitBoost Base Line Methods BOG:300.model RB:50.model 特徴空間統合モデル (BOG+RB)FS:300.model 識別器統合:線形モデル LM(BOG+RB):300.model+50.model 識別器統合:Cascadeモデル CS(BOG=>RB): 300.model+50.model conf=0.6

Experimental Results 博士研究ではQA技術に軸を置き 情報を集める際に、“~は何”だけではなく、更に高度な質問応答の必要性があるので、博士研究ではnon-factoid型QA技術を課題としてく

実験結果 特徴統合モデル 精度が向上は余り見られなかった Cascade モデル 精度の向上が見られない 線形モデル 精度の向上が見られない

特徴空間統合考察 精度が向上できなかった理由 学習データのRB特徴量不足 BOG以外の特徴量不足を補えていない 特徴統合モデル 精度が向上は余り見られなかった 精度が向上できなかった理由 学習データのRB特徴量不足 RB特徴は頻繁に現れないので分布が少ない 学習不足でRBが効果的に機能しない BOG以外の特徴量不足を補えていない

識別器統合考察 精度が向上できなかった理由 RBのルールの網羅性により精度向上できなかった FNがうまくTPにうまく補正できない 線形モデル 精度の向上が見られない Cascade モデル 精度の向上が見られない 精度が向上できなかった理由 RBのルールの網羅性により精度向上できなかった 8k.2ではWTS1361件のデータがルールにマッチしない RB手法は0ベクトルの分布に識別精度が影響される 閾値0.6以下のWTSは全てNWTSに識別される FNがうまくTPにうまく補正できない

追加実験 識別器の数を増やす RBが存在しないときに結合制限する BOGで50~500の50イタレーション毎に識別器を構築 Cascade モデル 識別器を増やす:約0.8%向上 RBに結合制限:約1.3-2%向上する 線形モデル 識別器を増やす:約0.8% RBに結合制限:約1.5%向上する 識別器の数を増やす BOGで50~500の50イタレーション毎に識別器を構築 LM (BOG(50-500)+RB)c2 CS(BOG(50-500)=>RB)c2 RBが存在しないときに結合制限する LM (BOG+RB)c2 CS(BOG=>RB)c2

Summary

Summary BOG手法とRB手法の統合によるWTS判別識別器の精度向 上法の検討 特徴空間統合モデル(Feature Hybrid model) 識別器統合モデル(Classifier Hybrid model) 線形モデル Cascadeモデル BOG手法とRB手法の統合は有用であるが解決策が必要・・・ データ不足の改善 データ数をさらに増やすとRBがもっと効いてくるか? ルールの網羅性の問題解決 BOG以外のルールの自動抽出を利用して向上が見込めるか? Cascadingの方法を改善できるか?

今後の課題 Whyテキストセグメント判定精度の向上方法の検討 BOGをNon-factoid型QAへ応用 方法論の検討 Cascadingの方法を改善できるか? BOG/RB特徴量いがいの効果的な特徴表現方法はないか? BOGをNon-factoid型QAへ応用 ドメインに依存しないNon-factoid識別器の構築 5W1Hの自動分類 最終的にNon-factoid型QAシステム開発 Wikipedia / Yahoo!Answerと連動させたQAシステムの構築

Thank your for your attentions!

BOGにRBのルールを有効的にマージできる方法論! Analysis 特徴空間にBOG+RBを用いる学習手法問題点: 学習では有効な素性の選択を行って識別器を構築する BOGは素性の選択が必要だが・・・・ RBは素性の選択は必要ではない! 全ての素性が有効なはず! Feature Space BOGにRBのルールを有効的にマージできる方法論! BOG features learned classifier RB 有効な素性だが識別器に反映されないルールがある! ルールの情報量が少ないため、識別器に選ばれにくい!

Classifier Hybrid:Cascade Model yes 方法 特徴量ごとに,別々に識別器を 構築 構築された識別器を順に取り出 しTSを識別する 識別結果がconfを満たすと結果と して出力 満たさない場合は次の識別器を 利用する どの識別器もconfを満たさない時 は最後の識別器の結果を出力 本研究 BOG/RB特徴量別に識別器を構 築 Confは識別確率を用いる no R G BOGFS RBFS false true

Support Vector Machine The search of the optimal separating Hyperplane

Other Way of Improving Why Text Segment Classification

Classifier Hybrid:Cascade Model yes no 仮定 識別確率が高い=正しく識別されている確率が高い 目的 ∴識別確率(=conf)の高いものから分類していくことで識別精度の向上を行えるかもしれない! TS h 50~500で50イタレーション毎に識別器を構築する conf(0.95~0.6)BOGと(BOG+RB)FSを用いる

識別器統合:Cascadeモデル 方法 特徴量ごとに,別々に識別器 を構築 構築された識別器を1つ取り出 しTSを識別する yes 方法 特徴量ごとに,別々に識別器 を構築 構築された識別器を1つ取り出 しTSを識別する 識別結果がconfを満たすと結果 として出力 満たさない場合は次の識別器 を利用する どの識別器もconfを満たさない 時はconfをstep分下げて再トライする あるconf.endまで行ってもだめならば 最後の識別器の結果を出力 no R G BOGFS RBFS false true

More Improvement? ランストコンディションの識別精度に依存している 閾値以下は判別不可能とすると精度が上がる 約3-4%の精度向上 1%弱の精度向上 ランストコンディションの識別精度に依存している 8k.2では約700件のWTS/NWTSが0.6の閾値以下 閾値以下は判別不可能とすると精度が上がる 閾値を上げると識別精度向上=>識別件数が低下 このジレンマをどう解決するかが争点