Download presentation
Presentation is loading. Please wait.
1
Bag of Grammarとルールベース手法を統合したWhyテキストセグメント判定
神戸大学:田中克幸,滝口哲也,有木康雄
2
Introduction 研究背景・目的
3
Whyテキストセグメント判定とは? Q:龍馬はなぜ暗殺されたか? 数文からなるテキストセグメント(TS)集合において
大政奉還以降、龍馬は幕府に対する態度を軟化させ、徳川慶喜を含めた 諸侯会議による新政府の設立に傾いていたともいわれる。武力倒幕を目指 していた西郷隆盛、大久保利通らが、こうした龍馬の動きを看過できなくなり、 故意に幕府側に龍馬の所在を漏らしたとする説。 坂本 龍馬は、日本の近世末期に活動した武士。土佐郷士に生まれ、脱藩 したのち、倒幕および明治維新に影響を与えた幕末の志士である。 武市半平太とは「アギ(あご)」「アザ(痣)」とあだ名で呼び合う仲だった。 武力倒幕により、薩長倒幕側に武器の売り込みを狙った企業体・ジャーディ ン・マセソン系のイギリス人・グラバー、外交官・パークス、アーネスト・サトウ らにより仕組まれた陰謀であるとの説。龍馬は、中岡慎太郎によって暗殺さ れた。 数文からなるテキストセグメント(TS)集合において 原因・理由を含むテキストセグメントの判定を行うこと このようなテキストセグメントをWhyテキストセグメント(WTS)と呼ぶ そうでないものをNotWhyテキストセグメント(NWTS)と呼ぶ
4
従来手法 Bag of Grammar(BOG)手法 ルールベース(RB)手法 特徴量 機能語(BOG)
助詞・助動詞・接頭詞・連体 詞・接続詞・非自立 識別器 学習データより,BOG特徴量を 用いて機械学習により自動構築 WTS/NWTSの2値分類問題 TS識別方法 TSからBOGを抽出する 識別器より分類クラスを推定 特徴量 手動であつめたWhy特徴語 だから,理由,原因,“説”…etc 識別器 学習データより,Why特徴語を手 動で抽出してルール辞書を構築 ルールの有無の判定問題 TS識別方法 ルール辞書を参照する ルールが存在すればWTS
5
に,に,の,を, た,の,ら,により,た,で,ある,と,の,は,によって,た
Whyテキストセグメント判定とは? 武力倒幕により、薩長倒幕側に武器の売り込みを 狙った企業体・ジャーディン・マセソン系のイギリス 人・グラバー、外交官・パークス、アーネスト・サトウ らにより仕組まれた陰謀であるとの説。龍馬は、中 岡慎太郎によって暗殺された。 BOG に,に,の,を, た,の,ら,により,た,で,ある,と,の,は,によって,た RB 説
6
研究目的 しかし・・・ よって本研究目的 統合方法 BOG手法では機能語以外のWhy特徴語が考慮されていない RB手法の問題点
~が理由, ~が原因 RB手法の問題点 ルールの網羅性 高精度なWhyテキストセグメント判定手法が確立されていない状況 よって本研究目的 Whyテキストセグメント判定手法の精度向上を行う! BOG手法とRB手法を統合する手法を検討する どのような統合方法で精度向上は行えるか 統合方法 特徴空間統合モデル(Feature Hybrid model) 識別器統合モデル(Classifier Hybrid model) 線形結合モデル Cascadeモデル
7
Domain Independent Why Text Segment Classification with BOG+RB Model
Approach Domain Independent Why Text Segment Classification with BOG+RB Model
8
特徴空間統合モデル 手法 利点 本研究 複数の特徴量を統合して1つの 特徴空間を作成する この特徴空間をもとに識別器 を構築する
簡単に識別器が構築できる 本研究 BOG+RB特徴量統合 G G CombinedFS G G G BOGFS G G G G RBFS G R G R R R R R R true false
9
識別器統合:線形モデル 方法 利点 本研究 true false 特徴量ごとに,別々に識別器 を構築
構築された識別器を重みによ り線形結合させる 利点 すでに構築された識別器を再 利用 簡単に違う特徴量の識別器を 追加できる 本研究 BOG/RB特徴量別に識別器を 構築する G BOGFS R RBFS ωは各識別器の認識精度より信頼度を求める=>Boosting Like method
10
識別器統合:Cascadeモデル 方法 本研究 true false 特徴量ごとに,別々に識別器を 構築
yes 方法 特徴量ごとに,別々に識別器を 構築 構築された識別器を1つ取り出し TSを識別する 識別結果がconfを満たすと結果と して出力 満たさない場合は次の識別器を 利用する どの識別器もconfを満たさない時 は最後の識別器の結果を出力 本研究 BOG/RB特徴量別に識別器を構 築 Confは識別確率を用いる no R G BOGFS RBFS false true
11
Experiment Preparations
博士研究ではQA技術に軸を置き 情報を集める際に、“~は何”だけではなく、更に高度な質問応答の必要性があるので、博士研究ではnon-factoid型QA技術を課題としてく Data Collection
12
特徴空間設計 RB特徴空間 BOG特徴空間 Yahoo!BestAnswer 文献[1]のルール辞書において: “理由語”
[1] 渋沢潮, 林貴宏, 尾内理紀夫: Why 型質問の回答文をWEBから自動抽出するシステムの開発と評価,IPSJ,Vol.48,No.3,pp (2007). Yahoo!BestAnswer RB特徴空間 文献[1]のルール辞書において: “理由語” “前方指示語かつ理由語” にあるルールをRB特徴量として利用する A Ans Q BOG特徴空間 全てのAを形態素解析し, BOG特徴量を抽出する G R 異なったBOG特徴量(bogf)をもとに BOG特徴空間(BOGFS)を作成する それぞれの特徴量の単語頻度とドキュメント頻度を記録しておく RB特徴頻度分布 BOG特徴頻度分布
13
データ収集 Why-Q={なぜ,理由は何} Q={!Why-Q} Yahoo!BestAnswer Ans Q Ans Q A Ans Q #8000 *Whyらしい質問キーワードを含む質問の, ペアとなる回答を抽出しWTSとする *それ以外の質問の回答をNWTS #8000 8k.1 Data 8k.2 半分で識別器を構築する 残り半分をテストデータとする Feature Space Make Vector with tfidf LogitBoost (300 iteration) 特徴空間に対して,特徴頻度分布を もとにtf.idfを要素としてベクトル化する BOG特徴頻度分布 RB特徴頻度分布 評価 8k.1.cls vs 8k.2, 8k.2.cls vs 8k.1でF値を記録 BaseLineとF値を比較する
14
実験結果条件 学習方法 Base Line Methods 特徴空間統合モデル 識別器統合:線形モデル 識別器統合:Cascadeモデル
LogitBoost Base Line Methods BOG:300.model RB:50.model 特徴空間統合モデル (BOG+RB)FS:300.model 識別器統合:線形モデル LM(BOG+RB):300.model+50.model 識別器統合:Cascadeモデル CS(BOG=>RB): 300.model+50.model conf=0.6
15
Experimental Results 博士研究ではQA技術に軸を置き
情報を集める際に、“~は何”だけではなく、更に高度な質問応答の必要性があるので、博士研究ではnon-factoid型QA技術を課題としてく
16
実験結果 特徴統合モデル 精度が向上は余り見られなかった Cascade モデル 精度の向上が見られない 線形モデル 精度の向上が見られない
17
特徴空間統合考察 精度が向上できなかった理由 学習データのRB特徴量不足 BOG以外の特徴量不足を補えていない
特徴統合モデル 精度が向上は余り見られなかった 精度が向上できなかった理由 学習データのRB特徴量不足 RB特徴は頻繁に現れないので分布が少ない 学習不足でRBが効果的に機能しない BOG以外の特徴量不足を補えていない
18
識別器統合考察 精度が向上できなかった理由 RBのルールの網羅性により精度向上できなかった FNがうまくTPにうまく補正できない
線形モデル 精度の向上が見られない Cascade モデル 精度の向上が見られない 精度が向上できなかった理由 RBのルールの網羅性により精度向上できなかった 8k.2ではWTS1361件のデータがルールにマッチしない RB手法は0ベクトルの分布に識別精度が影響される 閾値0.6以下のWTSは全てNWTSに識別される FNがうまくTPにうまく補正できない
19
追加実験 識別器の数を増やす RBが存在しないときに結合制限する BOGで50~500の50イタレーション毎に識別器を構築
Cascade モデル 識別器を増やす:約0.8%向上 RBに結合制限:約1.3-2%向上する 線形モデル 識別器を増やす:約0.8% RBに結合制限:約1.5%向上する 識別器の数を増やす BOGで50~500の50イタレーション毎に識別器を構築 LM (BOG(50-500)+RB)c2 CS(BOG(50-500)=>RB)c2 RBが存在しないときに結合制限する LM (BOG+RB)c2 CS(BOG=>RB)c2
20
Summary
21
Summary BOG手法とRB手法の統合によるWTS判別識別器の精度向 上法の検討
特徴空間統合モデル(Feature Hybrid model) 識別器統合モデル(Classifier Hybrid model) 線形モデル Cascadeモデル BOG手法とRB手法の統合は有用であるが解決策が必要・・・ データ不足の改善 データ数をさらに増やすとRBがもっと効いてくるか? ルールの網羅性の問題解決 BOG以外のルールの自動抽出を利用して向上が見込めるか? Cascadingの方法を改善できるか?
22
今後の課題 Whyテキストセグメント判定精度の向上方法の検討 BOGをNon-factoid型QAへ応用
方法論の検討 Cascadingの方法を改善できるか? BOG/RB特徴量いがいの効果的な特徴表現方法はないか? BOGをNon-factoid型QAへ応用 ドメインに依存しないNon-factoid識別器の構築 5W1Hの自動分類 最終的にNon-factoid型QAシステム開発 Wikipedia / Yahoo!Answerと連動させたQAシステムの構築
23
Thank your for your attentions!
24
BOGにRBのルールを有効的にマージできる方法論!
Analysis 特徴空間にBOG+RBを用いる学習手法問題点: 学習では有効な素性の選択を行って識別器を構築する BOGは素性の選択が必要だが・・・・ RBは素性の選択は必要ではない! 全ての素性が有効なはず! Feature Space BOGにRBのルールを有効的にマージできる方法論! BOG features learned classifier RB 有効な素性だが識別器に反映されないルールがある! ルールの情報量が少ないため、識別器に選ばれにくい!
25
Classifier Hybrid:Cascade Model
yes 方法 特徴量ごとに,別々に識別器を 構築 構築された識別器を順に取り出 しTSを識別する 識別結果がconfを満たすと結果と して出力 満たさない場合は次の識別器を 利用する どの識別器もconfを満たさない時 は最後の識別器の結果を出力 本研究 BOG/RB特徴量別に識別器を構 築 Confは識別確率を用いる no R G BOGFS RBFS false true
26
Support Vector Machine
The search of the optimal separating Hyperplane
27
Other Way of Improving Why Text Segment Classification
28
Classifier Hybrid:Cascade Model
yes no 仮定 識別確率が高い=正しく識別されている確率が高い 目的 ∴識別確率(=conf)の高いものから分類していくことで識別精度の向上を行えるかもしれない! TS h 50~500で50イタレーション毎に識別器を構築する conf(0.95~0.6)BOGと(BOG+RB)FSを用いる
29
識別器統合:Cascadeモデル 方法 特徴量ごとに,別々に識別器 を構築 構築された識別器を1つ取り出 しTSを識別する
yes 方法 特徴量ごとに,別々に識別器 を構築 構築された識別器を1つ取り出 しTSを識別する 識別結果がconfを満たすと結果 として出力 満たさない場合は次の識別器 を利用する どの識別器もconfを満たさない 時はconfをstep分下げて再トライする あるconf.endまで行ってもだめならば 最後の識別器の結果を出力 no R G BOGFS RBFS false true
30
More Improvement? ランストコンディションの識別精度に依存している 閾値以下は判別不可能とすると精度が上がる
約3-4%の精度向上 1%弱の精度向上 ランストコンディションの識別精度に依存している 8k.2では約700件のWTS/NWTSが0.6の閾値以下 閾値以下は判別不可能とすると精度が上がる 閾値を上げると識別精度向上=>識別件数が低下 このジレンマをどう解決するかが争点
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.