国内線で新千歳空港を利用している航空会社はどこですか? リスト型質問応答システムにおける RDFデータの利用 近年、新しい情報検索技術のひとつとして、自然言語で記述された文書(書籍、新聞記事、Webサイト、ブログ、twitterなど)を知識源にして、自然言語での問いかけに対して自然言語で回答する質問応答システムが注目を集めている。 その中でも、本研究では回答が複数存在するタイプの質問を取り扱うリスト型質問応答システムに焦点を当てる。 リスト型質問応答の例 しかし、完璧なリスト型質問応答システムを構築するにはいまだ課題が多く、本研究ではより精度の高い回答群抽出を行うため、RDF(Resource Description Framework)データを知識源として併用する手法を提案する。 研究背景 国内線で新千歳空港を利用している航空会社はどこですか? 日本航空 全日本空輸 北海道国際航空 スカイマーク フジドリームエアラインズ Peach エアアジア・ジャパン ジェットスター・ジャパン です。 従来の手法 Q.国内線で新千歳空港を利用している航空会社はどこですか? <?,利用,新千歳空港> RDFトリプルに変換 RDFデータを知識源とする質問応答システムは既にいくつか提案されている。その多くは、入力された自然言語の質問文をRDFのトリプルの形式に変換して検索を行う。 ところが、RDFのトリプルにおけるプロパティの記述はRDFデータごとに異なっており、記述方法に関する取り決めも無いため一般的な動詞で表現されているという保証すらない。 そのため、この既存手法では質問文から機械的にプロパティを推定することが非常に困難だという問題がある。 ・利用 ・use ・targetAirport ・就航 ・haveFlightTo 同じ意味を指す語でもRDFデータによって表記が異なるため推定が困難 提案手法 実験 まず一般的な質問応答と同様に自然言語で記述された知識源から回答候補とスコアを得る。提案手法ではこの回答候補から正答となる回答のリスト、すなわち正答群を得ることを目的としている。 次にRDFデータ中から回答候補を主語に持つ述語と目的語の組(relation)を全て抽出しRelation Matrixを構築する。 このRelation Matrixを元に、正答群に共通するrelationを推定する。そしてそのrelationを持つ回答候補全てを正答群として出力することで、過不足無く全ての正答を回答することができる。 そのために提案手法ではベイズ推定を用いている。全てのrelationに対して、そのrelationが正答群に共通するrelationであるベイズ確率を求めることで、最も相応しいrelationを推定する。 Q.都心5区とはどの地域のことですか? 上の質問文に関して、次のような回答候補とスコアが得られている。 この質問の正答は「千代田区、港区、新宿区、中央区、渋谷区」の5つであるが、従来のリスト型質問応答の手法ではこのスコアから5つの正答を過不足無く抽出することは難しい。 そこで、この回答候補とスコアに対して提案手法を適用する。今回はベイズ推定における事前分布として一様分布とキーワード頻度の2通りを用いたところ、以下のような結果が得られた。 回答候補 スコア 東京 1.0 千代田区 0.582 港区 0.511 新宿区 0.475 中央区 0.464 渋谷区 0.262 文京区 0.255 台東区 0.191 … Relation Matrixの例 <就航, 羽田空港> 函館空港> <type, 日本の航空会社> … 日本航空 1 全日本空輸 チャイナエアライン スカイマーク キーワード頻度を事前分布として設定した場合、正答relationである<type,都心5区>を正しく抽出できている。 実験結果-上位3件のrelation 一様分布 キーワード頻度 <type,都心3区> <type,都心5区> <首都 of,日本>