Download presentation
Presentation is loading. Please wait.
Published byうきえ うえや Modified 約 8 年前
1
質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 206041 田畑雅史 2010 . 2 . 2
2
質問応答システム( 1 ) 質問応答システム ファクトイド型質問応答システム 誰、何時、どこといった質問に答える Yes/No 型質問応答システム Wh 型質問応答システム ノンファクトイド型質問応答システム 何故、どうやってといった質問に答える
3
質問応答システム( 2 ) 質問応答システムには分野や領域が限定され ていないオープンなものとクローズなものが ある オープンなものは Web をデータベースとして利 用することでさまざまな分野の質問に答えること が可能 クローズなものは内部のデータベースを対象と するため分野や領域が限定される
4
研究動機 Wh 型の質問応答システムは数多く研究され ている(伊藤・辻, 2005; 嶋, 2006; 平野, 2008) が、 Yes/No 型の質問応答システムは聞 いたことがなかったため
5
Typhoon の処理の流れ 質問文入力 ①質問文の解析 ②クエリの作成 ③ Web 検索 & スニペットの抽出 ⑤点数付け ⑥判定 回答 ④判定材料となる文の抽出
6
①質問文の解析 質問例) 日本人初のノーベル賞受賞者は湯川秀樹か? 形態素解析 日本人 | 初 | の | ノーベル | 賞 | 受賞 | 者 | は | 湯川 | 秀樹 | か | ? 連続する名詞や動詞の結合 日本人初 | の | ノーベル賞受賞者 | は | 湯川秀樹 | か | ?
7
②クエリ作成 質問文の解析で得られたキーワードをもとに 検索で使用するクエリを作成 検索に不要となる品詞を取り除き、クエリとする 日本人初 | の | ノーベル賞受賞者 | は | 湯川秀樹 | か | ? 日本人初 ノーベル賞受賞者 湯川秀樹 ××××
8
③ web 検索 & スニペットの抽出
9
④判定材料となる文の抽出 スニペット中の質問文の解析で得られたキーワード(日本人 初 ノーベル賞受賞者 湯川秀樹)が含まれている文を抜き 出す
10
⑤点数付け( 1 ) 抽出したスニペット内の文のキーワード含有 率を元に点数付けを行う キーワードが多く含まれているほど高い点数をつけ る 10 割含まれている場合 → 10 点 8 割 → 7 点 6 割 → 3 点 5 割 → 1 点 4 割以下の場合 → - 10 点
11
⑤点数付け( 2 ) 全てのスニペットを点数付けし、その合計点 を 「判定」に用いる スニペット1 →12 点 スニペット2 → - 10 点 スニペット3 →9 点 スニペット19 →11 点 スニペット20 → 7 点
12
判定 点数付けで出した合計点が 250 点以上ある場 合 Yes を、 200 点以下の場合 No を返す 201 以上 250 未満の場合、答えはわからない と返す 250 ≦合計点 Yes 200 <合計点< 250 わからない 合計点≦ 200No また、質問文が否定文の場合は不等号が逆になる 質問文に含まれる否定語(ない、ぬ等)の数が奇数 の 場合を否定文とする
13
チューニング用質問文 点数付けでの点数と、判定の数値は以下の質問文を 使い、調整した 東京ディズニーランドは千葉県舞浜市にある 2000 円札の裏には紫式部が描かれている 豊臣秀吉は天下統一することができなかった ニュートンは万有引力を発見していない 中京大学名古屋学舎は八事本町にある ゴッホの代表作はチューリップである 崖の上のポニョの主題歌を歌ったのは大橋のぞみである 2011 年は寅年である コーヒー豆は日本でも栽培されている ポアンカレ予想はペレルマンによって解かれた
14
合計点が 200 以下なので no
15
評価実験 キーワード数が 2 個~ 6 個の質問文を計 40 問用 意し、それらの正答率を調べる 質問文はチューニング用の問題とは別のものを使 用 キーワード数 問題数 2 個 → 5 問 3 個 → 8 問 4 個 → 15 問 5 個 → 3 問 6 個 → 8 問
16
質問文の例 キーワード数 2 個 (5問) 中京大学豊田キャンパスは貝津町にある 鳩山由紀夫は総理大臣だ キーワード数 3 個 (8問) ミッキーの生みの親はウォルト・ディズニーで すか 原付とは 50cc 以下のバイクのことだ キーワード数 4 個 (15問) 2008 年時点のアメリカの大統領はブッシュです か 現在の中国の首相は温家宝ではない
17
結果( 1 ) 正答数が 20 、誤答数が 16 、わからないが 4 つあり、 全体の正答率は 50% となった
18
結果( 2 ) キーワード数別に見るとキーワード数が 2 個のとき 0% 、 3 個のとき 33.3% 、 4 個のとき 66.6% 、 5 個以上 のとき 63.6% という結果となった
19
考察 グラフからも見て分かるように、キーワード数 3 個 以下のときの正答率が低い Web 検索で求めたい情報が 引っかかっていないため クエリの作成方法を改良す る
20
改良案 文の「前提」を利用する 文の「前提」は文全体の真偽に無関係に成立する 部分。それをクエリとして用いる 貝津町の中京大学豊田キャンパスには浅田真央がいる 貝津町の中京大学豊田キャンパスには浅田真央がいない どちらの文の場合でも中京大学豊田キャンパ スが貝津町にあるということは変わらない
21
前提の利用 中京大学豊田キャンパスは貝津町にある 中京大学豊田キャンパス 貝津町 貝津町の中京大学豊田キャンパス 質問文から、質問内容を「前提」とする表現を作り出す
22
前提の利用 正答率が芳しくなかったキーワード数2~3 個の場合に「前提」を利用したクエリを用い て、正答率の底上げを狙った ただし「前提」を利用する上で点数付けの方 式等は変えていない
23
改良版の結果 キーワード 2 個の場合 60% 、キーワード 3 個の 場合 66.6 %まで精度が 向上した。 4 個以上の場 合は同じ結果である 全体での正答率は 65% となり、改良前と比べ て 15% 向上した
24
考察 精度を上げるために考えられる方法 Web 検索の HIT 数の利用 質問文を Wh 型にした検索方法の利用
25
Web 検索の HIT 数の利用( 1 ) 前提を利用して検索した結果の HIT 数が極端 に少ない場合、その質問文は間違っている可 能性が高い しかし、 Web の中には間違った情報で記載さ れていることもあり、その場合には HIT 数を 利用した手法は使うことができない
26
阪神大震災が起こったのは 1996 年である Web 検索の HIT 数の利用( 2 ) 間違った情報で載っ ていることがある そこで質問文を Wh 型に変換して検索する方法 を 使うことでこの手法の欠点を補えるのではない か と考えた
27
質問文を Wh 型にした検索方法の利用 質問文を Wh 型に直し、その検索結果が質問 文の内容と一致しているかを調べる 質問文の焦点となる部分を Wh 型で求めたい回答 とする。 Wh 型の検索結果が焦点部分と一致してい れば、その質問が正しいと言える可能性が高まるの ではないか
28
参考文献 奥村学・磯崎秀樹・東中竜一郎・永田昌 明 ・加藤恒昭( 2009 )『質問応答システ ム』 (自然言語処理シリーズ 2). コロナ 社
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.