Presentation is loading. Please wait.

Presentation is loading. Please wait.

質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 206041 田畑雅史 2010 . 2 . 2.

Similar presentations


Presentation on theme: "質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 206041 田畑雅史 2010 . 2 . 2."— Presentation transcript:

1 質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 206041 田畑雅史 2010 . 2 . 2

2 質問応答システム( 1 ) 質問応答システム  ファクトイド型質問応答システム 誰、何時、どこといった質問に答える  Yes/No 型質問応答システム  Wh 型質問応答システム  ノンファクトイド型質問応答システム 何故、どうやってといった質問に答える

3 質問応答システム( 2 ) 質問応答システムには分野や領域が限定され ていないオープンなものとクローズなものが ある  オープンなものは Web をデータベースとして利 用することでさまざまな分野の質問に答えること が可能  クローズなものは内部のデータベースを対象と するため分野や領域が限定される

4 研究動機 Wh 型の質問応答システムは数多く研究され ている(伊藤・辻, 2005; 嶋, 2006; 平野, 2008) が、 Yes/No 型の質問応答システムは聞 いたことがなかったため

5 Typhoon の処理の流れ 質問文入力 ①質問文の解析 ②クエリの作成 ③ Web 検索 & スニペットの抽出 ⑤点数付け ⑥判定 回答 ④判定材料となる文の抽出

6 ①質問文の解析 質問例) 日本人初のノーベル賞受賞者は湯川秀樹か?  形態素解析 日本人 | 初 | の | ノーベル | 賞 | 受賞 | 者 | は | 湯川 | 秀樹 | か | ?  連続する名詞や動詞の結合 日本人初 | の | ノーベル賞受賞者 | は | 湯川秀樹 | か | ?

7 ②クエリ作成 質問文の解析で得られたキーワードをもとに 検索で使用するクエリを作成 検索に不要となる品詞を取り除き、クエリとする 日本人初 | の | ノーベル賞受賞者 | は | 湯川秀樹 | か | ? 日本人初 ノーベル賞受賞者 湯川秀樹 ××××

8 ③ web 検索 & スニペットの抽出

9 ④判定材料となる文の抽出 スニペット中の質問文の解析で得られたキーワード(日本人 初 ノーベル賞受賞者 湯川秀樹)が含まれている文を抜き 出す

10 ⑤点数付け( 1 ) 抽出したスニペット内の文のキーワード含有 率を元に点数付けを行う キーワードが多く含まれているほど高い点数をつけ る 10 割含まれている場合 → 10 点 8 割 → 7 点 6 割 → 3 点 5 割 → 1 点 4 割以下の場合 → - 10 点

11 ⑤点数付け( 2 ) 全てのスニペットを点数付けし、その合計点 を 「判定」に用いる スニペット1 →12 点 スニペット2 → - 10 点 スニペット3 →9 点 スニペット19 →11 点 スニペット20 → 7 点

12 判定 点数付けで出した合計点が 250 点以上ある場 合 Yes を、 200 点以下の場合 No を返す 201 以上 250 未満の場合、答えはわからない と返す 250 ≦合計点 Yes 200 <合計点< 250 わからない 合計点≦ 200No また、質問文が否定文の場合は不等号が逆になる 質問文に含まれる否定語(ない、ぬ等)の数が奇数 の 場合を否定文とする

13 チューニング用質問文 点数付けでの点数と、判定の数値は以下の質問文を 使い、調整した  東京ディズニーランドは千葉県舞浜市にある  2000 円札の裏には紫式部が描かれている  豊臣秀吉は天下統一することができなかった  ニュートンは万有引力を発見していない  中京大学名古屋学舎は八事本町にある  ゴッホの代表作はチューリップである  崖の上のポニョの主題歌を歌ったのは大橋のぞみである  2011 年は寅年である  コーヒー豆は日本でも栽培されている  ポアンカレ予想はペレルマンによって解かれた

14 合計点が 200 以下なので no

15 評価実験 キーワード数が 2 個~ 6 個の質問文を計 40 問用 意し、それらの正答率を調べる 質問文はチューニング用の問題とは別のものを使 用 キーワード数 問題数 2 個 → 5 問 3 個 → 8 問 4 個 → 15 問 5 個 → 3 問 6 個 → 8 問

16 質問文の例 キーワード数 2 個 (5問)  中京大学豊田キャンパスは貝津町にある  鳩山由紀夫は総理大臣だ キーワード数 3 個 (8問)  ミッキーの生みの親はウォルト・ディズニーで すか  原付とは 50cc 以下のバイクのことだ キーワード数 4 個 (15問)  2008 年時点のアメリカの大統領はブッシュです か  現在の中国の首相は温家宝ではない

17 結果( 1 ) 正答数が 20 、誤答数が 16 、わからないが 4 つあり、 全体の正答率は 50% となった

18 結果( 2 ) キーワード数別に見るとキーワード数が 2 個のとき 0% 、 3 個のとき 33.3% 、 4 個のとき 66.6% 、 5 個以上 のとき 63.6% という結果となった

19 考察 グラフからも見て分かるように、キーワード数 3 個 以下のときの正答率が低い Web 検索で求めたい情報が 引っかかっていないため クエリの作成方法を改良す る

20 改良案 文の「前提」を利用する 文の「前提」は文全体の真偽に無関係に成立する 部分。それをクエリとして用いる 貝津町の中京大学豊田キャンパスには浅田真央がいる 貝津町の中京大学豊田キャンパスには浅田真央がいない どちらの文の場合でも中京大学豊田キャンパ スが貝津町にあるということは変わらない

21 前提の利用 中京大学豊田キャンパスは貝津町にある 中京大学豊田キャンパス 貝津町 貝津町の中京大学豊田キャンパス 質問文から、質問内容を「前提」とする表現を作り出す

22 前提の利用 正答率が芳しくなかったキーワード数2~3 個の場合に「前提」を利用したクエリを用い て、正答率の底上げを狙った ただし「前提」を利用する上で点数付けの方 式等は変えていない

23 改良版の結果 キーワード 2 個の場合 60% 、キーワード 3 個の 場合 66.6 %まで精度が 向上した。 4 個以上の場 合は同じ結果である 全体での正答率は 65% となり、改良前と比べ て 15% 向上した

24 考察 精度を上げるために考えられる方法  Web 検索の HIT 数の利用  質問文を Wh 型にした検索方法の利用

25 Web 検索の HIT 数の利用( 1 ) 前提を利用して検索した結果の HIT 数が極端 に少ない場合、その質問文は間違っている可 能性が高い しかし、 Web の中には間違った情報で記載さ れていることもあり、その場合には HIT 数を 利用した手法は使うことができない

26 阪神大震災が起こったのは 1996 年である Web 検索の HIT 数の利用( 2 ) 間違った情報で載っ ていることがある そこで質問文を Wh 型に変換して検索する方法 を 使うことでこの手法の欠点を補えるのではない か と考えた

27 質問文を Wh 型にした検索方法の利用 質問文を Wh 型に直し、その検索結果が質問 文の内容と一致しているかを調べる 質問文の焦点となる部分を Wh 型で求めたい回答 とする。 Wh 型の検索結果が焦点部分と一致してい れば、その質問が正しいと言える可能性が高まるの ではないか

28 参考文献 奥村学・磯崎秀樹・東中竜一郎・永田昌 明 ・加藤恒昭( 2009 )『質問応答システ ム』 (自然言語処理シリーズ 2). コロナ 社


Download ppt "質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 206041 田畑雅史 2010 . 2 . 2."

Similar presentations


Ads by Google