質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 206041 田畑雅史 2010 . 2 . 2.

Slides:



Advertisements
Similar presentations
コンピュータプラクティ スⅠ 比較実験 水野嘉明. 本日の予定 計算量について 「比較実験」  パラメータを変化させての比較 ⇒ 実験1  二つのプログラムの比較 ⇒ 実験2  実験レポート R3として提出 2.
Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
静脈画像を鍵とする暗号化手 法に関する研究 大山研究室 安藤のぞみ. 研究の背景、目的 近年、バイオメトリクス認証が注目されて いる 静脈は身体内部の情報 → 偽造に強い 環境に左右されることが少ない 利用者の心理的抵抗が軽減される オープンなネットワークへのバイオメトリ クス認証の適用 : Double.
1 情報基礎 A 第 6 週 EXCEL 3 徳山 豪・全 眞嬉 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
学習動機の調査 日下健 西原直人 津川眞希 吉田優駿 山下剛史.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
数当てゲーム (「誤り訂正符号」に関連した話題)
Twitterの発言に基づくウェブページ推薦システム
徳山豪 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
研究室入退室システムの評価 学校に来なくても卒論は進むのか?
情報教育論 第9回 仮定文の仕組み 政策・メディア研究科 岡田 健.
形態素解析および係り受け解析・主語を判別
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
最短路問題のための LMS(Levelwise Mesh Sparsification)
この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.
第5回 統計処理(2) 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時 経済学部・法学部
社会統計学Ic・統計科学I 第六回 ~仮説検証~
京都大学 ○太田圭亮 川原純 伊藤大雄 堀山貴史
Javaによる Webアプリケーション入門 第9回
3.成績処理 3.1 成績の平均点など ・・・AVERAGE,MAX,MIN関数 3.2 成績(合計点) ・・・SUM関数
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
プログラム実行履歴を用いたトランザクションファンクション抽出手法
プログラム実行時情報を用いたトランザクションファンクション抽出手法
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
徳田研究室 学部4年 唐津豊 研究への取り組み方、論文の読み方探し方 徳田研究室 学部4年 唐津豊
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
前回の練習問題.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
栗原正純 UEC Tokyo 電気通信大学 電気通信学部 情報通信工学科 2009/4/15
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
プログラミング言語論 第四回 理工学部 情報システム工学科 新田直也.
文書分類モデルの統計的性質に関する一考察
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
1~15までの数字の中から、 1個の数字を選び、覚えて下さい。
コーディングパターンの あいまい検索の提案と実装
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
設計情報の再利用を目的とした UML図の自動推薦ツール
1~15までの数字の中から、 1個の数字を選び、覚えて下さい。
栗原正純 UEC Tokyo 電気通信大学 情報通信工学科 2007/5/2(修正2008/08/21)
並列構造に着目した係り受け解析の改善に関する研究
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
自然言語処理2016 Natural Language Processing 2016
識別子の読解を目的とした名詞辞書の作成方法の一試案
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

質問応答システム Typhoon の開発 情報理工部・情報知能学科 4 年 H 田畑雅史 2010 . 2 . 2

質問応答システム( 1 ) 質問応答システム  ファクトイド型質問応答システム 誰、何時、どこといった質問に答える  Yes/No 型質問応答システム  Wh 型質問応答システム  ノンファクトイド型質問応答システム 何故、どうやってといった質問に答える

質問応答システム( 2 ) 質問応答システムには分野や領域が限定され ていないオープンなものとクローズなものが ある  オープンなものは Web をデータベースとして利 用することでさまざまな分野の質問に答えること が可能  クローズなものは内部のデータベースを対象と するため分野や領域が限定される

研究動機 Wh 型の質問応答システムは数多く研究され ている(伊藤・辻, 2005; 嶋, 2006; 平野, 2008) が、 Yes/No 型の質問応答システムは聞 いたことがなかったため

Typhoon の処理の流れ 質問文入力 ①質問文の解析 ②クエリの作成 ③ Web 検索 & スニペットの抽出 ⑤点数付け ⑥判定 回答 ④判定材料となる文の抽出

①質問文の解析 質問例) 日本人初のノーベル賞受賞者は湯川秀樹か?  形態素解析 日本人 | 初 | の | ノーベル | 賞 | 受賞 | 者 | は | 湯川 | 秀樹 | か | ?  連続する名詞や動詞の結合 日本人初 | の | ノーベル賞受賞者 | は | 湯川秀樹 | か | ?

②クエリ作成 質問文の解析で得られたキーワードをもとに 検索で使用するクエリを作成 検索に不要となる品詞を取り除き、クエリとする 日本人初 | の | ノーベル賞受賞者 | は | 湯川秀樹 | か | ? 日本人初 ノーベル賞受賞者 湯川秀樹 ××××

③ web 検索 & スニペットの抽出

④判定材料となる文の抽出 スニペット中の質問文の解析で得られたキーワード(日本人 初 ノーベル賞受賞者 湯川秀樹)が含まれている文を抜き 出す

⑤点数付け( 1 ) 抽出したスニペット内の文のキーワード含有 率を元に点数付けを行う キーワードが多く含まれているほど高い点数をつけ る 10 割含まれている場合 → 10 点 8 割 → 7 点 6 割 → 3 点 5 割 → 1 点 4 割以下の場合 → - 10 点

⑤点数付け( 2 ) 全てのスニペットを点数付けし、その合計点 を 「判定」に用いる スニペット1 →12 点 スニペット2 → - 10 点 スニペット3 →9 点 スニペット19 →11 点 スニペット20 → 7 点

判定 点数付けで出した合計点が 250 点以上ある場 合 Yes を、 200 点以下の場合 No を返す 201 以上 250 未満の場合、答えはわからない と返す 250 ≦合計点 Yes 200 <合計点< 250 わからない 合計点≦ 200No また、質問文が否定文の場合は不等号が逆になる 質問文に含まれる否定語(ない、ぬ等)の数が奇数 の 場合を否定文とする

チューニング用質問文 点数付けでの点数と、判定の数値は以下の質問文を 使い、調整した  東京ディズニーランドは千葉県舞浜市にある  2000 円札の裏には紫式部が描かれている  豊臣秀吉は天下統一することができなかった  ニュートンは万有引力を発見していない  中京大学名古屋学舎は八事本町にある  ゴッホの代表作はチューリップである  崖の上のポニョの主題歌を歌ったのは大橋のぞみである  2011 年は寅年である  コーヒー豆は日本でも栽培されている  ポアンカレ予想はペレルマンによって解かれた

合計点が 200 以下なので no

評価実験 キーワード数が 2 個~ 6 個の質問文を計 40 問用 意し、それらの正答率を調べる 質問文はチューニング用の問題とは別のものを使 用 キーワード数 問題数 2 個 → 5 問 3 個 → 8 問 4 個 → 15 問 5 個 → 3 問 6 個 → 8 問

質問文の例 キーワード数 2 個 (5問)  中京大学豊田キャンパスは貝津町にある  鳩山由紀夫は総理大臣だ キーワード数 3 個 (8問)  ミッキーの生みの親はウォルト・ディズニーで すか  原付とは 50cc 以下のバイクのことだ キーワード数 4 個 (15問)  2008 年時点のアメリカの大統領はブッシュです か  現在の中国の首相は温家宝ではない

結果( 1 ) 正答数が 20 、誤答数が 16 、わからないが 4 つあり、 全体の正答率は 50% となった

結果( 2 ) キーワード数別に見るとキーワード数が 2 個のとき 0% 、 3 個のとき 33.3% 、 4 個のとき 66.6% 、 5 個以上 のとき 63.6% という結果となった

考察 グラフからも見て分かるように、キーワード数 3 個 以下のときの正答率が低い Web 検索で求めたい情報が 引っかかっていないため クエリの作成方法を改良す る

改良案 文の「前提」を利用する 文の「前提」は文全体の真偽に無関係に成立する 部分。それをクエリとして用いる 貝津町の中京大学豊田キャンパスには浅田真央がいる 貝津町の中京大学豊田キャンパスには浅田真央がいない どちらの文の場合でも中京大学豊田キャンパ スが貝津町にあるということは変わらない

前提の利用 中京大学豊田キャンパスは貝津町にある 中京大学豊田キャンパス 貝津町 貝津町の中京大学豊田キャンパス 質問文から、質問内容を「前提」とする表現を作り出す

前提の利用 正答率が芳しくなかったキーワード数2~3 個の場合に「前提」を利用したクエリを用い て、正答率の底上げを狙った ただし「前提」を利用する上で点数付けの方 式等は変えていない

改良版の結果 キーワード 2 個の場合 60% 、キーワード 3 個の 場合 66.6 %まで精度が 向上した。 4 個以上の場 合は同じ結果である 全体での正答率は 65% となり、改良前と比べ て 15% 向上した

考察 精度を上げるために考えられる方法  Web 検索の HIT 数の利用  質問文を Wh 型にした検索方法の利用

Web 検索の HIT 数の利用( 1 ) 前提を利用して検索した結果の HIT 数が極端 に少ない場合、その質問文は間違っている可 能性が高い しかし、 Web の中には間違った情報で記載さ れていることもあり、その場合には HIT 数を 利用した手法は使うことができない

阪神大震災が起こったのは 1996 年である Web 検索の HIT 数の利用( 2 ) 間違った情報で載っ ていることがある そこで質問文を Wh 型に変換して検索する方法 を 使うことでこの手法の欠点を補えるのではない か と考えた

質問文を Wh 型にした検索方法の利用 質問文を Wh 型に直し、その検索結果が質問 文の内容と一致しているかを調べる 質問文の焦点となる部分を Wh 型で求めたい回答 とする。 Wh 型の検索結果が焦点部分と一致してい れば、その質問が正しいと言える可能性が高まるの ではないか

参考文献 奥村学・磯崎秀樹・東中竜一郎・永田昌 明 ・加藤恒昭( 2009 )『質問応答システ ム』 (自然言語処理シリーズ 2). コロナ 社