Presentation is loading. Please wait.

Presentation is loading. Please wait.

新聞記事データを用いたリスクシナリオ発見支援システムの構築

Similar presentations


Presentation on theme: "新聞記事データを用いたリスクシナリオ発見支援システムの構築"— Presentation transcript:

1 新聞記事データを用いたリスクシナリオ発見支援システムの構築
共起関連度の話題 を書く 2011/02/23 19:18   茶筌の引用は松本研究室ではない 2011/02/23 19:20 完了 6:08 2011/02/24 直すべきは上記2つ 静岡大学工学部システム工学科4年 前田研究室 森本 翔悟

2 研究背景 技術 多種多様な技術の存在、新規技術の開発 新たな要因が健康・環境影響を引き起こす可能性 →新規リスク
被害が実際に発生すると、社会的に大問題 事前にリスクの存在に気づけば、対策可能 新聞記事データに基づくリスクシナリオ発見支援システムを構築 食品安全リスクに焦点を当てる 英国上院科学技術委員会 食品におけるナノ技術の報告書

3 リスクへの気づきの支援の考え方 予防原則 : 科学的データが蓄積されるまで問題を放置せず、費 用対効果を考慮して、回避行動をとる
環境情報科学センター:環境政策における予防的方策・予防原則のあり方に関 する研究会報告書, リスクの予兆の早期発見が必要 リスク事象の経路を発見が重要 予防原則の適用が議論になるリスク事象→リスクの因果関 係を述べた文書が少ない 俯瞰的に文書の関係を眺めることが出来れば、経路ABCDへの気づきを支援することが出来る リスク事象の連鎖

4 先行研究 豊田(2006年度) 新聞記事データに基づくリスクシナリオ 発見支援システム ある文書に類似した文書を探すことが出 来る
ある単語に関連した単語を視覚的に認識 出来る 豊田純一:新聞記事データに基づくリスクシナリオ発見支援システム,静岡大学工学部卒業論文,2007

5 リスクシナリオ発見支援システム リスクシナリオ発見の為の主な機能
単語連想検索:単語を入力し、その単語を含む記事のリストと関連す   る単語群を表示する 文書連想検索:記事を選択し、記事内の重要な語と関連する記事のリ ストを表示する 記事選択 選択記事に関連する記事 選択記事内の重要な語 単語入力 入力単語を含む記事 入力単語に関連する単語

6 GETA、TouchGraph GETA TouchGraph 文書中の単語頻度から文書間および単 語間の類似度を高速計算するツール
ノード間の関係を視覚的に表示するオ ープンソースのツール 単語の関係を表示 高野明彦,丹羽芳樹:汎用連想検索エンジンGETA, Alexander Shapiro :TouchGraph ,

7 Singhalの方法 Singhalの方法では、基本的には、注目文書間に、同じ単語がどれだけ出現したかという事で文書間の関係を計算している
基本的には: 文書の関係を、単純に同じ単語の出現回数で計算すると、文書長が長い文書が有利になる→文書長による補正 Singhal, A., C. Buckley, and M. Mitra Pivoted Document Length Normalization. In Proceedings of ACM SIGIR’96, 21–29.

8 形態素解析システム茶筌 文を単語単位に分解するツール 連想計算の際に単語出現回数が重要 複合語を、別の意味の単語群に分解してしまう
文書中の単語の認識に利用 複合語を、別の意味の単語群に分解してしまう 黄色ブドウ球菌→黄色 ブドウ 球菌 ユーザ辞書登録機能 1つの単語として扱いたい文字列を定義できる 食品の安全性に関する用語集(第4版)(食品安全委員 会)の用語を定義 このユーザ辞書に本研究の焦点としている食品安全リスクに関係するような用語を登録することで、食品安全リスクに関する類似度計算の精度が上がり、支援効果が向上するのではないか?と考えました。 松本裕治, 北内啓, 山下達雄, 平野善隆, 今一修, 今村友明. “日本語形態素解析システム『茶筅』version1.0 使用説明書”, NAIST Technical Report, NAIST-IS-TR97007, February 1997.

9 検証 利用データベース トランス脂肪酸 毎日新聞記事データ集2008,2009 多量摂取→心臓疾患や動脈硬化などのリスク
1面・2面・3面・国際・経済・特集・総合・家庭・科学・社会面 を利用 記事件数は127,560件 トランス脂肪酸 多量摂取→心臓疾患や動脈硬化などのリスク 日本では特段の規制はなし 辞書に登録しなければ「トランス 脂肪酸」と分解さ れる

10 検証:用語登録をした場合 動脈 リスト1番目の文書内容は「ト ランス脂肪酸の心臓疾患リス ク」
「動脈」という単語が出現、動 脈硬化に繋がることが伺われる 十分にトランス脂肪酸と心臓疾 患・動脈硬化への関連性が見て 取れる結果 動脈 を拡大しろ 2011/02/23 18:57 動脈

11 検証:用語登録をしない場合 記事一覧の1位には、先ほど と同じ文書が現れる グラフには、動脈硬化に繋が ることを示唆する語は現れな い。
記事一覧の1位以外の記事は “トランス脂肪酸”に関する記 事ではない 動脈硬化や心臓疾患のリスク になることが観察されにくく なった。

12 考察、課題 考察 課題 本システムで、食品安全リスクに関する早期警告を促すこ とが出来ると考えられる。
その支援効果は、対象の専門用語を登録しておいたほうが 向上すると考えられる。 課題 本研究で登録した用語以外で、支援効果向上が見込める用 語の存在 茶筌のユーザ辞書を適宜更新できるような仕組みの構築

13 御静聴ありがとうございました

14 共起関連度の計算式 共起関連度 という計算式で各単語間の共起関連度を計算 し、一番大きな値をとった単語に対して連結 を行う
単語相互間の関係性を示せば、より単語の関係性の認識 関連性の高い一群の単語は検索された文書の何かあるまとまった話題に結びついていると考えられる 日立製作所:情報アクセス支援における「特徴単語群の抽出」の利用,


Download ppt "新聞記事データを用いたリスクシナリオ発見支援システムの構築"

Similar presentations


Ads by Google