新聞記事データを用いたリスクシナリオ発見支援システムの構築

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

リスク情報サイト横断検索システム 静岡大学システム工学科 前田研究室 高柳真吾.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
最大エントロピーモデルに基づく形態素解析と辞書による影響
最新ファイルの提供を保証する代理FTPサーバの開発
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
ボランティア情報を提供する為の 情報システムの開発 ~佐鳴湖ボランティアを例として~
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
参照共起分析の Webディレクトリへの適用
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
KeyGraphを活用した 食品安全リスクの 早期警告支援
テキストマイニング, データマイニングと 社会活動のトレース
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
リスクコミュニケーションのための情報共有支援システム
DB マルチメディア・コンテンツの組織化機構 マルチメディア・コンテンツ ①組織化機構 解体・整理の仕事 現実世界に流通するマルチ
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
 データベースによる並列処理 情報論理工学研究室  三宅健太.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
プログラム実行履歴を用いたトランザクションファンクション抽出手法
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
雑音環境下における 非負値行列因子分解を用いた声質変換
データ工学特論 第六回 木村昌臣.
数量分析 第2回 データ解析技法とソフトウェア
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
工学部 電気電子工学科 白井研究室 T 山田 翔也
  JSTChina         中国文献データベース.
コーディングパターンの あいまい検索の提案と実装
遺伝アルゴリズムによる NQueen解法 ~問題特性に着目した突然変異方法の改善~
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
停止ストリームの検知 情報工学部 情報工学科 06a2072 山下 雄
セマンティックWebの 生産管理システムへの適用
大規模コーパスに基づく同義語・多義語処理
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
セマンティックWebの 生産管理システムへの適用
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
Presentation transcript:

新聞記事データを用いたリスクシナリオ発見支援システムの構築 共起関連度の話題 を書く 2011/02/23 19:18   茶筌の引用は松本研究室ではない 2011/02/23 19:20 完了 6:08 2011/02/24 直すべきは上記2つ 静岡大学工学部システム工学科4年 前田研究室 50713082 森本 翔悟

研究背景 技術 多種多様な技術の存在、新規技術の開発 新たな要因が健康・環境影響を引き起こす可能性 →新規リスク 被害が実際に発生すると、社会的に大問題 事前にリスクの存在に気づけば、対策可能 新聞記事データに基づくリスクシナリオ発見支援システムを構築 食品安全リスクに焦点を当てる http://www.publications.parliament.uk/pa/ld200910/ldselect/ldsctech/22/2204.htm 英国上院科学技術委員会 食品におけるナノ技術の報告書

リスクへの気づきの支援の考え方 予防原則 : 科学的データが蓄積されるまで問題を放置せず、費 用対効果を考慮して、回避行動をとる 環境情報科学センター:環境政策における予防的方策・予防原則のあり方に関 する研究会報告書,http://www.env.go.jp/policy/report/h16-03/index.html,2003 リスクの予兆の早期発見が必要 リスク事象の経路を発見が重要 予防原則の適用が議論になるリスク事象→リスクの因果関 係を述べた文書が少ない 俯瞰的に文書の関係を眺めることが出来れば、経路ABCDへの気づきを支援することが出来る リスク事象の連鎖

先行研究 豊田(2006年度) 新聞記事データに基づくリスクシナリオ 発見支援システム ある文書に類似した文書を探すことが出 来る ある単語に関連した単語を視覚的に認識 出来る 豊田純一:新聞記事データに基づくリスクシナリオ発見支援システム,静岡大学工学部卒業論文,2007

リスクシナリオ発見支援システム リスクシナリオ発見の為の主な機能 単語連想検索:単語を入力し、その単語を含む記事のリストと関連す   る単語群を表示する 文書連想検索:記事を選択し、記事内の重要な語と関連する記事のリ ストを表示する 記事選択 選択記事に関連する記事 選択記事内の重要な語 単語入力 入力単語を含む記事 入力単語に関連する単語

GETA、TouchGraph GETA TouchGraph 文書中の単語頻度から文書間および単 語間の類似度を高速計算するツール ノード間の関係を視覚的に表示するオ ープンソースのツール 単語の関係を表示 高野明彦,丹羽芳樹:汎用連想検索エンジンGETA,http://geta.ex.niiac.jp/,2009 Alexander Shapiro :TouchGraph ,http://sourceforge.net/projects/touchgraph/,2001

Singhalの方法 Singhalの方法では、基本的には、注目文書間に、同じ単語がどれだけ出現したかという事で文書間の関係を計算している 基本的には: 文書の関係を、単純に同じ単語の出現回数で計算すると、文書長が長い文書が有利になる→文書長による補正 Singhal, A., C. Buckley, and M. Mitra. 1996. Pivoted Document Length Normalization. In Proceedings of ACM SIGIR’96, 21–29.

形態素解析システム茶筌 文を単語単位に分解するツール 連想計算の際に単語出現回数が重要 複合語を、別の意味の単語群に分解してしまう 文書中の単語の認識に利用 複合語を、別の意味の単語群に分解してしまう 黄色ブドウ球菌→黄色 ブドウ 球菌 ユーザ辞書登録機能 1つの単語として扱いたい文字列を定義できる 食品の安全性に関する用語集(第4版)(食品安全委員 会)の用語を定義 このユーザ辞書に本研究の焦点としている食品安全リスクに関係するような用語を登録することで、食品安全リスクに関する類似度計算の精度が上がり、支援効果が向上するのではないか?と考えました。 松本裕治, 北内啓, 山下達雄, 平野善隆, 今一修, 今村友明. “日本語形態素解析システム『茶筅』version1.0 使用説明書”, NAIST Technical Report, NAIST-IS-TR97007, February 1997.

検証 利用データベース トランス脂肪酸 毎日新聞記事データ集2008,2009 多量摂取→心臓疾患や動脈硬化などのリスク 1面・2面・3面・国際・経済・特集・総合・家庭・科学・社会面 を利用 記事件数は127,560件 トランス脂肪酸 多量摂取→心臓疾患や動脈硬化などのリスク 日本では特段の規制はなし 辞書に登録しなければ「トランス 脂肪酸」と分解さ れる

検証:用語登録をした場合 動脈 リスト1番目の文書内容は「ト ランス脂肪酸の心臓疾患リス ク」 「動脈」という単語が出現、動 脈硬化に繋がることが伺われる 十分にトランス脂肪酸と心臓疾 患・動脈硬化への関連性が見て 取れる結果 動脈 を拡大しろ 2011/02/23 18:57 動脈

検証:用語登録をしない場合 記事一覧の1位には、先ほど と同じ文書が現れる グラフには、動脈硬化に繋が ることを示唆する語は現れな い。 記事一覧の1位以外の記事は “トランス脂肪酸”に関する記 事ではない 動脈硬化や心臓疾患のリスク になることが観察されにくく なった。

考察、課題 考察 課題 本システムで、食品安全リスクに関する早期警告を促すこ とが出来ると考えられる。 その支援効果は、対象の専門用語を登録しておいたほうが 向上すると考えられる。 課題 本研究で登録した用語以外で、支援効果向上が見込める用 語の存在 茶筌のユーザ辞書を適宜更新できるような仕組みの構築

御静聴ありがとうございました

共起関連度の計算式 共起関連度 という計算式で各単語間の共起関連度を計算 し、一番大きな値をとった単語に対して連結 を行う 単語相互間の関係性を示せば、より単語の関係性の認識 関連性の高い一群の単語は検索された文書の何かあるまとまった話題に結びついていると考えられる 日立製作所:情報アクセス支援における「特徴単語群の抽出」の利用, http://geta.ex.nii.ac.jp/getaN2002/doc/acc_twg1.pdf,2002