Presentation is loading. Please wait.

Presentation is loading. Please wait.

データ工学特論 第六回 木村昌臣.

Similar presentations


Presentation on theme: "データ工学特論 第六回 木村昌臣."— Presentation transcript:

1 データ工学特論 第六回 木村昌臣

2 本日の話題 テキストマイニングの主なアプリケーション テキストマイニングシステムの例
研究用システム(ただし、現在では商用になっているものも含む) 商用システム

3 テキストマイニングの 主なアプリケーション(1)
文書の分類 ベクトル空間モデルを用い、クラスタリング手法等を用いて分類 主に論文や特許情報などが対象 文書中に出現する単語の関連付け 同一文書に出現するなどの共起関係をもとに、単語の関連度を定義 バネを使って単語の位置を決めるなどの手法を利用

4 テキストマイニングの 主なアプリケーション(2)
キーワードの時系列分析 単語等の出現頻度を時系列データとして分析 主にコールセンターのログなどが対象

5 IBM TAKMI IBM東京基礎研究所で開発されたテキストマイニングツール 日本アイ・ビー・エムのPCヘルプセンター(コールセンター)のログ解析 形態素解析の結果を時系列等の切り口で見せることが可能 係り受け解析により「何が○○だ」という主語・述語の関係のうち最もよく現れたものを見せることが可能 那須川:コールセンターにおけるテキストマイニング,人工知能学会誌vol.16 No.2 pp (2001) この発展として、ライフサイエンスに関する論文等を解析するMedTAKMIというシステムあり

6 PCヘルプセンターにおける問い合わせ記録例
[問い合わせID] [日付] [機種名] APTIVA P43 [CALL種別] 技術Q&A (導入/セットアップ/操作/ 問題判別) [問題種別] 操作/使い方/活用 [回答・対応種別] 情報提供 [タイトル] AP H5E : インターネットURL指定時 の「~(チルダ)」の入力方法 [問い合わせ内容] Q:AP H5E :インターネットURL指定時 A:ひらがな「へ」があるキーの記号 「 ̄(アッパーバー)」をご利用ください

7 語彙の出現傾向分析 キーワード 週毎の出現頻度 時期の選択 キーワードの分類
出典:

8 ログに現れる主な「主語・述語」関係の表示
主語・述語出現の頻度 出現した主語・述語の組 主語・述語の分類 出典:

9 製品 vs 要望 専門用語+要望 ハードウェアの名称 6件(ハードディスクの問い合わせの1.88%)
出展:

10 効果 分析時間の短縮(1/6~1/10) 分析対象の文章の増大 FAQ作成支援(候補を出力)
導入前は問い合わせ10,000件中、目を通せるのは300件程度 導入後は文章全体を分析対象に FAQ作成支援(候補を出力)

11 blogWatcher BLOG等に書かれている評価を可視化
検索キーワードについての評価を抽出 評価を良い・悪いに分類し、時系列で表示することにより、話題のバーストを見ることが可能に 南野,鈴木,藤木,奥村:人工知能学会論文誌19巻6号SP-A pp (2004)

12 blogWatcher(2) Google と Microsoftの バーサス検索の様子 Blogに現れた 回数の時間的推移
ポジティブ・ネガティブ評価の 割合 出典:

13 KnowledgeOcean 文書中に含まれる、決められた距離内で現れる単語(≒概念)の共起関係を可視化
予め指定した複数の単語と共起関係にある単語はセンターに配置 指定した単語のうちひとつのみと共起関係にある場合は外側に配置 城塚:テキストマイニングにおける概念関係可視化方式の検討,情報処理学会データベースシステム 情報学基礎62-18 pp (2001)

14 KnowledgeOcean 特定の親ノードのみに関係しているノード群 (子ノード) 複数の親ノードに関係しているノード群(子ノード)

15 KnowledgeOcean 子ノードのみにつながる 孫ノード

16 VxInsight 文書間に定義した距離関数をもとに下式のエネルギーが最小になるように平面に配置
類似の文書群が固まっていれば山を作る(山の高さは文書数に比例) Boyack et.al.: Domain visualization using VxInsight for science and technology management, Journal of the American Society for Information Science and Technology, Vol.53, No. 9  (2002)

17 VxInsight マイクロシステム技術 文書群の可視化 点はSandia研究所所属 の著者による文書
出典: Boyack et.al.: Domain visualization using VxInsight for science and technology management

18 富士通 ACCENT キーワードを下式のバネモデル(Eadesのスプリングモデル)を使って平面に配置
ただし、自然長(の逆数)とバネの強さとして単語間の関連度を利用 三末和夫,渡部勇:テキストマイニングのための連想関係の可視化技術, 情報学基礎55-9 pp.65-72(1999) 現在は「トレンドサーチ」のコンセプトマッピング機能(?)

19 富士通 ACCENT 日経産業新聞’94~’96 車メーカー3社に対し、 「○○性」というキーワード

20 富士通 ACCENT 96年になると「安全性」が 極端にトヨタ寄りに

21 商用システム(1) Text mining for Clementine (SPSS社)
係り受けを表形式で出力 内部的にはCabochaを利用

22 商用システム(2) TRUE TELLER(野村総研)
キーワード抽出分析 主な話題分析 出典:

23 商用システム(3) Text Mining Studio(数理システム)
ことば ネットワーク 単語の共起・ 係り受けを 図示 単語頻度 分析 評判分析 良い・悪いと される単語を 抽出 文書分類 出典:


Download ppt "データ工学特論 第六回 木村昌臣."

Similar presentations


Ads by Google