データ工学特論第六回木村昌臣.

データ工学特論第六回木村昌臣

本日の話題テキストマイニングの主なアプリケーションテキストマイニングシステムの例
研究用システム（ただし、現在では商用になっているものも含む）商用システム

テキストマイニングの主なアプリケーション(1)
文書の分類ベクトル空間モデルを用い、クラスタリング手法等を用いて分類主に論文や特許情報などが対象文書中に出現する単語の関連付け同一文書に出現するなどの共起関係をもとに、単語の関連度を定義バネを使って単語の位置を決めるなどの手法を利用

テキストマイニングの主なアプリケーション(2)
キーワードの時系列分析単語等の出現頻度を時系列データとして分析主にコールセンターのログなどが対象

IBM TAKMI IBM東京基礎研究所で開発されたテキストマイニングツール日本アイ･ビー･エムのPCヘルプセンター(コールセンター)のログ解析形態素解析の結果を時系列等の切り口で見せることが可能係り受け解析により「何が○○だ」という主語・述語の関係のうち最もよく現れたものを見せることが可能那須川:コールセンターにおけるテキストマイニング,人工知能学会誌vol.16 No.2 pp (2001) この発展として、ライフサイエンスに関する論文等を解析するMedTAKMIというシステムあり

PCヘルプセンターにおける問い合わせ記録例
[問い合わせID] [日付] [機種名] APTIVA P43 [CALL種別] 技術Q&A (導入/セットアップ/操作/ 問題判別) [問題種別] 操作/使い方/活用 [回答・対応種別] 情報提供 [タイトル] AP H5E : インターネットURL指定時の「~（チルダ）」の入力方法 [問い合わせ内容] Q:AP H5E :インターネットURL指定時 A:ひらがな「へ」があるキーの記号「￣(アッパーバー）」をご利用ください

語彙の出現傾向分析キーワード週毎の出現頻度時期の選択キーワードの分類
出典:

ログに現れる主な「主語・述語」関係の表示
主語・述語出現の頻度出現した主語・述語の組主語・述語の分類出典:

製品 vs 要望専門用語+要望ハードウェアの名称 6件(ハードディスクの問い合わせの1.88%)
出展:

効果分析時間の短縮（1/6～1/10) 分析対象の文章の増大 FAQ作成支援（候補を出力）
導入前は問い合わせ10,000件中、目を通せるのは300件程度導入後は文章全体を分析対象に FAQ作成支援（候補を出力）

blogWatcher BLOG等に書かれている評価を可視化
検索キーワードについての評価を抽出評価を良い・悪いに分類し、時系列で表示することにより、話題のバーストを見ることが可能に南野,鈴木,藤木,奥村:人工知能学会論文誌19巻6号SP-A pp (2004)

blogWatcher(2) Google と Microsoftのバーサス検索の様子 Blogに現れた回数の時間的推移
ポジティブ・ネガティブ評価の割合出典：

KnowledgeOcean 文書中に含まれる、決められた距離内で現れる単語(≒概念)の共起関係を可視化
予め指定した複数の単語と共起関係にある単語はセンターに配置指定した単語のうちひとつのみと共起関係にある場合は外側に配置城塚：テキストマイニングにおける概念関係可視化方式の検討,情報処理学会データベースシステム情報学基礎62-18 pp (2001)

KnowledgeOcean 特定の親ノードのみに関係しているノード群（子ノード）複数の親ノードに関係しているノード群（子ノード）

KnowledgeOcean 子ノードのみにつながる孫ノード

VxInsight 文書間に定義した距離関数をもとに下式のエネルギーが最小になるように平面に配置
類似の文書群が固まっていれば山を作る（山の高さは文書数に比例） Boyack et.al.: Domain visualization using VxInsight for science and technology management, Journal of the American Society for Information Science and Technology, Vol.53, No. 9 (2002)

VxInsight マイクロシステム技術文書群の可視化点はSandia研究所所属の著者による文書
出典: Boyack et.al.: Domain visualization using VxInsight for science and technology management

富士通 ACCENT キーワードを下式のバネモデル（Eadesのスプリングモデル）を使って平面に配置
ただし、自然長（の逆数）とバネの強さとして単語間の関連度を利用三末和夫,渡部勇:テキストマイニングのための連想関係の可視化技術, 情報学基礎55-9 pp.65-72(1999) 現在は「トレンドサーチ」のコンセプトマッピング機能(?)

富士通 ACCENT 日経産業新聞’94～’96 車メーカー3社に対し、「○○性」というキーワード

富士通 ACCENT 96年になると「安全性」が極端にトヨタ寄りに

商用システム(1) Text mining for Clementine (SPSS社)
係り受けを表形式で出力内部的にはCabochaを利用

商用システム(2) TRUE TELLER(野村総研)
キーワード抽出分析主な話題分析出典:

商用システム(3) Text Mining Studio(数理システム)
ことばネットワーク単語の共起・係り受けを図示単語頻度分析評判分析良い・悪いとされる単語を抽出文書分類出典:

データ工学特論第六回木村昌臣.

Similar presentations

Presentation on theme: "データ工学特論第六回木村昌臣."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

データ工学特論 第六回 木村昌臣.

Similar presentations

Presentation on theme: "データ工学特論 第六回 木村昌臣."— Presentation transcript:

Similar presentations

About project

フィードバック

データ工学特論第六回木村昌臣.

Presentation on theme: "データ工学特論第六回木村昌臣."— Presentation transcript: