データ工学特論 第六回 木村昌臣.

Slides:



Advertisements
Similar presentations
データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識 データベース  特定のテーマや目的に毎のデータの集合体 データベースソフトウェア  データベースを作成、管理するソフトウェアの総 称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
人工知能特論 8.教師あり学習と教師なし学習
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
(農業)情報工学 農学部専門科目 A1、A2、木曜4限 中村典裕 中村典裕.
KeyGraphを活用した 食品安全リスクの 早期警告支援
夢見る図書館情報システム The Cards Challenge !
テキストマイニング, データマイニングと 社会活動のトレース
4Y-4 印象に残りやすい日本語パスワードの合成法
リスクコミュニケーションのための情報共有支援システム
DB マルチメディア・コンテンツの組織化機構 マルチメディア・コンテンツ ①組織化機構 解体・整理の仕事 現実世界に流通するマルチ
情報検索演習 第2回 前から4列目までに着席すること 2005年10月05日 後期 水曜5限 江草由佳 国立教育政策研究所
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
プログラム実行履歴を用いたトランザクションファンクション抽出手法
データ解析 静岡大学工学部 安藤和敏
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
(農業)情報工学 農学部専門科目 A1、A2、木曜4限 中村典裕.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
知識情報演習Ⅲ(後半第3回) 辻 慶太
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
自動車レビュー簡潔化の手法の提案 情報理工学部・情報知能学科 4年 H206010 内輪健一 H206036 鈴木貴裕.
テキストマイニング, データマイニングと 社会活動のトレース
貞広幸雄 地理情報システム論 貞広幸雄
情報システム1及び演習 第一回 データベースの概要.
知識情報演習Ⅲ(後半第3回) 辻 慶太
Data Clustering: A Review
文書分類モデルの統計的性質に関する一考察
Spatial Linker - 空間コンテンツ融合の研究 -
コーディングパターンの あいまい検索の提案と実装
Webからの 人間関係ネットワークの抽出と 情報支援
サポートベクターマシン Support Vector Machine SVM
コーパス管理システム 『ChaKi.NET』
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
自然言語処理2015 Natural Language Processing 2015
テキストマイニングによる看護専門領域別実習に関する研究動向の分析
新聞記事データを用いたリスクシナリオ発見支援システムの構築
資料3-2 平成26年度 第3回技術委員会資料 次年度テーマの検討
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
情報処理Ⅱ 2007年12月3日(月) その1.
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
(農業)情報工学 農学部専門科目 A1、A2、木曜4限 中村典裕.
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

データ工学特論 第六回 木村昌臣

本日の話題 テキストマイニングの主なアプリケーション テキストマイニングシステムの例 研究用システム(ただし、現在では商用になっているものも含む) 商用システム

テキストマイニングの 主なアプリケーション(1) 文書の分類 ベクトル空間モデルを用い、クラスタリング手法等を用いて分類 主に論文や特許情報などが対象 文書中に出現する単語の関連付け 同一文書に出現するなどの共起関係をもとに、単語の関連度を定義 バネを使って単語の位置を決めるなどの手法を利用

テキストマイニングの 主なアプリケーション(2) キーワードの時系列分析 単語等の出現頻度を時系列データとして分析 主にコールセンターのログなどが対象

IBM TAKMI IBM東京基礎研究所で開発されたテキストマイニングツールhttp://www.research.ibm.com/trl/projects/textmining/takmi/takmi.htm 日本アイ・ビー・エムのPCヘルプセンター(コールセンター)のログ解析 形態素解析の結果を時系列等の切り口で見せることが可能 係り受け解析により「何が○○だ」という主語・述語の関係のうち最もよく現れたものを見せることが可能 那須川:コールセンターにおけるテキストマイニング,人工知能学会誌vol.16 No.2 pp.219-225(2001) この発展として、ライフサイエンスに関する論文等を解析するMedTAKMIというシステムあり

PCヘルプセンターにおける問い合わせ記録例 [問い合わせID] 8629678 [日付] 19971001 [機種名] APTIVA P43 [CALL種別] 技術Q&A (導入/セットアップ/操作/ 問題判別) [問題種別] 操作/使い方/活用 [回答・対応種別] 情報提供 [タイトル] AP H5E : インターネットURL指定時 の「~(チルダ)」の入力方法 [問い合わせ内容] Q:AP H5E :インターネットURL指定時 A:ひらがな「へ」があるキーの記号 「 ̄(アッパーバー)」をご利用ください

語彙の出現傾向分析 キーワード 週毎の出現頻度 時期の選択 キーワードの分類 出典:http://www.trl.ibm.com/projects/s7710/tm/takmi/keikou.htm

ログに現れる主な「主語・述語」関係の表示 主語・述語出現の頻度 出現した主語・述語の組 主語・述語の分類 出典:http://www.trl.ibm.com/projects/s7710/tm/takmi/keikou.htm

製品 vs 要望 専門用語+要望 ハードウェアの名称 6件(ハードディスクの問い合わせの1.88%) 出展:http://www.research.ibm.com/trl/projects/textmining/takmi/takmi.htm

効果 分析時間の短縮(1/6~1/10) 分析対象の文章の増大 FAQ作成支援(候補を出力) 導入前は問い合わせ10,000件中、目を通せるのは300件程度 導入後は文章全体を分析対象に FAQ作成支援(候補を出力)

blogWatcher BLOG等に書かれている評価を可視化 検索キーワードについての評価を抽出 評価を良い・悪いに分類し、時系列で表示することにより、話題のバーストを見ることが可能に 南野,鈴木,藤木,奥村:人工知能学会論文誌19巻6号SP-A pp. 511-520(2004)

blogWatcher(2) Google と Microsoftの バーサス検索の様子 Blogに現れた 回数の時間的推移 ポジティブ・ネガティブ評価の 割合 出典:http://bb.watch.impress.co.jp/cda/parts/image_for_link/48058-13905-3-2.html

KnowledgeOcean 文書中に含まれる、決められた距離内で現れる単語(≒概念)の共起関係を可視化 予め指定した複数の単語と共起関係にある単語はセンターに配置 指定した単語のうちひとつのみと共起関係にある場合は外側に配置 城塚:テキストマイニングにおける概念関係可視化方式の検討,情報処理学会データベースシステム124-18 情報学基礎62-18 pp.137-144(2001)

KnowledgeOcean 特定の親ノードのみに関係しているノード群 (子ノード) 複数の親ノードに関係しているノード群(子ノード)

KnowledgeOcean 子ノードのみにつながる 孫ノード

VxInsight 文書間に定義した距離関数をもとに下式のエネルギーが最小になるように平面に配置 類似の文書群が固まっていれば山を作る(山の高さは文書数に比例) Boyack et.al.: Domain visualization using VxInsight for science and technology management, Journal of the American Society for Information Science and Technology, Vol.53, No. 9  (2002)

VxInsight マイクロシステム技術 文書群の可視化 点はSandia研究所所属 の著者による文書 出典: Boyack et.al.: Domain visualization using VxInsight for science and technology management

富士通 ACCENT キーワードを下式のバネモデル(Eadesのスプリングモデル)を使って平面に配置 ただし、自然長(の逆数)とバネの強さとして単語間の関連度を利用 三末和夫,渡部勇:テキストマイニングのための連想関係の可視化技術, 情報学基礎55-9 pp.65-72(1999) 現在は「トレンドサーチ」のコンセプトマッピング機能(?)

富士通 ACCENT 日経産業新聞’94~’96 車メーカー3社に対し、 「○○性」というキーワード

富士通 ACCENT 96年になると「安全性」が 極端にトヨタ寄りに

商用システム(1) Text mining for Clementine (SPSS社) 係り受けを表形式で出力 内部的にはCabochaを利用

商用システム(2) TRUE TELLER(野村総研) キーワード抽出分析 主な話題分析 出典:http://www.techmatrix.co.jp/products/crm/trueteller/feature/analyze.html

商用システム(3) Text Mining Studio(数理システム) ことば ネットワーク 単語の共起・ 係り受けを 図示 単語頻度 分析 評判分析 良い・悪いと される単語を 抽出 文書分類 出典:http://www.msi.co.jp/tmstudio/analyze.html