データ工学特論第六回木村昌臣.

Slides:

Advertisements

Similar presentations

データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識データベース  特定のテーマや目的に毎のデータの集合体データベースソフトウェア  データベースを作成、管理するソフトウェアの総称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)

Advertisements

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

白井ゼミ豊田秀樹(2008)『データマイニング入門』 (東京図書)。４章

人工知能特論８．教師あり学習と教師なし学習

ウェブの時空間解析技術東京大学生産技術研究所戦略情報融合国際研究センター成果概要ウェブアーカイブウェブ空間解析ウェブ時系列解析

The Perl Conference Japan ’98 朝日奈アンテナによるコンテンツ情報の取得と利用

XHTML構文検証手法におけるスクリプト要素の静的解析アルゴリズム

④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP

知識情報演習Ⅲ（後半第1回）辻慶太（水）

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

(農業)情報工学農学部専門科目 A1、A2、木曜4限中村典裕中村典裕.

KeyGraphを活用した食品安全リスクの早期警告支援

夢見る図書館情報システム The Cards Challenge !

テキストマイニング，データマイニングと社会活動のトレース

4Y-4 印象に残りやすい日本語パスワードの合成法

リスクコミュニケーションのための情報共有支援システム

ＤＢマルチメディア･コンテンツの組織化機構マルチメディア･コンテンツ ①組織化機構解体・整理の仕事現実世界に流通するマルチ

情報検索演習第2回前から4列目までに着席すること 2005年10月05日後期水曜5限江草由佳国立教育政策研究所

形態素解析および係り受け解析・主語を判別

テキストの類似度計算

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

情報理工学部情報知能学科 H 柏木康志 2010年 2月 2日

自動車レビューにおける検索と分析Ｈ２０８０３２　松岡智也Ｈ２０８０６０中西潤Ｈ２０８０８２　松井泰介.

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

検索エンジンを利用した Covert Channelの検出

プログラム実行履歴を用いたトランザクションファンクション抽出手法

データ解析静岡大学工学部安藤和敏

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

(農業)情報工学農学部専門科目 A1、A2、木曜4限中村典裕.

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

環境リスクマネジメントに関する検索システム

知識情報演習Ⅲ（後半第3回）辻　慶太

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

移動エントロピーによる動的ネットワーク化を用いたＳＮＳと商品購買の相互関係の分析

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

自動車レビュー簡潔化の手法の提案情報理工学部・情報知能学科　4年Ｈ206010　内輪健一Ｈ206036　鈴木貴裕.

テキストマイニング，データマイニングと社会活動のトレース

貞広幸雄地理情報システム論貞広幸雄

情報システム1及び演習第一回　データベースの概要.

知識情報演習Ⅲ（後半第3回）辻　慶太

Data Clustering: A Review

文書分類モデルの統計的性質に関する一考察

Spatial Linker - 空間コンテンツ融合の研究 -

コーディングパターンのあいまい検索の提案と実装

Webからの人間関係ネットワークの抽出と情報支援

サポートベクターマシン Support Vector Machine SVM

コーパス管理システム『ChaKi.NET』

構造的類似性を持つ半構造化文書における頻度分析

データ工学特論第六回木村昌臣.

自然言語処理2015 Natural Language Processing 2015

テキストマイニングによる看護専門領域別実習に関する研究動向の分析

新聞記事データを用いたリスクシナリオ発見支援システムの構築

資料3-2 平成26年度第3回技術委員会資料次年度テーマの検討

ICML読む会資料（鹿島担当）教師ナシの構造→構造マッピング読んだ論文： Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

シソーラス情報を用いた童話文章登場人物の感情情報読み取りシステム

Webページタイプによるクラスタリングを用いた検索支援システム

情報処理Ⅱ ２００７年１２月３日（月）その１.

形態素解析と構文解析金子邦彦.

自然言語処理2016 Natural Language Processing 2016

mi-8. 自然言語処理人工知能を演習で学ぶシリーズ（８）

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

(農業)情報工学農学部専門科目 A1、A2、木曜4限中村典裕.

P2Pによる協調学習システム唐澤　信介　　北海道工業大学　電気工学専攻.

Presentation transcript:

データ工学特論第六回木村昌臣

本日の話題テキストマイニングの主なアプリケーションテキストマイニングシステムの例研究用システム（ただし、現在では商用になっているものも含む）商用システム

テキストマイニングの主なアプリケーション(1) 文書の分類ベクトル空間モデルを用い、クラスタリング手法等を用いて分類主に論文や特許情報などが対象文書中に出現する単語の関連付け同一文書に出現するなどの共起関係をもとに、単語の関連度を定義バネを使って単語の位置を決めるなどの手法を利用

テキストマイニングの主なアプリケーション(2) キーワードの時系列分析単語等の出現頻度を時系列データとして分析主にコールセンターのログなどが対象

IBM TAKMI IBM東京基礎研究所で開発されたテキストマイニングツールhttp://www.research.ibm.com/trl/projects/textmining/takmi/takmi.htm 日本アイ･ビー･エムのPCヘルプセンター(コールセンター)のログ解析形態素解析の結果を時系列等の切り口で見せることが可能係り受け解析により「何が○○だ」という主語・述語の関係のうち最もよく現れたものを見せることが可能那須川:コールセンターにおけるテキストマイニング,人工知能学会誌vol.16 No.2 pp.219-225(2001) この発展として、ライフサイエンスに関する論文等を解析するMedTAKMIというシステムあり

PCヘルプセンターにおける問い合わせ記録例 [問い合わせID] 8629678 [日付] 19971001 [機種名] APTIVA P43 [CALL種別] 技術Q&A (導入/セットアップ/操作/ 問題判別) [問題種別] 操作/使い方/活用 [回答・対応種別] 情報提供 [タイトル] AP H5E : インターネットURL指定時の「~（チルダ）」の入力方法 [問い合わせ内容] Q:AP H5E :インターネットURL指定時 A:ひらがな「へ」があるキーの記号「￣(アッパーバー）」をご利用ください

語彙の出現傾向分析キーワード週毎の出現頻度時期の選択キーワードの分類出典:http://www.trl.ibm.com/projects/s7710/tm/takmi/keikou.htm

ログに現れる主な「主語・述語」関係の表示主語・述語出現の頻度出現した主語・述語の組主語・述語の分類出典:http://www.trl.ibm.com/projects/s7710/tm/takmi/keikou.htm

製品 vs 要望専門用語+要望ハードウェアの名称 6件(ハードディスクの問い合わせの1.88%) 出展:http://www.research.ibm.com/trl/projects/textmining/takmi/takmi.htm

効果分析時間の短縮（1/6～1/10) 分析対象の文章の増大 FAQ作成支援（候補を出力）導入前は問い合わせ10,000件中、目を通せるのは300件程度導入後は文章全体を分析対象に FAQ作成支援（候補を出力）

blogWatcher BLOG等に書かれている評価を可視化検索キーワードについての評価を抽出評価を良い・悪いに分類し、時系列で表示することにより、話題のバーストを見ることが可能に南野,鈴木,藤木,奥村:人工知能学会論文誌19巻6号SP-A pp. 511-520(2004)

blogWatcher(2) Google と Microsoftのバーサス検索の様子 Blogに現れた回数の時間的推移ポジティブ・ネガティブ評価の割合出典：http://bb.watch.impress.co.jp/cda/parts/image_for_link/48058-13905-3-2.html

KnowledgeOcean 文書中に含まれる、決められた距離内で現れる単語(≒概念)の共起関係を可視化予め指定した複数の単語と共起関係にある単語はセンターに配置指定した単語のうちひとつのみと共起関係にある場合は外側に配置城塚：テキストマイニングにおける概念関係可視化方式の検討,情報処理学会データベースシステム124-18 情報学基礎62-18 pp.137-144(2001)

KnowledgeOcean 特定の親ノードのみに関係しているノード群（子ノード）複数の親ノードに関係しているノード群（子ノード）

KnowledgeOcean 子ノードのみにつながる孫ノード

VxInsight 文書間に定義した距離関数をもとに下式のエネルギーが最小になるように平面に配置類似の文書群が固まっていれば山を作る（山の高さは文書数に比例） Boyack et.al.: Domain visualization using VxInsight for science and technology management, Journal of the American Society for Information Science and Technology, Vol.53, No. 9 (2002)

VxInsight マイクロシステム技術文書群の可視化点はSandia研究所所属の著者による文書出典: Boyack et.al.: Domain visualization using VxInsight for science and technology management

富士通 ACCENT キーワードを下式のバネモデル（Eadesのスプリングモデル）を使って平面に配置ただし、自然長（の逆数）とバネの強さとして単語間の関連度を利用三末和夫,渡部勇:テキストマイニングのための連想関係の可視化技術, 情報学基礎55-9 pp.65-72(1999) 現在は「トレンドサーチ」のコンセプトマッピング機能(?)

富士通 ACCENT 日経産業新聞’94～’96 車メーカー3社に対し、「○○性」というキーワード

富士通 ACCENT 96年になると「安全性」が極端にトヨタ寄りに

商用システム(1) Text mining for Clementine (SPSS社) 係り受けを表形式で出力内部的にはCabochaを利用

商用システム(2) TRUE TELLER(野村総研) キーワード抽出分析主な話題分析出典:http://www.techmatrix.co.jp/products/crm/trueteller/feature/analyze.html

商用システム(3) Text Mining Studio(数理システム) ことばネットワーク単語の共起・係り受けを図示単語頻度分析評判分析良い・悪いとされる単語を抽出文書分類出典:http://www.msi.co.jp/tmstudio/analyze.html