テキストマイニング, データマイニングと 社会活動のトレース

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
平成22年11月15日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
ことばとコンピュータ 2007年度1学期 第13回.
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
人工知能概論 第12回 言語と論理(1) 自然言語処理
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
ことばとコンピュータ 2007年度1学期 第3回.
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
小学校における英語指導は、中学校での英語学習にどのような影響を与えるか?
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
多母集団の同時分析 豊本満喜子 大阪大学人間科学部.
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
データ工学特論 第六回 木村昌臣.
当事者研究の記述の構造分析:向谷地・浦河べてるの家『安心して絶望できる人生』を対象として
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
じんもんこん2017 KH Coderチュートリアル
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
文書分類モデルの統計的性質に関する一考察
東京工科大学 コンピュータサイエンス学部 亀田弘之
コーパス管理システム 『ChaKi.NET』
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
ソフトウェア理解支援を目的とした 辞書の作成法
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

テキストマイニング, データマイニングと 社会活動のトレース 2008.03.06 京都高度技術研究所 山田 篤 Studio ARC 第1回 安全な暮らしのための情報技術研究会

内容 テキストマイニングとは テキストマイニングの技術 社会活動のトレース Studio ARC 第1回 安全な暮らしのための情報技術研究会

テキストマイニングとは テキストデータを対象としたデータマイニング 例) 電子化されたテキスト 非定型的な自然言語表現 統計的手法による解析 ウェブ文書からのマイニング 新聞記事からのマイニング アンケートへの回答からのマイニング コールセンターにおけるマイニング Studio ARC 第1回 安全な暮らしのための情報技術研究会

テキストマイニングの技術 電子化テキストの最小構成単位:文字 文字を対象とした統計処理 文字を単位とすると,意味のある情報の抽出が困難 単一文字の出現頻度 文字連鎖の出現頻度 ある文字の次に生起する文字の確率 文字を単位とすると,意味のある情報の抽出が困難 意味を担う最小の単位:単語 Studio ARC 第1回 安全な暮らしのための情報技術研究会

テキストを単語列に分割する技術 形態素解析 電子化辞書の利用 単語分割(タギング) 品詞 (POS) 情報の付与 形態素解析用に特化した辞書 英語:ホワイトスペースによる分かち書き 単語内の分割:gun/fight/er 日本語:単語境界? 品詞 (POS) 情報の付与 電子化辞書の利用 形態素解析用に特化した辞書 規則ベース 統計処理 形態素解析の例 Studio ARC 第1回 安全な暮らしのための情報技術研究会

単語列に対する統計的処理 単語の出現頻度 単語連鎖 (n-gram) の出現頻度 単語間の相関 近傍 (n語内) での共起確率 例:Web日本語nグラム http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html どのような語,語列がよく出現するか 単語間の相関 近傍 (n語内) での共起確率 語の間の関連性の抽出 どう関連しているかまではわからない 生成された仮説の検証・評価は人が行う必要がある Studio ARC 第1回 安全な暮らしのための情報技術研究会

その他の自然言語処理 格フレーム抽出 照応 省略 言い換え Webから自動構築した大規模格フレーム 助詞:格マーカ 指示詞が何を指しているか http://nlp.kuee.kyoto-u.ac.jp/nl-resource/caseframe.html 助詞:格マーカ 照応 指示詞が何を指しているか 省略 何が省略されているか 言い換え 何と同じか Studio ARC 第1回 安全な暮らしのための情報技術研究会

社会活動のトレース テキストマイニング テキスト群に書かれている内容が対象 対象テキスト群(母集団)の設定が重要 例)動向分析 新聞記事 それがいつ書かれたものであるかというメタデータ 時間変化の分析 母集団に対する大域的なトレース 社会のトレンド等 母集団の絞り込むことができれば,特定の個人,集団を対象とすることも可能 ブログを対象としたテキストマイニング等 Studio ARC 第1回 安全な暮らしのための情報技術研究会

トレースと匿名性 大域的なトレースにおいては,個人を匿名化して取り扱うことが多い マイニング対象のテキスト 公開情報 非公開情報(個人情報) ウェブ,公刊物等 非公開情報(個人情報) Mail (私信) 個別化:契約により,利便性と引き替えに個人を特定する情報を提供 取り扱いには注意が必要 Studio ARC 第1回 安全な暮らしのための情報技術研究会

おわりに 電子化されたテキストであれば何でもマイニングの対象になりうる 自然言語処理技術+統計処理技術 手元に複製が必要(複製権の問題) ウェブ検索エンジンのキャッシュ(用語として問題あり)等 自然言語処理技術+統計処理技術 そこから何を読み取るか/読み取ることができるか 記述対象のトレース Studio ARC 第1回 安全な暮らしのための情報技術研究会