テキストマイニング, データマイニングと 社会活動のトレース 2008.03.06 京都高度技術研究所 山田 篤 Studio ARC 第1回 安全な暮らしのための情報技術研究会
内容 テキストマイニングとは テキストマイニングの技術 社会活動のトレース Studio ARC 第1回 安全な暮らしのための情報技術研究会
テキストマイニングとは テキストデータを対象としたデータマイニング 例) 電子化されたテキスト 非定型的な自然言語表現 統計的手法による解析 ウェブ文書からのマイニング 新聞記事からのマイニング アンケートへの回答からのマイニング コールセンターにおけるマイニング Studio ARC 第1回 安全な暮らしのための情報技術研究会
テキストマイニングの技術 電子化テキストの最小構成単位:文字 文字を対象とした統計処理 文字を単位とすると,意味のある情報の抽出が困難 単一文字の出現頻度 文字連鎖の出現頻度 ある文字の次に生起する文字の確率 文字を単位とすると,意味のある情報の抽出が困難 意味を担う最小の単位:単語 Studio ARC 第1回 安全な暮らしのための情報技術研究会
テキストを単語列に分割する技術 形態素解析 電子化辞書の利用 単語分割(タギング) 品詞 (POS) 情報の付与 形態素解析用に特化した辞書 英語:ホワイトスペースによる分かち書き 単語内の分割:gun/fight/er 日本語:単語境界? 品詞 (POS) 情報の付与 電子化辞書の利用 形態素解析用に特化した辞書 規則ベース 統計処理 形態素解析の例 Studio ARC 第1回 安全な暮らしのための情報技術研究会
単語列に対する統計的処理 単語の出現頻度 単語連鎖 (n-gram) の出現頻度 単語間の相関 近傍 (n語内) での共起確率 例:Web日本語nグラム http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html どのような語,語列がよく出現するか 単語間の相関 近傍 (n語内) での共起確率 語の間の関連性の抽出 どう関連しているかまではわからない 生成された仮説の検証・評価は人が行う必要がある Studio ARC 第1回 安全な暮らしのための情報技術研究会
その他の自然言語処理 格フレーム抽出 照応 省略 言い換え Webから自動構築した大規模格フレーム 助詞:格マーカ 指示詞が何を指しているか http://nlp.kuee.kyoto-u.ac.jp/nl-resource/caseframe.html 助詞:格マーカ 照応 指示詞が何を指しているか 省略 何が省略されているか 言い換え 何と同じか Studio ARC 第1回 安全な暮らしのための情報技術研究会
社会活動のトレース テキストマイニング テキスト群に書かれている内容が対象 対象テキスト群(母集団)の設定が重要 例)動向分析 新聞記事 それがいつ書かれたものであるかというメタデータ 時間変化の分析 母集団に対する大域的なトレース 社会のトレンド等 母集団の絞り込むことができれば,特定の個人,集団を対象とすることも可能 ブログを対象としたテキストマイニング等 Studio ARC 第1回 安全な暮らしのための情報技術研究会
トレースと匿名性 大域的なトレースにおいては,個人を匿名化して取り扱うことが多い マイニング対象のテキスト 公開情報 非公開情報(個人情報) ウェブ,公刊物等 非公開情報(個人情報) Mail (私信) 個別化:契約により,利便性と引き替えに個人を特定する情報を提供 取り扱いには注意が必要 Studio ARC 第1回 安全な暮らしのための情報技術研究会
おわりに 電子化されたテキストであれば何でもマイニングの対象になりうる 自然言語処理技術+統計処理技術 手元に複製が必要(複製権の問題) ウェブ検索エンジンのキャッシュ(用語として問題あり)等 自然言語処理技術+統計処理技術 そこから何を読み取るか/読み取ることができるか 記述対象のトレース Studio ARC 第1回 安全な暮らしのための情報技術研究会