テキストマイニング，データマイニングと社会活動のトレース

Slides:

Advertisements

Similar presentations

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

Advertisements

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の一実現方式とその評価原田昌紀・風間一洋・佐藤進也日本電信電話 ( 株 ) 未来ねっと研究所.

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

テキストデータベースからの構文構造のマイニング

最大エントロピーモデルに基づく形態素解析と辞書による影響

平成22年11月15日（月）東京工科大学コンピュータサイエンス学部亀田弘之

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

形態素周辺確率を用いた分かち書きの一般化とその応用

ことばとコンピュータ 2007年度1学期　第13回.

言語体系とコンピュータ第5回.

国内線で新千歳空港を利用している航空会社はどこですか？

知識情報演習Ⅲ（後半第1回）辻慶太（水）

情報学類吉田光男アドバイザー教官：山本幹雄先生

言語の統計統計の対象量単語 NグラムとKWIC HMMと形態素解析への応用.

奈良先端科学技術大学院大学情報科学研究科松本裕治

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

人工知能概論第12回言語と論理(1) 自然言語処理

連想概念辞書の構築感性語の収集ニューラルネットによる実装マルチモーダル対話システム漢字フォントの合成

ことばとコンピュータ 2007年度1学期第3回.

テキストマイニング，データマイニングと社会活動のトレース

検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine

１．自然言語処理システム２．単語と形態素３．文節と係り受け

部分形態素解析を用いたコーパスの品詞体系変換

4Y-4 印象に残りやすい日本語パスワードの合成法

小学校における英語指導は、中学校での英語学習にどのような影響を与えるか？

平成１９年５月19日第3版東京大学理学部生物化学図書室前田朗

東京工科大学コンピュータサイエンス学部亀田弘之

形態素解析および係り受け解析・主語を判別

テキストの類似度計算

情報理工学部情報知能学科 H 柏木康志 2010年 2月 2日

メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。

自動車レビューにおける検索と分析Ｈ２０８０３２　松岡智也Ｈ２０８０６０中西潤Ｈ２０８０８２　松井泰介.

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

大規模時系列ウェブコーパスを用いた新造語の盛衰のダイナミズムの分析

Javaソフトウェア部品検索システムのための索引付け手法の提案と実装

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

検索エンジンを利用した Covert Channelの検出

情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具情報分析の道具.

自然言語処理及び実習第11回　形態素解析.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

只見町インターネット・エコミュージアムの「キーワード」検索の改善

多母集団の同時分析豊本満喜子大阪大学人間科学部.

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

データ工学特論第六回木村昌臣.

当事者研究の記述の構造分析：向谷地・浦河べてるの家『安心して絶望できる人生』を対象として

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

じんもんこん2017 KH Coderチュートリアル

形態素解析ドライバモデルの実装とコーパスの品詞体系変換への応用

Happinessの歴史と日本語処理のエピソード (株)平和情報センター沓澤　尚明.

東京工科大学コンピュータサイエンス学部亀田弘之

超大規模ウェブコーパスを用いた分布類似度計算

文書分類モデルの統計的性質に関する一考察

東京工科大学コンピュータサイエンス学部亀田弘之

コーパス管理システム『ChaKi.NET』

構造的類似性を持つ半構造化文書における頻度分析

データ工学特論第六回木村昌臣.

大規模コーパスに基づく同義語・多義語処理

自然言語処理2015 Natural Language Processing 2015

ソフトウェア理解支援を目的とした辞書の作成法

形態素解析と構文解析金子邦彦.

自然言語処理2016 Natural Language Processing 2016

mi-8. 自然言語処理人工知能を演習で学ぶシリーズ（８）

実都市を対象とした初期マイクロデータの推定手法の適用と検証

Presentation transcript:

テキストマイニング，データマイニングと社会活動のトレース 2008.03.06 京都高度技術研究所山田　篤 Studio ARC 第1回　安全な暮らしのための情報技術研究会

内容テキストマイニングとはテキストマイニングの技術社会活動のトレース Studio ARC 第1回　安全な暮らしのための情報技術研究会

テキストマイニングとはテキストデータを対象としたデータマイニング例）電子化されたテキスト非定型的な自然言語表現統計的手法による解析ウェブ文書からのマイニング新聞記事からのマイニングアンケートへの回答からのマイニングコールセンターにおけるマイニング Studio ARC 第1回　安全な暮らしのための情報技術研究会

テキストマイニングの技術電子化テキストの最小構成単位：文字文字を対象とした統計処理文字を単位とすると，意味のある情報の抽出が困難単一文字の出現頻度文字連鎖の出現頻度ある文字の次に生起する文字の確率文字を単位とすると，意味のある情報の抽出が困難意味を担う最小の単位：単語 Studio ARC 第1回　安全な暮らしのための情報技術研究会

テキストを単語列に分割する技術形態素解析電子化辞書の利用単語分割（タギング）品詞 (POS) 情報の付与形態素解析用に特化した辞書英語：ホワイトスペースによる分かち書き単語内の分割：gun/fight/er 日本語：単語境界？品詞 (POS) 情報の付与電子化辞書の利用形態素解析用に特化した辞書規則ベース統計処理形態素解析の例 Studio ARC 第1回　安全な暮らしのための情報技術研究会

単語列に対する統計的処理単語の出現頻度単語連鎖 (n-gram) の出現頻度単語間の相関近傍 (n語内) での共起確率例：Web日本語ｎグラム http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html どのような語，語列がよく出現するか単語間の相関近傍 (n語内) での共起確率語の間の関連性の抽出どう関連しているかまではわからない生成された仮説の検証・評価は人が行う必要がある Studio ARC 第1回　安全な暮らしのための情報技術研究会

その他の自然言語処理格フレーム抽出照応省略言い換え Webから自動構築した大規模格フレーム助詞：格マーカ指示詞が何を指しているか http://nlp.kuee.kyoto-u.ac.jp/nl-resource/caseframe.html 助詞：格マーカ照応指示詞が何を指しているか省略何が省略されているか言い換え何と同じか Studio ARC 第1回　安全な暮らしのための情報技術研究会

社会活動のトレーステキストマイニングテキスト群に書かれている内容が対象対象テキスト群（母集団）の設定が重要例）動向分析新聞記事それがいつ書かれたものであるかというメタデータ時間変化の分析母集団に対する大域的なトレース社会のトレンド等母集団の絞り込むことができれば，特定の個人，集団を対象とすることも可能ブログを対象としたテキストマイニング等 Studio ARC 第1回　安全な暮らしのための情報技術研究会

トレースと匿名性大域的なトレースにおいては，個人を匿名化して取り扱うことが多いマイニング対象のテキスト公開情報非公開情報（個人情報）ウェブ，公刊物等非公開情報（個人情報） Mail (私信) 個別化：契約により，利便性と引き替えに個人を特定する情報を提供取り扱いには注意が必要 Studio ARC 第1回　安全な暮らしのための情報技術研究会

おわりに電子化されたテキストであれば何でもマイニングの対象になりうる自然言語処理技術＋統計処理技術手元に複製が必要（複製権の問題）ウェブ検索エンジンのキャッシュ（用語として問題あり）等自然言語処理技術＋統計処理技術そこから何を読み取るか／読み取ることができるか記述対象のトレース Studio ARC 第1回　安全な暮らしのための情報技術研究会