データ工学特論 第六回 木村昌臣.

Slides:



Advertisements
Similar presentations
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
ことばとコンピュータ 2007年度1学期 第13回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
事例要因分析から改善へ ~安全な与薬を目指して~ 全員で指差し呼称 ヨシ!!
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
持参薬変更時の注意点 平成23年4月 日本薬剤師会.
Topic-Word Selection Based on Combinatorial Probability
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
プログラム実行履歴を用いたトランザクションファンクション抽出手法
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
Fuzzy c-Means法による クラスター分析に関する研究
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
データ工学特論 第六回 木村昌臣.
独立成分分析 (ICA:Independent Component Analysis )
知能システム論I(13) 行列の演算と応用(Matrix) 2008.7.8.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
主成分分析 Principal Component Analysis PCA
知識情報演習Ⅲ(後半第2回) 辻 慶太
コードクローンの動作を比較するためのコードクローン周辺コードの解析
言語XBRLで記述された 財務諸表の分析支援ツールの試作
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
文書分類モデルの統計的性質に関する一考察
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
4. システムの安定性.
コーディングパターンの あいまい検索の提案と実装
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
データ解析 静岡大学工学部 安藤和敏
構造的類似性を持つ半構造化文書における頻度分析
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
大規模コーパスに基づく同義語・多義語処理
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
半正定値計画問題(SDP)の 工学的応用について
自然言語処理2015 Natural Language Processing 2015
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
形態素解析と構文解析 金子邦彦.
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

データ工学特論 第六回 木村昌臣

本日の話題 テキストマイニングとは 構造化・非構造化データ 重要な自然言語処理の手法 形態素解析 係り受け解析 数値化の方法

テキストマイニング 文書データに対し、中に含まれる単語などにもとづき、有用な情報を抽出する手法 など 文書の分類 文書の特徴をあらわす語(特徴語)の抽出 特徴語の間の関連性の分析 特徴語の時系列追跡 など

構造化データ・非構造化データ 構造化データ 非構造化データ テキストに書いてある文章に含まれている単語を抽出し・・・ 購入可否 性別 年齢 ○ 男性 35 × 42 女性 23 データの属性が分かっているので そのままデータマイニング手法を適用 できる そのままではデータの属性を知ることが 出来ないため、直接データマイニング手法を 適用できない

一般的なテキストマイニングの処理の流れ 文書 同義語・類義語 の置換処理 形態素解析 ストップワード 係り受け解析など の削除処理 同義語・類義語 の置換処理 ストップワード の削除処理 形態素解析 係り受け解析など 数値データへの変換 データマイニング手法の適用

形態素解析 生命 (名詞) を 守る の が 私 たち の 使命 です 文を形態素(≒単語)に分解し、品詞を付加する方法 どんな単語が頻出しているかを調べるのに適している 例「生命を守るのが私たちの使命です」 生命 (名詞) を (助詞) 守る (動詞) の (助詞) が (助詞) 私 (名詞) たち (名詞) の (助詞) 使命 (名詞) です (助動詞)

ツール(茶筌:chasen) 形態素解析を実行するツール http://chasen.naist.jp/hiki/ChaSen/

係り受け解析 文中の単語間の依存関係を抽出 「○○が××だ」と評判等の抽出に適している 例「生命を守るのが私たちの使命です」 生命(を) 修飾-被修飾 主語-述語 「○○が××だ」と評判等の抽出に適している 例「生命を守るのが私たちの使命です」 生命(を) 守る(のが) 私たち(の) 使命(です)

ツール(南瓜:cabocha) 係り受け解析を実行するツール http://chasen.org/~taku/software/cabocha/

× × × 同義語置換処理・ストップワード削除 同じ意味の単語はまとめてから数値化 助詞・助動詞・「こと」「ある」などはそれ自体意味を持たないので解析対象としない 生命 を 守る の が ・・・・ × × × 命 を 守る の が ・・・・

何故、同義語をまとめるか(1) このパソコンはデザインが良い 二つの商品に関するアンケートの結果、以下のような結果が得られた場合を考える。何についての話題が多いだろうか? このパソコンはデザインが良い PCにしては良いつくりをしている コンピュータの表面はすべすべしていて気持ちいい この椅子は硬い リクライニングする椅子は好きだ

何故、同義語をまとめるか(2) 形態素解析を形式的に適用した結果からは、椅子についての意見がよいとされてしまう。 実際は、コンピュータ、PC、パソコンは同じものを指しているのでまとめて集計する必要がある 名詞 件数 椅子 2 コンピュータ 1 PC パソコン 名詞 件数 椅子 2 パソコン 3

数値化 以下の数値などを求めてデータマイニング手法を適用する 単語の生起頻度 tf・idf エントロピー など 全体の単語の利用傾向を示す 対象となる文章群において、ある単語が特定の文章中に多く表れることを示す(文書を代表する特徴語を特定) など

単語の生起頻度 文書群のなかである単語が何度出現しているかを算出 類義語やストップワードの処理をあらかじめ実施することが必要 全体として大まかにどのようなテーマについて話しているかを把握 類義語やストップワードの処理をあらかじめ実施することが必要 特にストップワードは上位に来ることが多く、解析に影響を及ぼす可能性あり 単語間を関連付ける情報が欠落 ある程度、文書群の内容を知らないと何について書かれているのか判断が困難

ある医療系の文章群に現れた名詞(頻度順) ストップ ワード 同義語

TF・IDF TF : ある単語tがある文書d中に出現する回数 IDF : ある単語を含む文書の文書全体と比較した割合の逆数

エントロピー ある単語tが文書diに現れる確率をp(t,i)と書く。単語tが特定の文書に偏って現れる指標としてエントロピーを利用する。

ベクトル空間モデル 文書に含まれる単語についての指標を成分にもつベクトルを使ったモデル 文書間の類似度をベクトルのなす角として定義できる wt1,dは、単語t1の出現頻度やtf・idf値をとる 文書間の類似度をベクトルのなす角として定義できる

特異値分解(1) ベクトル群の特徴を保ちつつ次元圧縮する方法 M×N行列Aを次のように与える 単語数が多い場合に値0を持つ要素が多く、疎な行列となり、単語や文書のノイズの影響を受けやすい M×N行列Aを次のように与える

特異値分解(2) 行列Aは次のように分解できる ただし、rank(A)=r であるとき、UはM×r行列、VはN×r行列、∑はr×rの半正定値対角行列であり、 UとVは以下を満たす ベクトル    の代わりに行列Uの各行ベクトルを用いる

特異値分解の証明(概略) は半正定値対称行列 の正の固有値を大きい順に とし、 対応する固有ベクトル(規格化したもの)を とすると、 の正の固有値を大きい順に          とし、 対応する固有ベクトル(規格化したもの)を とすると、 かつ と定義すると

U=AV∑-1のときA= U∑VTである証明(概略) とおく。wはvと直交し、 規格化されているとする Wは直交行列であるから よって

テキストマイニングの事例

医薬品の使用安全性に関するアンケートの解析 医師 薬剤師 看護師 患者 意見 (文章) 意見 (文章) 意見 (文章) 意見 (文章) テキストマイニング手法による解析 医師固有の意見 薬剤師固有の意見 看護師固有の意見 患者固有の意見 共通の意見 再分類

対象データ 「薬効(領域)マーク・製品名表示品による 『使用の安全』確保のためのアンケート調査」 (トーアエイヨー社実施)の自由記述回答部分 「全身用経皮吸収剤を選択される理由をお教えください」の「その他・コメント」回答欄(737件) 「全身用経皮吸収剤の医療事故対策に関するご意見、ご要望がございましたらご記入ください」 (2115件)

データの構成 名詞が各職種に属する回答者の回答に現れる頻度を計算し、さらに職種毎の相対度数を計算。その結果を3次元ベクトルと見做す 単語 医師 看護師 薬剤師 患者 n11 n12 n13 経口 n21 n22 n23 減る n31 n32 n33 簡単 n41 n42 n43 ・・・・ ・・・

選択理由 (K-means法:K=4) 共通に現れる語 薬剤師・ 看護師 固有に 現れる語 医師固有 に現れる語

各クラスタ内の主要語 「経口で投与できない 患者に使用できる」 経口薬の量に着目 使用可能性や 容易さに着目 共通に現れる語 医師固有に現れる語 薬剤師・看護師固有に現れる語

意見・要望(K-means法:K=4) 医師固有 に現れる語 看護師 固有に 現れる語 薬剤師 固有に 現れる語 薬剤師 医師 各ベクトルを 平面X+Y+Z=1 へ射影してから クラスタリングしている 看護師

各クラスタ内の主要語 医師 薬剤師 看護師

次回 代表的なテキストマイニングの適用例の紹介 文書のクラスタリング 単語の共起関係抽出 特徴語の間の関連性の分析 特徴語の時系列追跡 など