言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治

本発表の目標構文解析された文の集合から頻出する部分木を抽出部分木のサイズに制限を設けない巨大なコーパスに対し，高効率, スケーラブルである必要 a c a d a b c d d a b c c a c d 構文木の集合 a c a c d a b c a d 頻出する部分木の抽出 ( 頻度 2 回以上 )

テキストマイニング (1/2) 文書分類，クラスタリング，単語共起の抽出これまでのテキストマイニングの多くは … 映像良い音声悪いテキストを単語の集合として表現 (Bag of Words) 映像は良いが音声は悪い映像は悪いが音声は良い？テキストが持つ意味のある構造が捉えられない

半構造テキストマイニングテキスト形態素解析単語同定単語の集合マイニングアルゴリズム知識 ( 頻出する単語の共起 ) マイニングアルゴリズム形態素解析単語同定チャンキング係り受け解析構文解析済みテキスト構造化された知識 ( 頻出する部分構文木 )

シーケンシャルパターンマイニング (Agrawal ら 94) sid 系列 1 2 3 4 a c d a b c c b a a a b 最小サポート値 = 2 系列データベースＳ a:4 b:3 c:3 a b:2 a c:2 マイニング結果系列データベースＳで ( 最小サポート値 ) 回以上の系列に出現する部分系列を完全に列挙自然言語処理 : アイテムを単語，系列を文，テキスト中の回以上の文に出現する単語の列を列挙アイテム

PrefixSpan (Pei ら 00) 系列 1 2 3 4 a c d a b c c b a a a b a:4 b:3 c:3 d:1 射影 1 2 4 c d b c a b a:1 b:2 c:2 2 c c:1 1 d d:1 2 3 c a a:1 c:1 1 3 d b a a:1 b:1 d:1 a:4 a b:2 a c:2 b:2 c:3 結果最小サポート値 =2 sid

PrefixSpan の拡張 (1/2) ab 射影 ? 射影の制約隣接するアイテムのみ射影（ N-gram) 係り関係のみ言語制約（機能語の連続は考慮しない頻度以外の制約の導入射影の詳細化 a b が構造的に関係 r を持つ b で射影せず， b-r ( アイテム名 - 関係名で射影 ) b-r1 b-r2 b-r3 a b は r1 の関係 a b は r2 の関係 a b は r3 の関係

PrefixSpan の拡張 (3/3) 関係関数 S 中の系列 sid の i 番目と j 番目のアイテムの関係 (rel) を返すアイテム - 関係関数の返り値 (rel) で射影返り値が ε の場合は射影を行わないと定義関係関数の実装により半構造化データ，言語的制約を表現具体例 (N-Gram, チャンク, 係り受け ) 1 2 3 4 a c d a b a c b b c b a b a c d S sid 系列

係り受け (1/2) 日本語は比較的語順が自由係り受けを考慮することで，意味的に同一で語順の異なる文を同一視係り関係木の正規化 f e a d b c f e d c b a

係り受け (2/2) 係り元 (i) の係り先 (j) からみて k(k>=0) 代目の子孫であるとき (i,j) の関係名を k と定義, それ以外は ε 係り受け木 → 系列 f e a d b c 0 ε 1 22 a b c d e f ((a (b (c d)) e) f) 2 2 1 0 ε i

係り受け (3/3) 系列 1 2 3 4 ((a c) d)) (a (b c)) ((c b) a) ((b a) c) a:4 b:3 c:4 d:1 b-1:1 c-0:3 1 3 d-0 b-0 a-ε b-0:1 d-0:1 a:4 a c-0 :3 b:3 b a-0 :2 c:4 結果 4 2 3 c-0 a-0 a-0:2 c-0:1 a-0 c-ε 1 d-0 d-0:1 1 c-0 c-0:1 最小サポート値 =2 1 2 4 c-0 d-ε b-1 c-0 c-0 0 ε 1 0 0

実験新聞記事 ( 京都大学コーパス 3.0 約 38,000 文 ) 小説 ( 「我輩は猫である」全文約 9,000 文 ) – ChaSen,CaboCha を用いて形態素，係り受け解析構造 – 文節をアイテムとする係り受け構造

実験結果最小サポート値抽出時間 (sec.) 新聞 / 小説 2355.6 / 7.8 26.7 / 5.8 24.0 / 5.2 22.9 / 4.8 22.1 / 4.6 5 10 15 20 (( ついて述べ,) ( 記者会見で明らかにした )) (( 各地の震度は ) ( 次の通り )) ( ことが ( 調べで分かった )) ( 休養を ( また ( 我輩は要する ))) 新聞記事に頻出する定型表現が抽出できた

応用例 : 対訳パターン抽出日本語英語 J1 J2 J3 ….. Jn E1 E2 E3 ….. Em 単純に連結単言語間はその言語の構造で規定される関係関数二言語間はすべての射影を許可共起する構造化パターンの抽出 Dice 係数, 相互情報量等で順位付け

まとめ自然言語処理ツールを利用し，その結果得られた半構造化テキストデータに対するマイニング手法を提案 PrefixSpan に対し，「関係関数」を導入, 種々の言語的な情報を反映した半構造化データに対するマイニング手法の提案対訳パターンの抽出に利用できる可能性を提示

今後の課題抽出されたパターンの客観的有効性の評価対象とする構造，関係関数の違いにより，具体的な応用でどういった差があるか評価グラフ構造に対する関係関数の記述方法完全性，健全性の議論

ご静聴ありがとうございました PrefixSpan の C++ による実装は http://cl.aist-nara.ac.jp/~taku-ku/software/prefixspan/ にて入手可能です

チャンク (2/3) 友達と京都に行って，ラーメンを食べた行く { 友達, 京都 } { 食べる { ラーメン } { それぞれ辞書式にソート

実験結果最小サポート抽出パターン数（新聞 / 小説 ) N-gram チャンク係り受け 2320428/65803N/A / NA1028534/10253 562226/147367490 / 131010478/2217 1026095/60312538 / 4704149/919 1516109/386621389 / 2822433/554 2011430/2781849 / 1951622/376

データマイニング膨大なデータから有益，興味のある，思いがけないデータを明示的な知識として発見膨大なデータから頻出する部分パターンの発見膨大なデータに対してスケーラブルである必要性バスケット分析 – 顧客の購買分析（ソーセージを買う人はロールパンを買いやすい）

応用例 1: 機械学習の素性抽出 +1 +1.. ((a b) (c d)) (c (b (e f))) (a (c (d e))) ((a c)(d e)) (c (a (b e))) 半構造化データに対し，クラスラベル (+1,-1) が付与半構造化データの部分パターンを素性として選択単純にクラスとデータを連結クラスラベルと部分パターンの共起度（相互情報量， dice 係数 ) の高いパターンを素性として選択

マイニングの手法幅優先 (Apriori) – 候補生成 - テスト – データーベースを何回も捜査する必要がある深さ優先 (FP-Tree, PrefixSpan) – 分割統治法 – 並列性，メモリの使用量が少ない

応用例 : 対訳パターン抽出 (2/2) 実験 – 日英対訳コーパス 9268 文 – 構造 : 系列, N-gram ( 機能語相当は考慮しない ) 系列 52 分, N-gram 7 秒で全候補パターンを生成系列にて発見されたパターン – earliest convenience 都合つき次第 – let …..know お知らせ – thank ….letter 手紙ありがとう連続しない単語の翻訳パターンが抽出

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

Similar presentations

Presentation on theme: "言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.

Similar presentations

Presentation on theme: "言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治."— Presentation transcript:

Similar presentations

About project

フィードバック

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

Presentation on theme: "言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治."— Presentation transcript: