言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
形態素周辺確率を用いた 分かち書きの一般化とその応用
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
ラベル付き区間グラフを列挙するBDDとその応用
CCC DATAset における マルウェアの変遷
シーケンシャルパターンマイニングに基づくオブジェクト指向プログラムのための 欠陥検出手法
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
On the Enumeration of Colored Trees
半構造化テキストの分類のための ブースティングアルゴリズム
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
部分木に基づくマルコフ確率場と言語解析への適用
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
部分木を素性とする Decision Stumps と Boosting Algorithm の適用
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
マイクロシミュレーションにおける 可変属性セル問題と解法
形態素解析および係り受け解析・主語を判別
言語処理系(5) 金子敬一.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
動的データ依存関係解析を用いた Javaプログラムスライス手法
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
GPGPUによる 飽和高価値 アイテム集合マイニング
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
超大規模ウェブコーパスを用いた 分布類似度計算
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
コーディングパターンの あいまい検索の提案と実装
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
構造的類似性を持つ半構造化文書における頻度分析
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
オープンソースソフトウェアに対する コーディングパターン分析の適用
分散処理を用いたコーディングパターン検出ツールの実装
大規模コーパスに基づく同義語・多義語処理
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
形態素解析と構文解析 金子邦彦.
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治

本発表の目標 構文解析された文の集合から頻出する部分木を抽出 部分木のサイズに制限を設けない 巨大なコーパスに対し,高効率, スケーラブルである必要 a c a d a b c d d a b c c a c d 構文木の集合 a c a c d a b c a d 頻出する部分木の抽出 ( 頻度 2 回以上 )

テキストマイニング (1/2) 文書分類,クラスタリング,単語共起の抽出 これまでのテキストマイニングの多くは … 映像 良い 音声 悪い テキストを単語の 集合として表現 (Bag of Words) 映像は良いが 音声は悪い 映像は悪いが 音声は良い ? テキストが持つ意味のある構造 が捉えられない

半構造テキストマイニング テキス ト 形態素解析 単語同定 単語の集合 マイニング アルゴリズム 知識 ( 頻出する単語の共起 ) マイニング アルゴリズム 形態素解析 単語同定 チャンキング 係り受け解析 構文解析済みテキスト 構造化された知識 ( 頻出する部分構文木 )

シーケンシャルパターンマイニング (Agrawal ら 94) sid 系列 a c d a b c c b a a a b 最小サポート値 = 2 系列データベースS a:4 b:3 c:3 a b:2 a c:2 マイニング結果 系列データベースSで ( 最小サポート値 ) 回以上の 系列 に出現する部分系列を完全に列挙 自然言語処理 : アイテムを単語,系列を文,テキスト 中の 回以上の文に出現する単語の列を列挙 アイテム

PrefixSpan (Pei ら 00) 系列 a c d a b c c b a a a b a:4 b:3 c:3 d:1 射影 c d b c a b a:1 b:2 c:2 2 c c:1 1 d d:1 2 3 c a a:1 c:1 1 3 d b a a:1 b:1 d:1 a:4 a b:2 a c:2 b:2 c:3 結果 最小サポート値 =2 sid

PrefixSpan の拡張 (1/2) ab 射影 ? 射影の制約 隣接するアイテムのみ 射影( N-gram) 係り関係のみ 言語制約(機能語の連 続は考慮しない 頻度以外の制約の導入 射影の詳細化 a b が構造的に 関係 r を 持つ b で 射影せず, b-r ( ア イテム名 - 関係名で射影 ) b-r1 b-r2 b-r3 a b は r1 の関係 a b は r2 の関係 a b は r3 の関係

PrefixSpan の拡張 (3/3) 関係関数 S 中の 系列 sid の i 番目と j 番目のアイテムの関係 (rel) を返 す アイテム - 関係関数の返り値 (rel) で射影 返り値が ε の場合は射影を行わないと定義 関係関数の実装により半構造化データ,言語的制約を表現 具体例 (N-Gram, チャンク, 係り受け ) a c d a b a c b b c b a b a c d S sid 系列

係り受け (1/2) 日本語は比較的語順が自由 係り受けを考慮することで,意味的に同一で語 順の異なる文を同一視 係り関係木の正規化 f e a d b c f e d c b a

係り受け (2/2) 係り元 (i) の係り先 (j) からみて k(k>=0) 代目の子 孫であるとき (i,j) の関係名を k と定義, それ以外 は ε 係り受け木 → 系列 f e a d b c 0 ε 1 22 a b c d e f ((a (b (c d)) e) f) ε i

係り受け (3/3) 系列 ((a c) d)) (a (b c)) ((c b) a) ((b a) c) a:4 b:3 c:4 d:1 b-1:1 c-0:3 1 3 d-0 b-0 a-ε b-0:1 d-0:1 a:4 a c-0 :3 b:3 b a-0 :2 c:4 結果 c-0 a-0 a-0:2 c-0:1 a-0 c-ε 1 d-0 d-0:1 1 c-0 c-0:1 最小サポート値 = c-0 d-ε b-1 c-0 c-0 0 ε 1 0 0

実験 新聞記事 ( 京都大学コーパス 3.0 約 38,000 文 ) 小説 ( 「我輩は猫である」 全文 約 9,000 文 ) – ChaSen,CaboCha を用いて形態素,係り受け解析 構造 – 文節をアイテムとする係り受け構造

実験結果 最小サポート値抽出時間 (sec.) 新聞 / 小説 / / / / / (( ついて 述べ,) ( 記者会見で 明らかにした )) (( 各地の 震度は ) ( 次の 通り )) ( ことが ( 調べで 分かった )) ( 休養を ( また ( 我輩は 要する ))) 新聞記事に頻出する定型表現が抽出でき た

応用例 : 対訳パターン抽出 日本語 英語 J1 J2 J3 ….. Jn E1 E2 E3 ….. Em 単純に連結 単言語間は その言語の構造で 規定される関係関数 二言語間は すべての射影を許可 共起する構造化パターンの抽出 Dice 係数, 相互情報量等で順位付け

まとめ 自然言語処理ツールを利用し,その結果得られ た半構造化テキストデータに対するマイニング 手法を提案 PrefixSpan に対し,「関係関数」を導入, 種々 の言語的な情報を反映した半構造化データに対 するマイニング手法の提案 対訳パターンの抽出に利用できる可能性を提示

今後の課題 抽出されたパターンの客観的有効性の評価 対象とする構造,関係関数の違いにより,具体 的な応用でどういった差があるか評価 グラフ構造に対する関係関数の記述方法 完全性,健全性の議論

ご静聴ありがとうございました PrefixSpan の C++ による実装は にて入手可能です

チャンク (2/3) 友達と京都に行って,ラーメンを食べた 行く { 友達, 京都 } { 食べる { ラーメン } { それぞれ 辞書式に ソート

実験結果 最小サ ポート 抽出パターン数 (新聞 / 小説 ) N-gram チャンク係り受け /65803N/A / NA / / / / / / / / / / / / /376

データマイニング 膨大なデータから有益,興味のある,思いがけ ないデータを明示的な知識として発見 膨大なデータから頻出する部分パターンの発見 膨大なデータに対してスケーラブルである必要 性 バスケット分析 – 顧客の購買分析 ( ソーセージを買う人はロールパンを買いやすい)

応用例 1: 機械学習の素性抽出 ((a b) (c d)) (c (b (e f))) (a (c (d e))) ((a c)(d e)) (c (a (b e))) 半構造化データに対し,クラス ラベル (+1,-1) が付与 半構造化データの部分パターン を 素性として選択 単純にクラスとデータを連結 クラスラベルと部分パターンの 共起度(相互情報量, dice 係数 ) の 高いパターンを素性として選択

マイニングの手法 幅優先 (Apriori) – 候補生成 - テスト – データーベースを何回も捜査する必要がある 深さ優先 (FP-Tree, PrefixSpan) – 分割統治法 – 並列性,メモリの使用量が少ない

応用例 : 対訳パターン抽出 (2/2) 実験 – 日英対訳コーパス 9268 文 – 構造 : 系列, N-gram ( 機能語相当は考慮しない ) 系列 52 分, N-gram 7 秒で全候補パターンを生 成 系列にて発見されたパターン – earliest convenience 都合 つき 次第 – let …..know お知らせ – thank ….letter 手紙 ありがとう 連続しない単語の翻訳パターンが抽出