Presentation is loading. Please wait.

Presentation is loading. Please wait.

超大規模ウェブコーパスを用いた 分布類似度計算

Similar presentations


Presentation on theme: "超大規模ウェブコーパスを用いた 分布類似度計算"— Presentation transcript:

1 超大規模ウェブコーパスを用いた 分布類似度計算
09/03/05 京都大学 柴田 知秀 黒橋 禎夫

2 背景 大規模コーパスを利用することにより言語処理の精度が向上 分布類似度計算で大規模コーパスの利用
スペル訂正(100億語) [Lin and R.Curran 06] 言語モデルの機械翻訳での利用 (2兆語) [Brants et al. 07] 分布類似度計算で大規模コーパスの利用 6,400万語 [Lin98] 20億語 [Curran04] 4,000万Webページ [相澤08] 本研究ではウェブ1億ページ(250億語)を利用

3 概要 大規模コーパスを利用することによって分布類似度計算の精度が向上するか 曖昧性のある係り受けを除外することによる効果
どれくらいの規模があれば十分か 曖昧性のある係り受けを除外することによる効果 複合名詞の類似度計算 どのコンテキストが有効か

4 目次 分布類似度 実験 コンテキスト抽出 分布類似度計算 類似度尺度 曖昧性のある係り受けの除外 複合名詞の類似時計算
どのコンテキストが有効か

5 目次 分布類似度 実験 コンテキスト抽出 分布類似度計算 類似度尺度 曖昧性のある係り受けの除外 複合名詞の類似時計算
どのコンテキストが有効か

6 分布類似度 意味の似た語は似たコンテキストで出現 [Firth57] 医師 医者 ~の診察 8225 495 ~に相談 4374 1359
~の許可 1474 254 ~が増える 354 134 ~を志す 277 173 ~の不養生 25 類義語 類似度 主治医 0.437 ドクター 0.395 医者 0.382 教員 0.374 カウンセラー 0.368 獣医 0.350 「医師」の類義語 0.382

7 コンテキスト抽出 3つ組(w, r, w’)を抽出 rとして以下の格要素を考える ある語wが他の語w’と関係rで出現している
関係rとして係り受け関係がもっともよい[Lin98], [Curran04] 例: 医者が診察する → (医者, ガ, 診察) (r,w’)の組を語wの共起要素と呼ぶ rとして以下の格要素を考える ガ, ヲ, ニ, カラ, ト, ヘ, マデ, ヨリ, ノ

8 曖昧性のある係り受けを除外 格フレーム構築時に曖昧性のある係り受けを除外[Kawahara and Kurohashi 01]
パンを焼いたけれども、… パンを焼いた余熱を利用して、…

9 語wの単位 多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04] 語wの単位として単名詞と複合名詞を考える
人手によるシソーラスの25%は複合名詞 複合名詞の分布類似度を計算したが精度が低下[Ingram and Curran07] 語wの単位として単名詞と複合名詞を考える 複合名詞は文節内で最長のもの 例: 携帯電話を購入した 単名詞: 電話 複合名詞: 携帯電話

10 分布類似度計算 以下の二つのfunctionに分解 [Curran04] Weight function Measure function
医師 医者 ~の診察 8225 11.4 495 8.7 ~に相談 4374 8.1 1359 7.3 ~の許可 1474 5.3 254 3.5 ~が増える 354 134 0.9 ~を志す 277 5.9 173 6.3

11 Weight function (wgt) FREQ MI MI’ 1 if MI > β; otherwise 0

12 Measure function COSINE LIN98 JACCARD SIMPSON JACCARD-SIMPSON

13 目次 分布類似度 実験 コンテキスト抽出 分布類似度計算 類似度尺度 曖昧性のある係り受けの除外 複合名詞の類似時計算
どのコンテキストが有効か

14 実験 日本語1億ページ[Shinzato et al. 08] 形態素解析・構文解析: 150CPUで1週間
60億文をuniqした16億文(250億語)を利用 以下の5つのコーパスサイズ(文数)で実験 6.3M, 25M, 100M, 400M, 1.6G 形態素解析・構文解析: 150CPUで1週間 3つのコンテキストベクトルを作成 (1日弱) (i) 単名詞, 曖昧性のある係り受け あり (ii) 単名詞, 曖昧性のある係り受け なし (iii) 複合名詞, 曖昧性のある係り受け なし

15 評価セット [相澤08] エイズや肝炎などの病気 寄与 プリンターや複写機などの消耗品 サボテン
タスクI × エイズや肝炎などの病気 寄与 (A) (B) (C) (D) (A)とシソーラスのカテゴリが異なり、Webでの頻度が同程度 タスクII タスクI × プリンターや複写機などの消耗品 サボテン × × タスクII タスク I News: 685表現, Web: 25,740表現 タスクII News: 876表現, Web: 2,019表現

16 類似度尺度評価 閾値を0.01から0.4まで0.01刻みで動かしてF-measureの最大値を求めた 尺度 Weight Measure
タスク II News Web B-S Simpson 0.985 0.973 0.807 0.876 B-J Jaccard 0.981 0.945 0.743 0.805 B-SJ SJ 0.988 0.975 0.817 0.878 Lin98 MI 0.949 0.748 Lin02 MI’ Cosine 0.984 0.955 0.758 0.818 Aizawa08 0.982 0.971 0.752 0.862 ※ β=2とした

17 コーパスサイズと精度の関係 (タスクI: Web)

18 曖昧性のある係り受けの有無 (Web)

19 語の単位:単名詞と複合名詞 (Web) 改善例:  正解: ○ 神経衰弱  ゲーム  正解: × ゴルフコース 大学

20 コンテキストの有効性評価 格 タスク I タスク II News Web - ガ 0.988 0.971 0.817 0.870 - ヲ
0.985 0.970 0.813 0.873 - ニ 0.987 0.810 0.871 - カラ 0.816 - ト 0.811 0.872 - ヘ - マデ - ヨリ - ノ 0.982 0.966 0.762 0.867 全て + デ 0.807

21 誤り分析 タスクIは自動生成したデータなので、類義語でないものを含む 多義語 形態素解析誤り 銀行や空港(などの場所)
記憶や学習(などの脳機能) 多義語 豚 マウス ヘリウム ネオン 形態素解析誤り もみすり → もみ(動詞)すり(動詞) つくばい → つく(動詞)ばい(名詞) ~に注射 ~の胎児 ~でドラッグ ~のホイール ~の原子 ~に変わる ~を消灯 ~が誘惑

22 まとめ 超大規模コーパスを用いた分布類似度計算 今後の予定 コーパスサイズを増やすことによって精度が向上することを確認
実験で用いたコーパスサイズでほぼ十分 曖昧性のある係り受けを除外 複合名詞の分布類似度 今後の予定 曖昧性解消の導入 動詞の類似度計算 計算済み類似度データベースを公開予定 分布類似度を用いて構築した格フレームを公開予定


Download ppt "超大規模ウェブコーパスを用いた 分布類似度計算"

Similar presentations


Ads by Google