超大規模ウェブコーパスを用いた分布類似度計算

超大規模ウェブコーパスを用いた分布類似度計算
09/03/05 京都大学柴田知秀　黒橋禎夫

背景大規模コーパスを利用することにより言語処理の精度が向上分布類似度計算で大規模コーパスの利用
スペル訂正(100億語) [Lin and R.Curran 06] 言語モデルの機械翻訳での利用 (2兆語) [Brants et al. 07] 分布類似度計算で大規模コーパスの利用 6,400万語 [Lin98] 20億語 [Curran04] 4,000万Webページ [相澤08] 本研究ではウェブ1億ページ(250億語)を利用

概要大規模コーパスを利用することによって分布類似度計算の精度が向上するか曖昧性のある係り受けを除外することによる効果
どれくらいの規模があれば十分か曖昧性のある係り受けを除外することによる効果複合名詞の類似度計算どのコンテキストが有効か

目次分布類似度実験コンテキスト抽出分布類似度計算類似度尺度曖昧性のある係り受けの除外複合名詞の類似時計算
どのコンテキストが有効か

分布類似度意味の似た語は似たコンテキストで出現 [Firth57] 医師医者～の診察 8225 495 ～に相談 4374 1359
～の許可 1474 254 ～が増える 354 134 ～を志す 277 173 ～の不養生 25 類義語類似度主治医 0.437 ドクター 0.395 医者 0.382 教員 0.374 カウンセラー 0.368 獣医 0.350 「医師」の類義語 0.382

コンテキスト抽出 3つ組(w, r, w’)を抽出 rとして以下の格要素を考えるある語wが他の語w’と関係rで出現している
関係rとして係り受け関係がもっともよい[Lin98], [Curran04] 例: 医者が診察する → (医者, ガ, 診察) (r,w’)の組を語wの共起要素と呼ぶ rとして以下の格要素を考えるガ, ヲ, ニ, カラ, ト, ヘ, マデ, ヨリ, ノ

曖昧性のある係り受けを除外格フレーム構築時に曖昧性のある係り受けを除外[Kawahara and Kurohashi 01]
パンを焼いたけれども、… ？パンを焼いた余熱を利用して、…

語wの単位多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04] 語wの単位として単名詞と複合名詞を考える
人手によるシソーラスの25%は複合名詞複合名詞の分布類似度を計算したが精度が低下[Ingram and Curran07] 語wの単位として単名詞と複合名詞を考える複合名詞は文節内で最長のもの例: 携帯電話を購入した単名詞: 電話複合名詞: 携帯電話

分布類似度計算以下の二つのfunctionに分解 [Curran04] Weight function Measure function
医師医者～の診察 8225 11.4 495 8.7 ～に相談 4374 8.1 1359 7.3 ～の許可 1474 5.3 254 3.5 ～が増える 354 134 0.9 ～を志す 277 5.9 173 6.3

Weight function (wgt) FREQ MI MI’ Bβ 1 if MI > β; otherwise 0

Measure function COSINE LIN98 JACCARD SIMPSON JACCARD-SIMPSON

目次分布類似度実験コンテキスト抽出分布類似度計算類似度尺度曖昧性のある係り受けの除外複合名詞の類似時計算
どのコンテキストが有効か

実験日本語1億ページ[Shinzato et al. 08] 形態素解析・構文解析: 150CPUで1週間
60億文をuniqした16億文(250億語)を利用以下の5つのコーパスサイズ(文数)で実験 6.3M, 25M, 100M, 400M, 1.6G 形態素解析・構文解析: 150CPUで1週間 3つのコンテキストベクトルを作成 (1日弱) (i) 単名詞, 曖昧性のある係り受けあり (ii) 単名詞, 曖昧性のある係り受けなし (iii) 複合名詞, 曖昧性のある係り受けなし

評価セット [相澤08] エイズや肝炎などの病気寄与プリンターや複写機などの消耗品サボテン
タスクI × ○ エイズや肝炎などの病気寄与 (A) (B) (C) (D) ○ (A)とシソーラスのカテゴリが異なり、Webでの頻度が同程度タスクII ○ タスクI × ○ プリンターや複写機などの消耗品サボテン × × タスクII タスク I News: 685表現, Web: 25,740表現タスクII News: 876表現, Web: 2,019表現

類似度尺度評価閾値を0.01から0.4まで0.01刻みで動かしてF-measureの最大値を求めた尺度 Weight Measure
タスク II News Web B-S Bβ Simpson 0.985 0.973 0.807 0.876 B-J Jaccard 0.981 0.945 0.743 0.805 B-SJ SJ 0.988 0.975 0.817 0.878 Lin98 MI 0.949 0.748 Lin02 MI’ Cosine 0.984 0.955 0.758 0.818 Aizawa08 0.982 0.971 0.752 0.862 ※ β=2とした

コーパスサイズと精度の関係（タスクI: Web)

曖昧性のある係り受けの有無 (Web)

語の単位:単名詞と複合名詞 (Web) 改善例: 　正解: ○　神経衰弱　ゲーム　正解: × ゴルフコース大学

コンテキストの有効性評価格タスク I タスク II News Web - ガ 0.988 0.971 0.817 0.870 - ヲ
0.985 0.970 0.813 0.873 - ニ 0.987 0.810 0.871 - カラ 0.816 - ト 0.811 0.872 - ヘ - マデ - ヨリ - ノ 0.982 0.966 0.762 0.867 全て + デ 0.807

誤り分析タスクIは自動生成したデータなので、類義語でないものを含む多義語形態素解析誤り銀行や空港(などの場所)
記憶や学習(などの脳機能) 多義語豚　マウスヘリウム　ネオン形態素解析誤りもみすり → もみ(動詞)すり(動詞) つくばい → つく(動詞)ばい(名詞) ～に注射～の胎児 ‥ ～でドラッグ～のホイール～の原子～に変わる ‥ ～を消灯～が誘惑

まとめ超大規模コーパスを用いた分布類似度計算今後の予定コーパスサイズを増やすことによって精度が向上することを確認
実験で用いたコーパスサイズでほぼ十分曖昧性のある係り受けを除外複合名詞の分布類似度今後の予定曖昧性解消の導入動詞の類似度計算計算済み類似度データベースを公開予定分布類似度を用いて構築した格フレームを公開予定

超大規模ウェブコーパスを用いた分布類似度計算

Similar presentations

Presentation on theme: "超大規模ウェブコーパスを用いた分布類似度計算"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

超大規模ウェブコーパスを用いた 分布類似度計算

Similar presentations

Presentation on theme: "超大規模ウェブコーパスを用いた 分布類似度計算"— Presentation transcript:

Similar presentations

About project

フィードバック

超大規模ウェブコーパスを用いた分布類似度計算

Presentation on theme: "超大規模ウェブコーパスを用いた分布類似度計算"— Presentation transcript: