超大規模ウェブコーパスを用いた 分布類似度計算

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
実テキスト解析をささえる 語彙知識の自動獲得
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語体系とコンピュータ 第5回.
意味属性の共起による 「AのB」型名詞句の翻訳規則
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
人工知能概論 第12回 言語と論理(1) 自然言語処理
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
日本語複合動詞の習得研究 ―使用実態の調査を中心に
部分形態素解析を用いた コーパスの品詞体系変換
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
述語項構造に基づいた統計 翻訳における語句の並べ替え
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
USB2.0対応PICを用いたデータロガーの製作
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
型付きアセンブリ言語を用いた安全なカーネル拡張
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
交番における手話から日本語への 変換システムの検討
テキストマイニング, データマイニングと 社会活動のトレース
文書分類モデルの統計的性質に関する一考察
意味・談話解析勉強会 チュートリアル 小町守.
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
大規模コーパスに基づく同義語・多義語処理
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
■ 背景 ■ 目的と作業内容 分子動力学法とフェーズフィールド法の融合による 粒成長の高精度解析法の構築 jh NAH
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

超大規模ウェブコーパスを用いた 分布類似度計算 09/03/05 京都大学 柴田 知秀 黒橋 禎夫

背景 大規模コーパスを利用することにより言語処理の精度が向上 分布類似度計算で大規模コーパスの利用 スペル訂正(100億語) [Lin and R.Curran 06] 言語モデルの機械翻訳での利用 (2兆語) [Brants et al. 07] 分布類似度計算で大規模コーパスの利用 6,400万語 [Lin98] 20億語 [Curran04] 4,000万Webページ [相澤08] 本研究ではウェブ1億ページ(250億語)を利用

概要 大規模コーパスを利用することによって分布類似度計算の精度が向上するか 曖昧性のある係り受けを除外することによる効果 どれくらいの規模があれば十分か 曖昧性のある係り受けを除外することによる効果 複合名詞の類似度計算 どのコンテキストが有効か

目次 分布類似度 実験 コンテキスト抽出 分布類似度計算 類似度尺度 曖昧性のある係り受けの除外 複合名詞の類似時計算 どのコンテキストが有効か

目次 分布類似度 実験 コンテキスト抽出 分布類似度計算 類似度尺度 曖昧性のある係り受けの除外 複合名詞の類似時計算 どのコンテキストが有効か

分布類似度 意味の似た語は似たコンテキストで出現 [Firth57] 医師 医者 ~の診察 8225 495 ~に相談 4374 1359 ~の許可 1474 254 ~が増える 354 134 ~を志す 277 173 ~の不養生 25 類義語 類似度 主治医 0.437 ドクター 0.395 医者 0.382 教員 0.374 カウンセラー 0.368 獣医 0.350 「医師」の類義語 0.382

コンテキスト抽出 3つ組(w, r, w’)を抽出 rとして以下の格要素を考える ある語wが他の語w’と関係rで出現している 関係rとして係り受け関係がもっともよい[Lin98], [Curran04] 例: 医者が診察する → (医者, ガ, 診察) (r,w’)の組を語wの共起要素と呼ぶ rとして以下の格要素を考える ガ, ヲ, ニ, カラ, ト, ヘ, マデ, ヨリ, ノ

曖昧性のある係り受けを除外 格フレーム構築時に曖昧性のある係り受けを除外[Kawahara and Kurohashi 01] パンを焼いたけれども、… ? パンを焼いた余熱を利用して、…

語wの単位 多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04] 語wの単位として単名詞と複合名詞を考える 人手によるシソーラスの25%は複合名詞 複合名詞の分布類似度を計算したが精度が低下[Ingram and Curran07] 語wの単位として単名詞と複合名詞を考える 複合名詞は文節内で最長のもの 例: 携帯電話を購入した 単名詞: 電話 複合名詞: 携帯電話

分布類似度計算 以下の二つのfunctionに分解 [Curran04] Weight function Measure function 医師 医者 ~の診察 8225 11.4 495 8.7 ~に相談 4374 8.1 1359 7.3 ~の許可 1474 5.3 254 3.5 ~が増える 354 134 0.9 ~を志す 277 5.9 173 6.3

Weight function (wgt) FREQ MI MI’ Bβ 1 if MI > β; otherwise 0

Measure function COSINE LIN98 JACCARD SIMPSON JACCARD-SIMPSON

目次 分布類似度 実験 コンテキスト抽出 分布類似度計算 類似度尺度 曖昧性のある係り受けの除外 複合名詞の類似時計算 どのコンテキストが有効か

実験 日本語1億ページ[Shinzato et al. 08] 形態素解析・構文解析: 150CPUで1週間 60億文をuniqした16億文(250億語)を利用 以下の5つのコーパスサイズ(文数)で実験 6.3M, 25M, 100M, 400M, 1.6G 形態素解析・構文解析: 150CPUで1週間 3つのコンテキストベクトルを作成 (1日弱) (i) 単名詞, 曖昧性のある係り受け あり (ii) 単名詞, 曖昧性のある係り受け なし (iii) 複合名詞, 曖昧性のある係り受け なし

評価セット [相澤08] エイズや肝炎などの病気 寄与 プリンターや複写機などの消耗品 サボテン タスクI × ○ エイズや肝炎などの病気 寄与 (A) (B) (C) (D) ○ (A)とシソーラスのカテゴリが異なり、Webでの頻度が同程度 タスクII ○ タスクI × ○ プリンターや複写機などの消耗品 サボテン × × タスクII タスク I News: 685表現, Web: 25,740表現 タスクII News: 876表現, Web: 2,019表現

類似度尺度評価 閾値を0.01から0.4まで0.01刻みで動かしてF-measureの最大値を求めた 尺度 Weight Measure タスク II News Web B-S Bβ Simpson 0.985 0.973 0.807 0.876 B-J Jaccard 0.981 0.945 0.743 0.805 B-SJ SJ 0.988 0.975 0.817 0.878 Lin98 MI 0.949 0.748 Lin02 MI’ Cosine 0.984 0.955 0.758 0.818 Aizawa08 0.982 0.971 0.752 0.862 ※ β=2とした

コーパスサイズと精度の関係 (タスクI: Web)

曖昧性のある係り受けの有無 (Web)

語の単位:単名詞と複合名詞 (Web) 改善例:  正解: ○ 神経衰弱  ゲーム  正解: × ゴルフコース 大学

コンテキストの有効性評価 格 タスク I タスク II News Web - ガ 0.988 0.971 0.817 0.870 - ヲ 0.985 0.970 0.813 0.873 - ニ 0.987 0.810 0.871 - カラ 0.816 - ト 0.811 0.872 - ヘ - マデ - ヨリ - ノ 0.982 0.966 0.762 0.867 全て + デ 0.807

誤り分析 タスクIは自動生成したデータなので、類義語でないものを含む 多義語 形態素解析誤り 銀行や空港(などの場所) 記憶や学習(などの脳機能) 多義語 豚 マウス ヘリウム ネオン 形態素解析誤り もみすり → もみ(動詞)すり(動詞) つくばい → つく(動詞)ばい(名詞) ~に注射 ~の胎児 ‥ ~でドラッグ ~のホイール ~の原子 ~に変わる ‥ ~を消灯 ~が誘惑

まとめ 超大規模コーパスを用いた分布類似度計算 今後の予定 コーパスサイズを増やすことによって精度が向上することを確認 実験で用いたコーパスサイズでほぼ十分 曖昧性のある係り受けを除外 複合名詞の分布類似度 今後の予定 曖昧性解消の導入 動詞の類似度計算 計算済み類似度データベースを公開予定 分布類似度を用いて構築した格フレームを公開予定