超大規模ウェブコーパスを用いた分布類似度計算

Slides:

Advertisements

Similar presentations

英作文支援システムの構築に関する研究平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易稔中間発表.

Advertisements

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

利用者のプライバシを保護する協調フィルタリング方式の提案 7adrm011 木澤寛厚. 背景商品の量が多い見つからない orz ネットショップ.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

実テキスト解析をささえる語彙知識の自動獲得

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

形態素周辺確率を用いた分かち書きの一般化とその応用

言語体系とコンピュータ第5回.

意味属性の共起による「AのB」型名詞句の翻訳規則

国内線で新千歳空港を利用している航空会社はどこですか？

知識情報演習Ⅲ（後半第1回）辻慶太（水）

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析

人工知能概論第12回言語と論理(1) 自然言語処理

動詞と格要素の共起と名詞の出現パターンを用いた事態性名詞の項構造解析

テキストマイニング，データマイニングと社会活動のトレース

１．自然言語処理システム２．単語と形態素３．文節と係り受け

日本語複合動詞の習得研究 ―使用実態の調査を中心に

部分形態素解析を用いたコーパスの品詞体系変換

事態性名詞の項構造解析に向けた述語項構造に関する資源の作成

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

述語項構造に基づいた統計翻訳における語句の並べ替え

形態素解析および係り受け解析・主語を判別

テキストの類似度計算

USB2.0対応PICを用いたデータロガーの製作

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。

自動車レビューにおける検索と分析Ｈ２０８０３２　松岡智也Ｈ２０８０６０中西潤Ｈ２０８０８２　松井泰介.

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

大規模時系列ウェブコーパスを用いた新造語の盛衰のダイナミズムの分析

検索エンジンを利用した Covert Channelの検出

自然言語処理及び実習第11回　形態素解析.

型付きアセンブリ言語を用いた安全なカーネル拡張

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

画像ピボットパラフレーズ抽出に向けて大阪大学 NAIST Chenhui Chu,1 大谷まゆ,2 中島悠太1

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

Entity-Centricな述語項構造解析・共参照解析の同時学習

利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成

Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

移動エントロピーによる動的ネットワーク化を用いたＳＮＳと商品購買の相互関係の分析

＜日本語教育とAI：研究実践例と今後の課題＞読解支援システムへのAI活用の可能性と留意点

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

形態素解析ドライバモデルの実装とコーパスの品詞体系変換への応用

交番における手話から日本語への変換システムの検討

テキストマイニング，データマイニングと社会活動のトレース

文書分類モデルの統計的性質に関する一考察

意味・談話解析勉強会チュートリアル小町守.

コードクローン分類の詳細化に基づく集約パターンの提案と評価

ブースティングとキーワードフィルタリングによるシステム要求検出

構造的類似性を持つ半構造化文書における頻度分析

データ工学特論第六回木村昌臣.

設計情報の再利用を目的とした UML図の自動推薦ツール

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

発表32 レポート評価支援について（剽窃部分と指導箇所の検出）

大規模コーパスに基づく同義語・多義語処理

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

■ 背景 ■ 目的と作業内容分子動力学法とフェーズフィールド法の融合による粒成長の高精度解析法の構築 jh NAH

並列構造に着目した係り受け解析の改善に関する研究

シソーラス情報を用いた童話文章登場人物の感情情報読み取りシステム

Webページタイプによるクラスタリングを用いた検索支援システム

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

実都市を対象とした初期マイクロデータの推定手法の適用と検証

Presentation transcript:

超大規模ウェブコーパスを用いた分布類似度計算 09/03/05 京都大学柴田知秀　黒橋禎夫

背景大規模コーパスを利用することにより言語処理の精度が向上分布類似度計算で大規模コーパスの利用スペル訂正(100億語) [Lin and R.Curran 06] 言語モデルの機械翻訳での利用 (2兆語) [Brants et al. 07] 分布類似度計算で大規模コーパスの利用 6,400万語 [Lin98] 20億語 [Curran04] 4,000万Webページ [相澤08] 本研究ではウェブ1億ページ(250億語)を利用

概要大規模コーパスを利用することによって分布類似度計算の精度が向上するか曖昧性のある係り受けを除外することによる効果どれくらいの規模があれば十分か曖昧性のある係り受けを除外することによる効果複合名詞の類似度計算どのコンテキストが有効か

目次分布類似度実験コンテキスト抽出分布類似度計算類似度尺度曖昧性のある係り受けの除外複合名詞の類似時計算どのコンテキストが有効か

目次分布類似度実験コンテキスト抽出分布類似度計算類似度尺度曖昧性のある係り受けの除外複合名詞の類似時計算どのコンテキストが有効か

分布類似度意味の似た語は似たコンテキストで出現 [Firth57] 医師医者～の診察 8225 495 ～に相談 4374 1359 ～の許可 1474 254 ～が増える 354 134 ～を志す 277 173 ～の不養生 25 類義語類似度主治医 0.437 ドクター 0.395 医者 0.382 教員 0.374 カウンセラー 0.368 獣医 0.350 「医師」の類義語 0.382

コンテキスト抽出 3つ組(w, r, w’)を抽出 rとして以下の格要素を考えるある語wが他の語w’と関係rで出現している関係rとして係り受け関係がもっともよい[Lin98], [Curran04] 例: 医者が診察する → (医者, ガ, 診察) (r,w’)の組を語wの共起要素と呼ぶ rとして以下の格要素を考えるガ, ヲ, ニ, カラ, ト, ヘ, マデ, ヨリ, ノ

曖昧性のある係り受けを除外格フレーム構築時に曖昧性のある係り受けを除外[Kawahara and Kurohashi 01] パンを焼いたけれども、… ？パンを焼いた余熱を利用して、…

語wの単位多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04] 語wの単位として単名詞と複合名詞を考える人手によるシソーラスの25%は複合名詞複合名詞の分布類似度を計算したが精度が低下[Ingram and Curran07] 語wの単位として単名詞と複合名詞を考える複合名詞は文節内で最長のもの例: 携帯電話を購入した単名詞: 電話複合名詞: 携帯電話

分布類似度計算以下の二つのfunctionに分解 [Curran04] Weight function Measure function 医師医者～の診察 8225 11.4 495 8.7 ～に相談 4374 8.1 1359 7.3 ～の許可 1474 5.3 254 3.5 ～が増える 354 134 0.9 ～を志す 277 5.9 173 6.3

Weight function (wgt) FREQ MI MI’ Bβ 1 if MI > β; otherwise 0

Measure function COSINE LIN98 JACCARD SIMPSON JACCARD-SIMPSON

目次分布類似度実験コンテキスト抽出分布類似度計算類似度尺度曖昧性のある係り受けの除外複合名詞の類似時計算どのコンテキストが有効か

実験日本語1億ページ[Shinzato et al. 08] 形態素解析・構文解析: 150CPUで1週間 60億文をuniqした16億文(250億語)を利用以下の5つのコーパスサイズ(文数)で実験 6.3M, 25M, 100M, 400M, 1.6G 形態素解析・構文解析: 150CPUで1週間 3つのコンテキストベクトルを作成 (1日弱) (i) 単名詞, 曖昧性のある係り受けあり (ii) 単名詞, 曖昧性のある係り受けなし (iii) 複合名詞, 曖昧性のある係り受けなし

評価セット [相澤08] エイズや肝炎などの病気寄与プリンターや複写機などの消耗品サボテンタスクI × ○ エイズや肝炎などの病気寄与 (A) (B) (C) (D) ○ (A)とシソーラスのカテゴリが異なり、Webでの頻度が同程度タスクII ○ タスクI × ○ プリンターや複写機などの消耗品サボテン × × タスクII タスク I News: 685表現, Web: 25,740表現タスクII News: 876表現, Web: 2,019表現

類似度尺度評価閾値を0.01から0.4まで0.01刻みで動かしてF-measureの最大値を求めた尺度 Weight Measure タスク II News Web B-S Bβ Simpson 0.985 0.973 0.807 0.876 B-J Jaccard 0.981 0.945 0.743 0.805 B-SJ SJ 0.988 0.975 0.817 0.878 Lin98 MI 0.949 0.748 Lin02 MI’ Cosine 0.984 0.955 0.758 0.818 Aizawa08 0.982 0.971 0.752 0.862 ※ β=2とした

コーパスサイズと精度の関係（タスクI: Web)

曖昧性のある係り受けの有無 (Web)

語の単位:単名詞と複合名詞 (Web) 改善例: 　正解: ○　神経衰弱　ゲーム　正解: × ゴルフコース大学

コンテキストの有効性評価格タスク I タスク II News Web - ガ 0.988 0.971 0.817 0.870 - ヲ 0.985 0.970 0.813 0.873 - ニ 0.987 0.810 0.871 - カラ 0.816 - ト 0.811 0.872 - ヘ - マデ - ヨリ - ノ 0.982 0.966 0.762 0.867 全て + デ 0.807

誤り分析タスクIは自動生成したデータなので、類義語でないものを含む多義語形態素解析誤り銀行や空港(などの場所) 記憶や学習(などの脳機能) 多義語豚　マウスヘリウム　ネオン形態素解析誤りもみすり → もみ(動詞)すり(動詞) つくばい → つく(動詞)ばい(名詞) ～に注射～の胎児 ‥ ～でドラッグ～のホイール～の原子～に変わる ‥ ～を消灯～が誘惑

まとめ超大規模コーパスを用いた分布類似度計算今後の予定コーパスサイズを増やすことによって精度が向上することを確認実験で用いたコーパスサイズでほぼ十分曖昧性のある係り受けを除外複合名詞の分布類似度今後の予定曖昧性解消の導入動詞の類似度計算計算済み類似度データベースを公開予定分布類似度を用いて構築した格フレームを公開予定