大規模コーパスに基づく同義語・多義語処理

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
初めてのパソコン目次へ パソコンでできること
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
日本語複合動詞の習得研究 ―使用実態の調査を中心に
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
ネットワーク情報概論 ネットワーク情報化社会を支える半導体産業 -- 技術と歴史 --
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
データベース設計 データベース設計 第0回 オリエンテーション 坂口利裕.
日本語解析済みコーパス管理ツール 「茶器」
DMLA 小町守 半教師あり学習 チュートリアル.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
平成22年6月15日 図書系職員のための アプリケーション開発講習会
地域未来投資促進法に基づく千歳市基本計画及び支援策
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
マイコンによるLEDの点灯制御 T22R003 川原 岳斗.
情報コミュニケーション入門b 第7回 Part1 情報処理とコンピュータ
情報コミュニケーション入門e 第3回 Part1 [講義]情報処理とコンピュータ
機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守.
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
コンピュータの歴史 ~1945年からの実用過程~ メンバー:秋田梨紗 (1E16M001-1) 梅山桃香 (1E16M010-2)
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
知識情報演習Ⅲ(後半第2回) 辻 慶太
請求項記述言語(PCML)による特許文章の構造化
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
ディジタル信号処理 Digital Signal Processing
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
入退室管理システム“TAG Lion”の開発
意味・談話解析勉強会 チュートリアル 小町守.
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
シソーラスとは? ①文章作成用の類義語辞典 → 普通に書店に売っている。 『日本語大シソーラス』 (大修館書店) など。
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
科学研究費補助金 特定領域研究 確率的情報処理への 統計力学的アプローチ 平成14年度研究成果発表会
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
コンピュータの五大要素 入力装置 データ(プログラム)を取り込む 出力装置 処理結果のデータを外部に取り出す
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
情報コミュニケーション入門e 第3回 Part1 [講義]情報処理とコンピュータ
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
自然言語処理2016 Natural Language Processing 2016
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
1.2 言語処理の諸観点 (1)言語処理の利用分野
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

大規模コーパスに基づく同義語・多義語処理 京都大学 黒橋研究室 柴田知秀 電子タグを普及させる上での問題点 インフォームドコンセント ◆ 自然言語処理において、同義語・多義語の扱いが常に問題となる - 検索, 翻訳, 質問応答など ◆ 本発表の概要 - 国語辞典・Wikipedia・大規模コーパスから同義語・多義語を自動抽出 - 大規模コーパスを用いて、同義語のマージ、教師なし多義性解消 IC(集積回路)=インフォームドコンセント! RFID=電子タグ 課題=問題 科研情報爆発で開発している検索エンジン基盤「TSUBAKI」において表現のずれを吸収 多義性解消を行なっていないため不適切なマッチングが生じてしまう 国語辞典・Wikipedia・大規模コーパスからの同義語・多義語・上位語の自動抽出 大規模コーパスから分布類似度計算 ◆ 「分布の類似した語は意味も類似している」 [Firth 57] ◆ Web5億文から、係り受けに曖昧性のない用言・格要素を抽出 ◆ 用言vと格cのペアを共起要素eと呼ぶ - 例: 「荷物を積む」 → 「積む:ヲ」が共起要素 ◆ 名詞を共起要素のベクトルで表す - 名詞と共起要素が相互情報量が正のものを利用 ◆ 分布類似度: 共起要素の重複率 国語辞典からの同義語・上位語抽出 ◆ 定義文のパターンで抽出 - 上位語 -- 夕食: 夕方の食事 - 同義語 -- アイス: 「アイスクリーム」の略 -- 購入: 買うこと (1文節) ◆高い網羅性で基本語彙の関係を抽出できるが、比喩的/例外的な関係も含む - 犬:1/2 → 動物 0.353 - 犬:2/2 = スパイ 0.204 - 水道:1/2 = 上水道 0.362 - 水道:2/2 = 海峡 0.115 分布類似度の低いものを捨てる 荷物 = (1,  1,   1,   1,   0, …,  0) 荷揚げ:ヲ 搬入:ヲ なる:ニ 届く:ガ 食べる:ヲ 集散:ヲ 物資 = (1,  1,   0,   1,   1, …,  0) 大規模コーパスから同義語抽出 ◆ 括弧表現を利用 - ..A(B).., ..B(A).. → A=B ◆ 国語辞典からは抽出できない固有名詞・専門用語・新語の同義語を抽出できる - 国際連合教育科学文化機関 = ユネスコ - 大規模集積回路 = IC - 大規模集積回路 = LSI - 携帯電話 = ケータイ 教師なし多義性解消 ◆ 同義語(または上位語)をクエリとしてTSUBAKIから100件の文書を取得 ◆ 同一文に出現する内容語を素性としてSVMモデルを学習 分布類似度が高いものをマージ …半導体集積回路(LSI)や電子部品などの電子デバイスに関する… …春日インターチェンジは、京都府京都市西京区を通過する京都縦貫自動車道… Wikipediaからの多義語抽出 ◆ 曖昧さ回避ページを利用 IC:1/7 集積回路 IC:2/7 インタークーラー IC:3/7 インターチェンジ IC:4/7 インフォームド・コンセント … IC:7/7リンパ球性脈絡髄膜炎 IC:1/7 集積回路 大規模集積回路 LSI IC:2/7 インタークーラー IC:3/7 インターチェンジ IC:4/7 インフォームド・コンセント インフォームドコンセント … IC:7/7 リンパ球性脈絡髄膜炎 SYNGRAPHデータ構造 [Shibata et al. 08] まとめと今後の課題 同義表現データベース ◆ 同義グループにSYNIDを付与 SYNGRAPHデータ構造 ◆ 依存構造木に同義/上位表現を付与 ◆国語辞典・Wikipedia・大規模コーパスから同義語・多義語を自動抽出 ◆ 大規模コーパスを用いて、同義語のマージ、教師なし多義性解消 ◆ 今後の課題 - 多義性解消を行なった同義語処理を検索エンジンTSUBAKIに実装 - NTCIRの検索コレクションで評価 半導体 、 <IC:4> 1.0 IC:4 インフォームドコンセント インフォームド・コンセント アナログ 1.0 基本ノード(灰色) (自立語+付属語) IC の <IC:1> 1.0 多義性解消 <団体> IC:1 集積回路 インテグレーション:4 <IC:1> の 0.99   団体 電子 1.0 SYNノード(白色) 同義グループを表す 部品 1.0 会社 1.0 <MCP:3> <アカデミー> <会社> <会社> MCP:3 アカデミー 学士院 会社 企業 0.99 <団体> 0.7