IIR輪講復習 #2 The term vocabulary and postings lists

Slides:



Advertisements
Similar presentations
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
Advertisements

コンピュータ基礎実習上級 #4 拡張子、 URL 、ファイル名 一般教育研究センター 安田豊. ファイル名と拡張子 ファイルには名前が付けられている 区別のため。整理などに便利に利用するとよい。 abc.html ピリオドによってファイル名を前後に分ける習慣がある。 ピリオドの左は整理のために自由な名前を選べる.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
情報基礎A 情報科学研究科 徳山 豪.
最大エントロピーモデルに基づく形態素解析と辞書による影響
Unix の ファイルシステム(File System)
文字列検出ツール "istrings" の使い方
Webアプリケーション開発の 基本的なポイント
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
JavaScript プログラミング入門 2006/11/10 神津.
コンパイラ 2011年10月17日
言語体系とコンピュータ 第5回.
Java I 第2回 (4/18)
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
共同ローカリゼーション フレームワーク 井上 謙次.
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
テキストの類似度計算
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
EBSCOhost 詳細検索 チュートリアル support.ebsco.com.
コンパイラ 2012年10月15日
IIR輪講復習 #5 Index compression
日本語解析済みコーパス管理ツール 「茶器」
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
C-2 導入プレゼン1 国際交流って何?.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
IIR輪講復習 #4 Index construction
自然言語処理及び実習 第11回 形態素解析.
2004/05/13 3-4 データ型(カラムタイプ) について 発表者:藤村元彦 自然言語処理研究室.
IIR輪講復習 #1 Boolean retrieval
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
Office IME 2010 を使う.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
IIR輪講復習 #10 XML retrieval
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
文字の表現.
IIR輪講復習 #17 Hierarchical clustering
IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)
知識情報演習Ⅲ(後半第3回) 辻 慶太
文字エンコーディング 2010年7月.
テキストマイニング, データマイニングと 社会活動のトレース
情報処理Ⅱ 第2回:2003年10月14日(火).
知識情報演習Ⅲ(後半第3回) 辻 慶太
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
資料2-2 平成26年度 第2回技術委員会資料 次年度検討テーマ案
図書館ガイダンス “30分でおさえる論文入手法”
構造的類似性を持つ半構造化文書における頻度分析
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
自然言語処理2015 Natural Language Processing 2015
ソフトウェア理解支援を目的とした 辞書の作成法
第10回 質問(3) メール講座 Next Stage:翻訳力アップ自己トレ(1)
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

IIR輪講復習 #2 The term vocabulary and postings lists

お知らせ たつをさんによる補足情報 復習資料おきば http://chalow.net/clsearch.cgi?cat=IIR http://bloghackers.net/~naoya/iir/ppt/

参考 http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 資料内で一部上記ドキュメントからの引用あり

第2章前半の概要 インデクシング前の前処理 Document delineation The vocabulary of terms の決定 リニアな文字列へのデコード ドキュメント単位の決定 The vocabulary of terms の決定 トークナイズ ストップワード 正規化 ステミング / lemmatization

1. Document delineation リニアな文字列へのデコード ドキュメントの単位を決める

リニアな文字列にデコード bytes → linear sequene of characters エンコーディング 様々なフォーマット ASCII は trivial。UTF-8 などをどうするか ヒューリスティクス ユーザーに選択させる メタデータ 様々なフォーマット Word Doc, zip, ppt, PDF, XML ... ドキュメントの種類に合わせて前処理する リニアな並びでない言葉 アラビア語 digital representation に変換できる

ドキュメントの単位を決める 粒度の違うドキュメント群 “Index granularity” (インデックスの粒度) ファイル UNIX の mbox (1つのファイルに複数のメール) Zip (1つのファイルに複数のファイル) ppt (mbox とは逆、全体を一つに扱いたい) “Index granularity” (インデックスの粒度) Precision と recall のトレードオフ 目的に合わせてちょうどよい単位にする そのためにはドメインをよく知ること 例: ウェブ検索 → HTMLページ1枚で1件、ppt や pdf は複数ページで1件

2. the vocabulary of terms を決める 必要な作業 トークナイズ ストップワードの導入 正規化 ステミング / 分類整理 (lemmatize)

トークナイズ

トークナイズ Friend, Romans, Countrymen, lend me your ears Friends | Romans | Countrymen | lend | me | your | ears

様々な問題 どこで区切るか問題 専門用語問題 ハイフネーション問題 ホワイトスペース問題 言語固有の問題

どこで区切るか問題 区切りが分からない “Mr. O’Neil” aren’t 対策方法 クエリとドキュメント解析で同じトークナイザを使う

区切りと言語判定 区切りは言語毎の問題 言語判定重要 短い文字列で十分判定できる 特徴的なパターン

専門用語問題 専門用語 コンピュータ関連 C++, C# や B-52, M*A*S*H jblack@mail.yahoo.com 142.32.48.231 1Z9999W998453999981 (トラッキング番号)

専門用語問題への対策 インデクスから取り除く方法もあり メタデータとして別にインデクス化 ただし、検索の際の大きな制限になる semantic type が明らかなもの メールの日付など → 6.1

ハイフネーション問題 “Hewlett-Packard” “co-education” “the hold-him-back-and-drag-him-away maneuver”

ホワイトスペース問題 ホワイトスペース問題 ハイフネーション問題と一部共通 Los Angels White Space / whitespace ハイフネーション問題と一部共通 over-eager / over eager / overeager

ハイフネーション / WS への対策 妥協案 もっと良い方法は? 以下を同じ term とみなす ユーザーにハイフンを使わせる over-eager “over eager” overeager ユーザーにハイフンを使わせる もっと良い方法は? equivalence classing

言語ごとの問題 言語固有の問題 日本人涙目 ドイツ語 中国語 etc .. 単語境界がない 漢字とひらがなとカタカナ 日本語は難しい。自然言語処理重要。

日本語のトークナイズ手法例 大規模ボキャブラリから最長マッチ 機械学習 (e.g 隠れマルコフモデル) N-gram

ストップワード

ストップワード the, as, a, an ... ストップリスト Web検索では使われない ただし、やりすぎ良くない 出現頻度でソートして手で作る Web検索では使われない 近年の IR システムではコストでない 圧縮、rank、impact sorted indexes See Also: 5.3, 6.2.1, 7.1.5

正規化 (Normalization)

正規化 USA == U.S.A. term を、表層的に違っても意味は同じとみなすこと

equivalence classing 以下を同じ単語として扱う anti-discriminatory 後者に同じ Query Expansion に比較すると、機械的な処理

Query Expansion query expansion equivalence classing より柔軟 同意語の関係辞書を作る (人手、機械学習) car = automobile 詳しくは 9 章で

Query expantion の方法 x 2 Unnormalized なままインデクシング、クエリ拡張リストを別に用意 ○ 空間 × 時間 インデクシング中に対応辞書を作る × 空間 ○ 時間

やりすぎよくない equivalence classing も query expansion もやりすぎはよくない ○ U.S.A → USA × C.A.T → cat

よくやる正規化の一部#1 ステミングと lemmatization 後述

よくやる正規化の一部#2 アクセント記号、発音区別記号 大文字と小文字 英語での問題 記号を削除 ユーザーは多くの場合 non-ASCII テキストは入力しないから 大文字と小文字 全部小文字にする ほとんどのユーザーは小文字で検索する 英語のヒューリスティクス 「タイトルに出てくる全大文字もしくは殆ど大文字」「文中のセンテンスの capitalize されているもの」は残す 英語での問題 ne’er => never, colour => color 日付 3/12/91 = Mar. 12 1991 ...

英語以外の言語での正規化 Other languages 重要 Equivalence classing においてそれぞれの言語で固有の問題 WWW の 6割英語、4割が他言語 今後も他言語は増えていく 英語 blog は全世界で 1/3 でしかない Equivalence classing においてそれぞれの言語で固有の問題 言語に特化したトークナイズ、正規化を行う 日本語が良い例 複数言語が混在しているドキュメントへの対応

ステミングと Lemmatization

Stemming / Lemmatization 語尾変化や派生などに対応する方法 am, are, is => be car, cars, car’s, cars’ => car equivalence classing の手法に含まれる

ステミング (Stemming) 基本語尾を chop アルゴリズムはあるものの、形態素解析などは行わない (文脈判断はあまりしない) Porter 1980 Lovins 1968 Paice 1990

ステミング例 例 正確なステミングの結果ではなく、equivalence classes になるのが重要 caresses => caress ponies => poni cats => cat 正確なステミングの結果ではなく、equivalence classes になるのが重要

Lemmatization 形態素解析を行い “lemma” を求める 問題点 ステミングよりも正確だが、パフォーマンスのトレードオフが大きい equivalence classing を構築するという観点ではステミング以上の効果はそれほど大きくない

今回のまとめ インデクシング前の前処理の詳細 Practical か本格的にやるか 日本語は日本語に特化した文献を参照する必要がありそう 実装にはそこまで踏み込まず 文字列へのデコード トークナイズと正規化 Practical か本格的にやるか 多くをカバーできるなら Practical に 日本語は日本語に特化した文献を参照する必要がありそう