IIR輪講復習 #2 The term vocabulary and postings lists

IIR輪講復習 #2 The term vocabulary and postings lists

お知らせたつをさんによる補足情報復習資料おきば http://chalow.net/clsearch.cgi?cat=IIR

参考本資料は書籍の輪読会に向けたサマリ資料内で一部上記ドキュメントからの引用あり

第2章前半の概要インデクシング前の前処理 Document delineation The vocabulary of terms の決定
リニアな文字列へのデコードドキュメント単位の決定 The vocabulary of terms の決定トークナイズストップワード正規化ステミング / lemmatization

1. Document delineation リニアな文字列へのデコードドキュメントの単位を決める

リニアな文字列にデコード bytes → linear sequene of characters エンコーディング様々なフォーマット
ASCII は trivial。UTF-8 などをどうするかヒューリスティクスユーザーに選択させるメタデータ様々なフォーマット Word Doc, zip, ppt, PDF, XML ... ドキュメントの種類に合わせて前処理するリニアな並びでない言葉アラビア語 digital representation に変換できる

ドキュメントの単位を決める粒度の違うドキュメント群 “Index granularity” (インデックスの粒度)
ファイル UNIX の mbox (1つのファイルに複数のメール) Zip (1つのファイルに複数のファイル) ppt (mbox とは逆、全体を一つに扱いたい) “Index granularity” (インデックスの粒度) Precision と recall のトレードオフ目的に合わせてちょうどよい単位にするそのためにはドメインをよく知ること例: ウェブ検索 → HTMLページ1枚で１件、ppt や pdf は複数ページで1件

2. the vocabulary of terms を決める
必要な作業トークナイズストップワードの導入正規化ステミング / 分類整理 (lemmatize)

トークナイズ

様々な問題どこで区切るか問題専門用語問題ハイフネーション問題ホワイトスペース問題言語固有の問題

どこで区切るか問題区切りが分からない “Mr. O’Neil” aren’t 対策方法クエリとドキュメント解析で同じトークナイザを使う

区切りと言語判定区切りは言語毎の問題言語判定重要短い文字列で十分判定できる特徴的なパターン

専門用語問題専門用語コンピュータ関連 C++, C# や B-52, M*A*S*H jblack@mail.yahoo.com
1Z9999W (トラッキング番号)

専門用語問題への対策インデクスから取り除く方法もありメタデータとして別にインデクス化ただし、検索の際の大きな制限になる
semantic type が明らかなものメールの日付など → 6.1

ハイフネーション問題 “Hewlett-Packard” “co-education”
“the hold-him-back-and-drag-him-away maneuver”

ホワイトスペース問題ホワイトスペース問題ハイフネーション問題と一部共通 Los Angels
White Space / whitespace ハイフネーション問題と一部共通 over-eager / over eager / overeager

ハイフネーション / WS への対策妥協案もっと良い方法は? 以下を同じ term とみなすユーザーにハイフンを使わせる
over-eager “over eager” overeager ユーザーにハイフンを使わせるもっと良い方法は? equivalence classing

言語ごとの問題言語固有の問題日本人涙目ドイツ語中国語 etc .. 単語境界がない漢字とひらがなとカタカナ
日本語は難しい。自然言語処理重要。

日本語のトークナイズ手法例大規模ボキャブラリから最長マッチ機械学習 (e.g 隠れマルコフモデル) N-gram

ストップワード

ストップワード the, as, a, an ... ストップリスト Web検索では使われないただし、やりすぎ良くない
出現頻度でソートして手で作る Web検索では使われない近年の IR システムではコストでない圧縮、rank、impact sorted indexes See Also: 5.3, 6.2.1, 7.1.5

正規化 (Normalization)

正規化 USA == U.S.A. term を、表層的に違っても意味は同じとみなすこと

equivalence classing 以下を同じ単語として扱う anti-discriminatory
後者に同じ Query Expansion に比較すると、機械的な処理

Query Expansion query expansion equivalence classing より柔軟
同意語の関係辞書を作る (人手、機械学習) car = automobile 詳しくは 9 章で

Query expantion の方法 x 2 Unnormalized なままインデクシング、クエリ拡張リストを別に用意
○ 空間 × 時間インデクシング中に対応辞書を作る × 空間 ○ 時間

やりすぎよくない equivalence classing も query expansion もやりすぎはよくない
○ U.S.A → USA × C.A.T → cat

よくやる正規化の一部#1 ステミングと lemmatization 後述

よくやる正規化の一部#2 アクセント記号、発音区別記号大文字と小文字英語での問題記号を削除
ユーザーは多くの場合 non-ASCII テキストは入力しないから大文字と小文字全部小文字にするほとんどのユーザーは小文字で検索する英語のヒューリスティクス「タイトルに出てくる全大文字もしくは殆ど大文字」「文中のセンテンスの capitalize されているもの」は残す英語での問題 ne’er => never, colour => color 日付 3/12/91 = Mar

英語以外の言語での正規化 Other languages 重要 Equivalence classing においてそれぞれの言語で固有の問題
WWW の 6割英語、4割が他言語今後も他言語は増えていく英語 blog は全世界で 1/3 でしかない Equivalence classing においてそれぞれの言語で固有の問題言語に特化したトークナイズ、正規化を行う日本語が良い例複数言語が混在しているドキュメントへの対応

ステミングと Lemmatization

Stemming / Lemmatization
語尾変化や派生などに対応する方法 am, are, is => be car, cars, car’s, cars’ => car equivalence classing の手法に含まれる

ステミング (Stemming) 基本語尾を chop アルゴリズムはあるものの、形態素解析などは行わない (文脈判断はあまりしない)
Porter 1980 Lovins 1968 Paice 1990

ステミング例例正確なステミングの結果ではなく、equivalence classes になるのが重要
caresses => caress ponies => poni cats => cat 正確なステミングの結果ではなく、equivalence classes になるのが重要

Lemmatization 形態素解析を行い “lemma” を求める問題点
ステミングよりも正確だが、パフォーマンスのトレードオフが大きい equivalence classing を構築するという観点ではステミング以上の効果はそれほど大きくない

今回のまとめインデクシング前の前処理の詳細 Practical か本格的にやるか日本語は日本語に特化した文献を参照する必要がありそう
実装にはそこまで踏み込まず文字列へのデコードトークナイズと正規化 Practical か本格的にやるか多くをカバーできるなら Practical に日本語は日本語に特化した文献を参照する必要がありそう

IIR輪講復習 #2 The term vocabulary and postings lists

Similar presentations

Presentation on theme: "IIR輪講復習 #2 The term vocabulary and postings lists"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

IIR輪講復習 #2 The term vocabulary and postings lists

Similar presentations

Presentation on theme: "IIR輪講復習 #2 The term vocabulary and postings lists"— Presentation transcript:

Similar presentations

About project

フィードバック