IIR輪講復習 #10 XML retrieval

Slides:



Advertisements
Similar presentations
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
Advertisements

第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
IIR輪講復習 #2 The term vocabulary and postings lists
基本情報技術概論 I 演習(第5回) 埼玉大学 理工学研究科 堀山 貴史
Webサービスに関する基本用語 Masatoshi Ohishi / NAOJ & Sokendai
第9回 2007年6月22日 応用Java (Java/XML).
第11回 整列 ~ シェルソート,クイックソート ~
Web2.0とは? テクノロジー、コミュニティ、ビジネス
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
Vanessa Lopez, Michele Pasin, and Enrico Motta
Bassモデルにおける 最尤法を用いたパラメータ推定
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Paper from PVLDB vol.7 (To appear in VLDB 2014)
卒研:データベースチーム 第4回 DOMを使った処理
テキストの類似度計算
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
LogStructuredFileSystem Servey
ML 演習 第 7 回 新井淳也、中村宇佑、前田俊行 2011/05/31.
1.調査詳細仕様・アウトプット方向性 パーソナルデータ収集モデル調査
IIR輪講復習 #5 Index compression
第11回 整列 ~ シェルソート,クイックソート ~
精密工学科プログラミング基礎Ⅱ 第3回資料 今回の授業で習得してほしいこと: 2次元配列の使い方 (前回の1次元配列の復習もします.)
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
IIR輪講復習 #4 Index construction
IIR輪講復習 #1 Boolean retrieval
9.1 DOMの概要 9.2 DOMプログラミングの基礎 9.3 DOMのプログラミング例
データモデリング Webページの検索とランキング
第10回 2007年6月29日 応用Java (Java/XML).
“Purely Functional Data Structures” セミナー
ビデオデータベース.
第8回 2007年6月15日 応用Java (Java/XML).
XBRLで記述された財務データを扱う言語処理系の提案
第7回 2007年6月8日 応用Java (Java/XML).
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
IIR輪講復習 #17 Hierarchical clustering
IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)
第14章 モデルの結合 修士2年 山川佳洋.
The Web as a graph 末次 寛之 清水 伸明.
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
第2回 2007年4月20日 応用Java (Java/XML).
Satoru Ishikawa Satoru Satake Denis Vazhenin
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
プログラミング 4 整列アルゴリズム.
クリアリングハウスと 空間データ交換システムの連携 - メタデータとXML - 平成11年2月10日 (株) NTTデータ 情報科学研究所
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
情報処理Ⅱ 第2回:2003年10月14日(火).
~let's take fun when you can do it~
Spatial Linker - 空間コンテンツ融合の研究 -
岩澤全規 理化学研究所 計算科学研究機構 粒子系シミュレータ研究チーム 2015年7月22日 AICS/FOCUS共催 FDPS講習会
モデル検査(5) CTLモデル検査アルゴリズム
コーディングパターンの あいまい検索の提案と実装
サポートベクターマシン Support Vector Machine SVM
設計情報の再利用を目的とした UML図の自動推薦ツール
情報工学概論 (アルゴリズムとデータ構造)
Advanced Data Structure 第3回
アルゴリズムとデータ構造1 2009年6月15日
Amicus: A Group Abstraction for Mobile Group Communications
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
テキストデータベース.
アルゴリズムとデータ構造 2010年6月17日
:: の扱い 長谷川啓.
情報処理Ⅱ 第2回 2004年10月12日(火).
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
応用Java(Java/XML) 第8回 2005年6月9日 植田龍男.
第8章 データベースシステムの発展 8.1 オブジェクトリレーショナルデータベース 8.2 分散データベース 8.3 インターネットとデータベース.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

IIR輪講復習 #10 XML retrieval

お知らせ たつをさんによる補足情報 復習資料おきば http://chalow.net/clsearch.cgi?cat=IIR http://bloghackers.net/~naoya/iir/ppt/

参考 http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント, スライドからの引用あり

10章のテーマ 構造化されたドキュメント(XML) に対する検索 構造を意識する場合の問題 Vector space model を XML 検索に拡張 XML 検索の定量的評価方法

structured retrieval XML retrieval = structured retrieval Parametric and zone search (6.1) はフラット XML retrieval はネストする

unstructured と structured の違い unstructured retrieval 検索対象の単位がドキュメント structured retrieval 検索対象の単位がドキュメント全体より小さい XML ツリーのサブツリー

DOM The XML document

XPath XML Document を path でアクセス no element! act/scene play//scene /play/title /play//title /scine/title title#Macbeth

XML context XPath の path = "XML context"

NEXI "Narrowed Extended XPath I"

Challanges in XML retrieval

1. ユーザーが返して欲しい部分木はどれ? "Shakespeare's plays for Macbeth's castle" play? act? scene? どの木のどのレベルがクエリに対して答えるのに適切か、というのを決めるのは困難

2. ドキュメントのどこをインデックス? 異なる複数のアプローチ それぞれに欠点あり ノードを重複しない擬似的なドキュメントへとまとめる 最も大きな要素を一つだけ扱い、部分木を検索結果への後処理で見つける (top down) bottom up 全要素をインデックス それぞれに欠点あり

3. 語の統計を計算する時の問題 idf 計算 "author/Gates" と "gate の複数系 gates" を併せて df を計算しても意味がない 別々に扱うと data sparseness 問題

4. Schema の異種性、多種性 q3 に対して d2, d3 は relevant だがマッチせず

Vector space model for XML retrieval

方針 制約に対して完璧にマッチしない要素は低くランクさせる。検索結果から除外はしない インデックス単位は structured term すべてのクエリを extended query として解釈する ベクトル空間モデルに context resemblance 関数 CR を導入する

structured term XML context / term pair ... <c,t> ※ これだけ lexicalized subtree だが structured term ではない

クエリを extended query として解釈

context resemblance function Cq クエリにおける path Cd ドキュメントにおける path |Cq| クエリ path 上のノード数 |Cd| ドキュメント path 上のノード数 Cq が Cd にマッチするのは別なノードを挿入することで Cq を Cd へと変形することができるとき

CR の計算例 CR(Cq4, Cd2) = 3 / 4 = 0.75 CR(Cq4, Cd3) = 3 / 5 = 0.6

Cosine Similarity に CR を加味 V ... Vocabulary of nonstructural terms B ... set of all XML contexts weight() ... Chapter 6 での idft・wft,d のような関数

SimNoMerge の実際 d9 の類似度 = 1.0 * 0.2 + 0.63 * 0.6 = 0.578 クエリに <c2,t> 以降もあるならそれらを加算 (Σ)

SimNoMerge の実装 クエリを structured terms に分割したものそれぞれに対しループ 全XMLコンテキストそれぞれに対しループ CR が 0 より大きいすなわち Cq を Cd へと変換できるとき 内積計算 (score[] が accumurator)

SimMerge SimMerge SimNoMerge の改良版 SimNoMerge のマッチ条件を緩くしたもの 詳しくは書籍内の参考文献

Evaluation of XML retrieval

INEX "INitiative for the Evaluation for XML retrieval" リファレンスコレクション、クエリ集合、関連性についての判定などを作成する協同的な取り組み

XML retrieval の評価 relevant / non-relevant の二値判定では検索結果の構造を評価できない 1. 構造 2. 内容の2軸で評価する CAS (content-and-structure)

component coverage

topical relevance highly relevant (3) fairly relevant (2) marginally relevant (1) nonrelevant (0)

relevance - coverage combinations

XML retrieval の評価 Q の値を recall, precision, F 値の算出に利用する relevant - non-relevan で 0 or 1 の binary だった箇所に Q を使う

おおまかな傾向 unstructured query → structured query では recall が下がり precision が上がる