The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology +ISI - Semantic Web Group, University of Hannover 2005/10/6 松岡有希@総研大
概要 いかにパーソナライズ化したコンテンツ収集をセマンティックwebで実現できるか Personal Reader Framework 分散している non-uniform Web data をSemantic Web data へ Personal Reader Framework Web content Readers を可能にするためのフレームワーク 複数のサービスコンポーネントから成るオープンアーキテクチャ Personal Publication Reader Personal Reader Framework を利用 ユーザに適したWeb上の論文情報を収集・表示 Webからの情報抽出 実時間で、動的に パーソナライズ化 オントロジを利用
Motivation シナリオ ピーターは大学で研究者として働いている。ジャーナルや学会で論文を出版し、同時に学会HPに論文をアップロードしている。次から次へと、新しい論文を、所属するプロジェクトに報告しなければならない。プロジェクトではメンバーや活動内容、研究成果について書かれたメンバーページを管理している。 質問 メンバーページのメンテナンス作業を軽減したり、データの重複は避けることはできないのか? プロジェクト上で役に立つ文脈情報を利用できないのか? Webページから関連する情報を抽出できないのか? ユーザがほしい情報を集めることはできないのか?
The Personal Reader Framework The Personal Web Content Readersを実現 ユーザが興味を持つwebコンテンツへのアクセス(the Personal part)と表示(the Reader part) アーキテクチャ さまざまなvisualization, personalizationサービスから構成 XML, RDF, JSP, XML-based-RPC ユーザに適したサービスを選ぶことができる(Plug & Play)
Personal Publication Reader REWERSE プロジェクトのメンバーのwebサイトから論文情報を取得・表示 処理内容 Webから論文に関する部分を抽出・統合 Lixto Visual Wrapper, Lixto Transformation Server オントロジに基づいて推論し、情報をメタデータ化 ユーザに適した論文データの表示 visualization, personalizationサービス 対象ドメイン REWERSE – Reasoning on the Web (http://rewerse.net/) EUの支援を受けている 現メンバーは130人ほど
Web Data Extraction and Integration Lixto Visual Wrapper 可視化、インタラクティブといった特徴を持つ、ラッパー*を生成するためのツール データを抽出している間にさらにドキュメントに対して処理が可能 ユーザー定義がページの上でもはや満たされない場合、警告される *自動的にデータを抽出したり、データを異なるフォーマットに変換したりするプログラム
Web Data Extraction and Integration Lixto Transformation Server いろいろなコンテンツを取得・統合し、適切なフォーマットに変換して、他のシステムへ配信 他のWebサービスによって制御・カスタマイズできる ユーザが統合するコンテンツを決めることができる
Publication Data on the Web
Gathering Web Data Lixto Visual Wrapper を使ってデータを抽出 Munichさんの例 Titleはイタリック文字で書かれている Authorはハイパーリンクで表示されていて、titleの前にある Linkoppoingさんの場合、ハイパーリンクで表示されているのもあれば、単にカンマで区切られているだけのものも いろんな種類のフィルターを用意する Yearは、年ごとの各ページの1行目にある ラッパーは下記のようなXMLデータを生成
Visual Data Aggregation Lixto Transformation serverがデータを収集し、RDFに変換し、1週間に1回Personal Publication Reader に配信 足りない情報を追加することができる 例)www.researchindex.com からアブストラクトのデータを貰ってくる
Modeling Domain Knowledge 論文データから抜粋した情報とREWERSE-Ontologyをマッピング Semantic Web Research Community Ontology (SWRC) を拡張したもの “helper” ontology 著者のフルネームを記述 F. Bry, Franqis Bry, Prof. F. Bry
REWERSE-Ontology
Content Syndication and Personalized Views Personalization はリクエストとルールの結果がマッチするときに実現 ルールはTRIPLE syntax を採用 例)“interest in personalized information systems” ルールを扱うのは、Personalization server
Screenshot of the Personal Publication Reader
まとめ The Personal Publication Reader Semantic Web でパーソナライズな情報システムを実現