Activity Based Metadata for Semantic Desktop Search

Slides:



Advertisements
Similar presentations
マイクロソフトがホスティングする拡張性に優れたサービス ベース アプリケーション プラットフォーム.
Advertisements

RSS,Atom の動向 理工学部 情報学科 3 年 片山友輝. 発表内容 ・ RSS,Atom おさらい ・なぜ Atom ができたか? ・ Atom の特徴 ・ Atom の動向 ・ Atom フィードの記述方法 ・ Atom 対応ツール ・参考文献・資料.
この部分こそが必 要とされている ! Runtime 自身と Expression が カバーする!
Windows Azure ハンズオン トレーニング Windows Azure Web サイト入門.
BBT大学 Ruby on Rails開発環境セットアップマニュアル
IIS 4.0で開発をするコツ Webアプリケーション構築.
4.ユーザー登録マニュアル              Version 年6月10日 国立情報学研究所.
スクリーンショットの取り方 コラボエンドポイントスクリーンショットの取得 シスコシステムズ合同会社 テクニカルソリューションズアーキテクト
JPAを利用した RESTful Webサービスの開発
[グループ名]向けウェブナー [所属機関名] [日付] [発表者の氏名] [発表者の敬称/肩書]
よくある質問 1 ) E-Detectiveとは何ですか?
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
第1回レポートの課題 6月15日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
オープンデータ流通推進コンソーシアム 情報流通連携基盤外部仕様書の 改訂案
分散コンピューティング環境上の Webリンク収集システムの実装
Vanessa Lopez, Michele Pasin, and Enrico Motta
第3回ライブラリーシステム研究会 ユサコ株式会社
Microsoft Office InfoPath 2003 概要
Windows Summit /13/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
Microsoft Office 2010 クイックガイド ~ファイルの互換性編~
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
OSS-EAI ドキュメント生成ツール 利用マニュアル
データはお客様に属し、かつ、コントロール可能
Netscape Communicator Eudora Microsoft Word
資料4-3 平成26年度第3回 技術委員会 外部仕様書・ツール群の状況報告
Outlook で送信したメールの 添付ファイルが消える
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
There are 5 wearing verbs in Japanese depending on the part of body or the item being worn.
Mobility Microsite Geographic Marketing Japan March 2012
Piggy Bank: Experience the Semantic Web Inside Your Web Browser
セマンティックWebの現在 ISWC2005参加報告
Full Text Finder Publication Finder の概要
チュートリアル EBSCOhostの概要
Windows Summit /6/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
Windows Summit /8/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Estimating Position Information by Detecting Network-Connection
On / in / at Honoka Tanno.
センサネットワークにおける グルーピング機構
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
Microsoft Partner Network Office 365 社内使用ライセンスの有効化
導入予定価格円(仮) 導入予定サービス名 こんな繰り返し作業にうんざりしていませんか? 求人ページ 社内システム
第12回 2007年7月13日 応用Java (Java/XML).
CINAHL データベース チュートリアル 基本検索 featuring:
暗黙的に型付けされる構造体の Java言語への導入
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
理学部 情報科学科 指導教官 千葉 滋 助教授 学籍番号 03_03686 内河 綾
Microsoft Visual Studio 2005 Tools for
ユーザ毎にカスタマイズ可能な Webアプリケーションの 効率の良い実装方法
Term paper, Report (1st, first)
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
MIX 09 2/23/2019 1:22 PM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
Windows Summit /24/2019 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
半構造化テキストに対する 文字列照合アルゴリズム
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
Term paper, report (2nd, final)
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
情報コミュニケーション入門e 第12回 Part1 Web入門(2)
コーディングパターンの あいまい検索の提案と実装
Windows Summit 2010 © 2010 Microsoft Corporation.All rights reserved.Microsoft、Windows、Windows Vista およびその他の製品名は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。
The difference between adjectives and adverbs
新メールアカウント 簡易設定法 神奈川技術士会 GoogleApps および 新メールアカウント 神奈川技術士会
情報コミュニケーション入門e 第12回 Part1 Web入門(2)
Term paper, report (2nd, final)
Microsoft Office 2010 クイックガイド ~ファイルの互換性編~
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
Stefania Ghita, Wolfgang Nejdl, and Raluca Paiu 東京電機大学 土屋 吉寛
Presentation transcript:

Activity Based Metadata for Semantic Desktop Search Paul-Alexandru Chirita, Rita Gavriloaie, Stefania Ghita, Wolfgang Nejdl, and Raluca Paiu ESWC 2005, Heraklion, Greece 山田@NII

Activity Based Metadata for Semantic Desktop Search contributions コンテキスト情報を用いたデスクトップ検索を提案 コンテキスト情報はデスクトップでの特定的な特徴 コンテキスト情報と既存の情報の統合->メタデータ生成 重要な事項:メタデータの生成のタイミングとメタデータの構造 提案したものに基づくアーキテクチャとプロトタイプを提示 コンテキスト情報:ある状況下であらゆる角度でみたときに重要であると思われる要素 アイデア,なんらかの要素,人物,発行者(物)等々 レレバントな関連するもの全部.

背景 ハードディスクの容量の増加 デスクトップ上で何か探すことが困難に 何か探すときweb上の方が探しやすくなってしまった. PageRankingアルゴリズムの影響 デスクトップ上での検索がなぜ困難なのか web上で利用できたものが利用できない(e.g.リンク情報) デスクトップ上では代わりに何を用いるのか デスクトップ上での,固有のコンテキスト情報を用いることを選択 (e-mailでの情報,ディレクトリ階層構造,ブラウジング時の振る舞い等)

コンテキストメタデータと検索, コンテキスト情報の表示 ユーザはあるコンテキストに物事を結びつける傾向がある デスクトップ検索の結果をリッチにするためにコンテキスト情報を使用すべき. Webサーチのユーザの振る舞い Navigational : URLがわからなくなった,特定のwebサイトの検索. Informational : 興味があるトピックに関する情報を探す. Resource seeking : 特定のリソース(流行歌,地図サービス等)を探したい デスクトップ検索の対象はNavigational. 現在のデスクトップ検索ではデスクトップ特有の情報(コンテキスト情報)を用いていない. それらの例 (シナリオ): Email context 明らかに有用である情報であるが現在の検索では用いられていない. 例: ある物事に関する質問が含まれたメール.同じスレッド内の他のメールにはその答えが添付のドキュメント内にあるかもしれない. メールに添付してあるドキュメントをPC上に格納するとき,メールにあった情報が欠落してしまう. File hierarchy context まれに用いられる. Web cache context ユーザのブラウジングのビヘイビア. レレバントな結果を探すときや結果の追加となるコンテキストを提供するときにこれを使用.

現在あるデスクトップ検索アプリケーション Google desktop search : (使ってますか?) URL : http://desktop.google.com 対象: Email (Outlook, Outlook Express, Netscape, Thunderbird) ファイル (Text, Word, Excel, PowerPoint, PDF, Music, Video, Images) Web History (IE, Netscape, Mozilla, Firefox, Opera) Chats (AOL Instant Messaging) MSN desktop search application URL : http://beta.toolbar.msn.com Spotlight Search URL : http://www.apple.com/macosx/tiger/spotlight.html For Mac OS X Beagle desktop search  この論文の成果でこれを拡張 (Beagle++) URL : http://gnome.org/projects/beagle Open source project for Linux

Integrating Context Metadata Within Desktop Search

Exploiting Email Context シナリオ: distributed page rankingに興味がある人が仲間とこのトピックについて議論したことを覚えている. この仲間はメールで何らかの記事を送っていた. この記事はdistributed PageRankには触れていないが,distributed trust networks(同じようなトピック)には触れている. enhanced desktop searchで,この記事を検索する.

Email Prototype Association Rules : 自動的にメタデータ生成するために必要 String Date name reply_to sent accessed to Person belongs_to MailAddress Mail body String from has_attachment status subject File stored_as Attachment String String Association Rules : 自動的にメタデータ生成するために必要

Exploiting File Hierarchy Context シナリオ: Hanover(inドイツ)で撮った写真を探す. いつも訪れた都市名や地域名をディレクトリ名にしたところへ写真を格納 ディレクトリ名を忘れた場合,通常の検索では写真を探すことが困難. このシナリオではドイツで撮ったことは覚えている. しかし“ドイツ”はファイル名やディレクトリ構造には現れない.

File Prototype Association Rules :以下の関連はWordNetを利用することで派生 WordNet VisitedWebPage Attachment String Date stored_from stored_from type last_accessed owned_by Person File last_modified Date in_directory in_directory name created Date Directory String name subClassOf 最も重要なプロパティ. 現在のファイルシステムで欠落している, 情報の起源示すことが可能 String hypernym_to hyponym_to WordNetTerm holonym_to meronym_to WordNet 語彙参照可能なシステム :類義語等をサポート synonym_to Association Rules :以下の関連はWordNetを利用することで派生

Exploiting the Web Cache 1つめ シナリオ: とある企業のインターシップのwebページを検索. 以前そのページを訪れたことがある. そのページにはその企業のトップページからキーワードサーチで直接ジャンプしたが,キーワードを忘れてしまった. デスクトップ検索で最後に訪れたときのそのwebページのリンクのリストを提示することが目的になる.可視化する. WebPage Prototype Date File accessed_at stored_as 可視化するときに利用 VisitedWebPage departed_to arrived_from

Exploiting the Web Cache 2つめ シナリオ: CiteSeerでの特定のトピックの論文をブラウズ. 参照先ともっともレレバントな論文をダウンロード. それらの論文をデスクトップ上にすぐさま格納.論文間の関係がわからなくなってしまった. デスクトップ検索ではこの情報を保存し,これらを利用可能な形でメタデータを作成することが求められる. Publication Prototype : WebPage を拡張したもの VisitedWebPage subClassOf subClassOf references referenced_by subClassOf Publication PDF_file stored_as_pdf stored_as_ps PS_file subClassOf subClassOf File Association Rule

Desktop Search Architecture and Prototype

Beagle++: ドキュメントを探す Interface: Googleと同様にシンプルに Indexing : full-text index と additional metadata index の2つ

Beagle++: Additional Contextの表示

メタデータの生成,Indexing event triggered metadata generation メタデータの生成,indexingはon-the-fly(ファイルの修正のイベントが引き金になる) イベントを監視する機能が必要 (ファイルの新規作成,メールの受信等を監視) Linux 上で実現 (イベントを監視するために inotify-enabled linux kernelを用いる) metadata generation applications イベントのタイプやコンテキストに依存. メタデータ生成:適切なmetadata generator application で実行 metadata generator application: Email Metadata Generator Web Cache Metadata Generator File Metadata Generator

metadata generation applications Email Metadata Generator JavaMail APIを利用 受信したメールはMessage クラス(JavaMailで定義)から派生した個々のクラスへ振り分け 受信したメールから生成されたメタデータの情報 (Fig.1を参考に)  Sender and Recipient, Subject, Body and Status, Date when the email was sent or accessed, Attachments, etc. Metadata : RDFとして格納,Jena toolkit (Semantic Web application 構築用Javaフレームワーク) を利用 File Metadata Generator 実装 : Java とJWNL API 生成したメタデータ:Type of the file, Name, Date of creation, Date of last change, Location of file on the disk, WordNet additional metadata for the file name and the path to the file アノテーション : RDFファイルとして格納 Web Cache Metadata Generator Indexing : キャッシュしていないページのブラウジングが引き金 アノテーション : Access date,Connections between web pages (hyperlinks of the current page are traversed) 生成されたメタデータ : RDFファイルとして格納

Conclusions & Future Work contextual information  ほしいものを見つける,探したいものの利用頻度が増える Future Work: 一般的なコンテキストの表示 コンテキスト情報を用いたデスクトップでのランキング 同じことに興味があるグループメンバ間でのリソースやコンテキスト情報の交換  social semantic desktop 備考: 検索では大きく2つの問題がある. 検索結果がないので見つける 結果が多すぎるので困る この論文では前者が対象,future workでは後者も考慮+α

付録 WordNet English lexical reference system POS – nouns, adjectives, adverbs, verbs organized in synonym sets Relationships: Meronym - The name of a constituent part of, the substance of, or a member of something. X is a meronym of Y if X is a part of Y. Holonym - The name of the whole of which the meronym names a part. Y is a holonym of X if X is a part of Y. Hyponym - The specific term used to designate a member of a class. X is a hyponym of Y if X is a (kind of) Y. Hypernym - The generic term used to designate a whole class of specific instances. Y is a hypernym of X if X is a (kind of) Y. Synonym - a set of words that are interchangeable in some context. X is a synonym of Y if Y can substitute X in a certain context without altering the meaning. WordNet - Example <rdf:Description rdf:about="file:\\C:\beautiful\home\plant\cat.txt"> <j.0:sense>computerized_tomography</j.0:sense> <j.0:hyponym>jaguar</j.0:hyponym> <j.0:hypernym>feline</j.0:hypernym> <j.0:location_info> <rdf:Description rdf:about="file:\\C:\beautiful\"> <j.0:synonym>ravishing</j.0:synonym> <j.0:sense>beautiful</j.0:sense> </rdf:Description> </j.0:location_info>