Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所

Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所
A Large Scale Taxonomy Mapping Evaluation Paolo Avesani(1), Fausto Giunchiglia(2), Mikalai yatskevich(2) (1) ITC-IRST (2) Dept. of Information and Communication Technology, University of Trento Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所

Taxonomy mappingとは二つの階層構造があったときに，対応する階層を発見する利用例：
家電量販店のネット通販を統合したサイトを作ろう！でも各ショップごとに分類が違うからカタログ作りも大変だ・・　　→mapping手法によって自動でカタログ統合が可能に家電家電どのカテゴリが，どのカテゴリに対応？冷蔵庫テレビラジオ冷蔵庫 AV機器液晶プラズマ TV コンポ

本論文の目的 Taxonomy Mappingの各手法を比較可能にするために評価セットを提案代表的な手法で評価セットをテストする
データセット性能評価手法代表的な手法で評価セットをテストする

論文の章立て Introduction The Matching Problem The Evaluation Problem
Building a Large Scale Mapping Dataset The Empirical Evaluation Discussion of Results Complexity Discrimination Ability Incrementality Correctness Conclusions

2 Matching Problem やりたいこと部分は似ているが全体としては異なる構造を持つ、２つの階層構造を統合したい

代表的なMatching手法 Syntactic matching Semantic matching ラベルの字面から類似度を測る
WordNetなどの語彙体系を用いて、概念間の類似および上位下位関係も測る

3 The Evaluation Problem
さまざまな手法が提案されているが比較評価ができていないのが現状本論文の提案 Webディレクトリを用いた巨大な評価用データセットの作成 Matching結果に対する評価指標の作成

Matching結果に対する評価指標データセットとしてWebディレクトリを考える各概念（ディレクトリ）はインスタンス（文書）を持つ
一致する文書数から概念間の関係を計算可能であるという仮説に基づいて評価指標を作る

概念AとBが似ている度合い一致している部分が多いほど0に近づく A B Equivalence ＝ A B

概念AがBの上位概念である度合い概念Aと概念B、概念Aと概念Bの親、概念Bと概念Aの子、で共通している部分が多いと0に近づく
Generalization ＝ Bの親 A B Aの子

概念AがBの下位概念である度合い概念Aと概念B、概念Aと概念Bの子、概念Bと概念Aの親、で共通している部分が多いと0に近づく
Specialization ＝ Aの親 A B Bの子

4 Building a Large Scale Mapping Dataset
評価用データセットとしてWebディレクトリを用いる Webディレクトリを用いる利点それぞれが厳密なフォーマットにしたがっているわけではないがある程度の類似性があり、一般的なトピックをそれぞれカバーしている URLによって文書の同一性が保証される

評価データセットの作り方対象とするWebディレクトリはGoogle、LookSmart、Yahooの３つ
Step1. クロールしてデータを取得 Step2. ３つのディレクトリすべてが持っているURL以外は削除 Step3. URL数の少ないノードは削除（今回は10個以下） Step4. 使えそうなブランチを手作業で選択 Step5. 評価値を計算してノード間の関係を求める三つの評価値を全ノードの組み合わせに対して計算し、評価値を全体で[0,1]に正規化する。閾値以下の評価値は削除する（今回は0.5）ある組み合わせに対して最も高い評価値が示す関係(類似、上位、下位)を、その組み合わせの関係とみなす

5 The Empirical Evaluation
複数の手法で実際に評価セットでテストする COMA S-Match Base line (適当につくったアルゴリズム）

COMA データスキーマの統合を目的とした，Matchingシステム複数の手法を併用している点に特徴がある

S-Match Step1：ラベルをシソーラスにマッピング Step2:ノードの概念を求める
例：Pictures → Picture、Wine and Cheese → Wine & Cheese Step2:ノードの概念を求めるシソーラスにマッピングしたラベルを、現在地からルートまでさかのぼってつなげる Step3:ラベル間の類似度をシソーラスを使って計算 Step4:ラベル間の類似度からノード間の類似度を計算

Base line パス（を構成するラベル）の字面のマッチだけを使う類似関係：上位・下位関係：パスが字面も含めて同じ
一方のパスがもう一方の中に包含されている

結果

6 Discussion Results 提案する評価セットを4つの軸で評価する Complexity：問題として複雑かどうか
Discrimination ability：手法ごとの特色が現れるか Incrementality：手法の弱点を発見できるか Corectness：評価の正確さ

6.1 Complexity COMAやS-Matchは70-80%のrecallと論文では報告されていたが、評価セットでは40%弱だった
問題は十分に難しかった

6.2 Discrimination Ability
S-MatchとCOMAではそれぞれ発見できたペアが異なっている各手法の差が現れた

6.3 Incrementality システムの問題発見に貢献できた S-Matchの例：
「Nazca_Lines」と「Nazca」が意味的に同じであることを発見できなかったアーティスト名をアルファベット順で分類するなど、概念的には変化のない分類の影響を受けてしまったその他１０件ほどの問題点がわかり、それを元にS-Match++を作成したシステムの問題発見に貢献できた

6.4 Correctness 問題ない誤り率であった
人手で評価セットによるMapping結果を確認したところ、60%程度が分析できたところで2~3%の誤りがあった十分に巨大なデータセットの場合、Annotatorでも分類結果は20％程度しか一致しない傾向がある問題ない誤り率であった

7 Conclusion Taxonomy Matchingのための評価セットを提案評価セットを四つの指標で検討し、妥当性を示した
Complexity Discrimination ability Incrementality Correctness

Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所

Similar presentations

Presentation on theme: "Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Semantic Web 輪読会 2005年12月20日 濱崎雅弘 産業技術総合研究所

Similar presentations

Presentation on theme: "Semantic Web 輪読会 2005年12月20日 濱崎雅弘 産業技術総合研究所"— Presentation transcript:

Similar presentations

About project

フィードバック

Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所

Presentation on theme: "Semantic Web 輪読会 2005年12月20日濱崎雅弘産業技術総合研究所"— Presentation transcript: