Semantic Web 輪読会 2005年12月20日 濱崎雅弘 産業技術総合研究所

Slides:



Advertisements
Similar presentations
論文執筆の手引き 形式編 トップレベルの構成 Title page Abstract Introduction Main body Conclusions References.
Advertisements

エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
紹介担当: 石尾 隆(大阪大学) Q11.  Feature Model によって定義される「プロダクトの集合」 (プロダクトライン)の振舞いを検証する手法の拡張 ◦ 通常の振舞い検証: たとえば Promela を使って,1プロダクトの 振舞いを表現したオートマトンの取りうる状態遷移を調べる ◦
到着時刻と燃料消費量を同時に最適化する船速・航路計画
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
Building text features for object image classification
Cl-GBI法によるふるまいの グラフの類似に基づく 群れのモデルの提案
国内線で新千歳空港を利用している航空会社はどこですか?
Web2.0とは? テクノロジー、コミュニティ、ビジネス
On the Enumeration of Colored Trees
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
参照共起分析の Webディレクトリへの適用
先端論文紹介ゼミ Tracking control for nonholonomic mobile robots: Integrating the analog neural network into the backstepping technique 非ホロノミック移動ロボットのための追従制御:
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
データモデリング トップダウンモデルと ボトムアップモデルの融合
卒業論文のタイトルをここに (発表時間は5分です。 PPTスライドは10枚程度にまとめる事)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
コンピュータ上でICトレーナーを動かそう!!
中間発表用スライド 田中健太.
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
『省エネ法』 『トップランナー基準』 特定機器は2004年11月現在、『18品目』が対象中 『エネルギーの使用の合理化に関する法律』
Paper from PVLDB vol.7 (To appear in VLDB 2014)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
セマンティックWebの現在 ISWC2005参加報告
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
形態素解析および係り受け解析・主語を判別
データ分析入門(13) 第13章 主成分分析 廣野元久.
テキストの類似度計算
I-Scoverチャレンジ2013 ~I-Scoverでできる こんなこと、あんなこと~ データ分析/可視化カテゴリ 論文キーワードの特徴分析 ~どんなキーワードを付けているのか~ GOMI Hiroshi.
ML 演習 第 7 回 新井淳也、中村宇佑、前田俊行 2011/05/31.
Semi-Supervised QA with Generative Domain-Adaptive Nets
IPv6アドレスによる RFIDシステム利用方式
プログラム実行履歴を用いたトランザクションファンクション抽出手法
オントロジーを使用した プログラム開発支援システムの提案
ソフトウェア工学 知能情報学部 新田直也.
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―
複数の言語情報を用いたCRFによる音声認識誤りの検出
決定木とランダムフォレスト 和田 俊和.
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
コードクローンの分類に基づいた メソッド引き上げ手順の提案とその有効性評価
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
環境リスクマネジメントに関する 検索システム
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
WWW上の効率的な ハブ探索法の提案と実装
QRコードを用いたウェーブレット変換による 電子透かし
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
計算量理論輪講 chap5-3 M1 高井唯史.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
ISO23950による分散検索の課題と その解決案に関する検討
構造的類似性を持つ半構造化文書における頻度分析
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
情報ネットワーク 岡村耕二.
ソフトウェア理解支援を目的とした 辞書の作成法
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
Webページタイプによるクラスタ リングを用いた検索支援システム
MAUI Project 2009 インターネットにおける近接性
転移学習 Transfer learning
Elements of Style 第3回 2019年6月11日(火).
Presentation transcript:

Semantic Web 輪読会 2005年12月20日 濱崎雅弘 産業技術総合研究所 A Large Scale Taxonomy Mapping Evaluation Paolo Avesani(1), Fausto Giunchiglia(2), Mikalai yatskevich(2) (1) ITC-IRST (2) Dept. of Information and Communication Technology, University of Trento Semantic Web 輪読会 2005年12月20日 濱崎雅弘 産業技術総合研究所

Taxonomy mappingとは 二つの階層構造があったときに,対応する階層を発見する 利用例: 家電量販店のネット通販を統合したサイトを作ろう! でも各ショップごとに分類が違うからカタログ作りも大変だ・・   →mapping手法によって自動でカタログ統合が可能に 家電 家電 どのカテゴリが, どのカテゴリに対応? 冷蔵庫 テレビ ラジオ 冷蔵庫 AV機器 液晶 プラズマ TV コンポ

本論文の目的 Taxonomy Mappingの各手法を比較可能にするために評価セットを提案 代表的な手法で評価セットをテストする データセット 性能評価手法 代表的な手法で評価セットをテストする

論文の章立て Introduction The Matching Problem The Evaluation Problem Building a Large Scale Mapping Dataset The Empirical Evaluation Discussion of Results Complexity Discrimination Ability Incrementality Correctness Conclusions

2 Matching Problem やりたいこと 部分は似ているが全体としては異なる構造を 持つ、2つの階層構造を統合したい

代表的なMatching手法 Syntactic matching Semantic matching ラベルの字面から類似度を測る WordNetなどの語彙体系を用いて、 概念間の類似および上位下位関係も測る

3 The Evaluation Problem さまざまな手法が提案されているが比較評価ができていないのが現状 本論文の提案 Webディレクトリを用いた 巨大な評価用データセットの作成 Matching結果に対する評価指標の作成

Matching結果に対する評価指標 データセットとしてWebディレクトリを考える 各概念(ディレクトリ)はインスタンス(文書)を持つ 一致する文書数から概念間の関係を計算可能であるという仮説に基づいて評価指標を作る

概念AとBが似ている度合い 一致している部分が多いほど0に近づく A B Equivalence = A B

概念AがBの上位概念である度合い 概念Aと概念B、概念Aと概念Bの親、概念Bと概念Aの子、で共通している部分が多いと0に近づく Generalization = Bの親 A B Aの子

概念AがBの下位概念である度合い 概念Aと概念B、概念Aと概念Bの子、概念Bと概念Aの親、で共通している部分が多いと0に近づく Specialization = Aの親 A B Bの子

4 Building a Large Scale Mapping Dataset 評価用データセットとしてWebディレクトリを用いる Webディレクトリを用いる利点 それぞれが厳密なフォーマットにしたがっているわけではないがある程度の類似性があり、一般的なトピックをそれぞれカバーしている URLによって文書の同一性が保証される

評価データセットの作り方 対象とするWebディレクトリはGoogle、LookSmart、Yahooの3つ Step1. クロールしてデータを取得 Step2. 3つのディレクトリすべてが持っているURL以外は削除 Step3. URL数の少ないノードは削除(今回は10個以下) Step4. 使えそうなブランチを手作業で選択 Step5. 評価値を計算してノード間の関係を求める 三つの評価値を全ノードの組み合わせに対して計算し、 評価値を全体で[0,1]に正規化する。 閾値以下の評価値は削除する(今回は0.5) ある組み合わせに対して最も高い評価値が示す関係(類似、上位、下位)を、その組み合わせの関係とみなす

5 The Empirical Evaluation 複数の手法で実際に評価セットでテストする COMA S-Match Base line (適当につくったアルゴリズム)

COMA データスキーマの統合を目的とした,Matchingシステム 複数の手法を併用している点に特徴がある http://www.vldb.org/conf/2002/S17P03.pdf http://dbs.uni-leipzig.de/Research/meta-Dateien/COMA-vldb02.pdf

S-Match Step1:ラベルをシソーラスにマッピング Step2:ノードの概念を求める 例:Pictures → Picture、Wine and Cheese → Wine & Cheese Step2:ノードの概念を求める シソーラスにマッピングしたラベルを、現在地からルートまでさかのぼってつなげる Step3:ラベル間の類似度をシソーラスを使って計算 Step4:ラベル間の類似度からノード間の類似度を計算 http://drops.dagstuhl.de/opus/volltexte/2005/37/pdf/04391.GiunchigliaFausto1.Paper.37.pdf

Base line パス(を構成するラベル)の字面のマッチだけを使う 類似関係: 上位・下位関係: パスが字面も含めて同じ 一方のパスがもう一方の中に包含されている

結果

6 Discussion Results 提案する評価セットを4つの軸で評価する Complexity:問題として複雑かどうか Discrimination ability:手法ごとの特色が現れるか Incrementality:手法の弱点を発見できるか Corectness:評価の正確さ

6.1 Complexity COMAやS-Matchは70-80%のrecallと論文では報告されていたが、評価セットでは40%弱だった 問題は十分に難しかった

6.2 Discrimination Ability S-MatchとCOMAではそれぞれ発見できたペアが異なっている 各手法の差が現れた

6.3 Incrementality システムの問題発見に貢献できた S-Matchの例: 「Nazca_Lines」と「Nazca」が意味的に同じであることを発見できなかった アーティスト名をアルファベット順で分類するなど、概念的には変化のない分類の影響を受けてしまった その他10件ほどの問題点がわかり、それを元にS-Match++を作成した システムの問題発見に貢献できた

6.4 Correctness 問題ない誤り率であった 人手で評価セットによるMapping結果を確認したところ、60%程度が分析できたところで2~3%の誤りがあった 十分に巨大なデータセットの場合、Annotatorでも分類結果は20%程度しか一致しない傾向がある 問題ない誤り率であった

7 Conclusion Taxonomy Matchingのための評価セットを提案 評価セットを四つの指標で検討し、妥当性を示した Complexity Discrimination ability Incrementality Correctness