参照共起分析の Webディレクトリへの適用

Slides:



Advertisements
Similar presentations
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
インターネットの利用 教科書 P22~27,36~41 埼玉県立大宮武蔵野高等学校・情報科.
最新ファイルの提供を保証する代理FTPサーバの開発
検索エンジン最適化.
「わかりやすいパターン認識」 第1章:パターン認識とは
情報処理基礎 2006年 6月 1日.
分散コンピューティング環境上の Webリンク収集システムの実装
Webネットワークにおける 研究者間の分析
前回までの配布資料(Webにないもの):教室の後方
前回までの配布資料(Webにないもの):教室の後方
テキストマイニング, データマイニングと 社会活動のトレース
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
検索サイトの話 情報社会と情報倫理 1/22/09.
本研究の概要 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
IPv6アドレスによる RFIDシステム利用方式
プログラム実行履歴を用いたトランザクションファンクション抽出手法
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
動的依存グラフの3-gramを用いた 実行トレースの比較手法
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
インターネット利用法実習 経営工学基礎演習a(第3週).
Internet広域分散協調サーチロボット の研究開発
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
Webネットワークにおける 研究者間の分析
テキストマイニング, データマイニングと 社会活動のトレース
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
情報共有による Z39.50データベース選択支援環境
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
国立国会図書館の インターネット上の 情報資源に対する取り組み
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
Webページのグループ化による 静的動的スコアリング
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
ISO23950による分散検索の課題と その解決案に関する検討
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
保守請負時を対象とした 労力見積のためのメトリクスの提案
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
地理情報コンテンツ・データベースコンテンツ新規作成
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

参照共起分析の Webディレクトリへの適用 NTT未来ねっと研究所 ○原田昌紀 風間一洋 佐藤進也 harada@ingrid.core.ntt.co.jp

研究の背景 サーチエンジン Webディレクトリ ロボットが収集したデータを利用して、 Webディレクトリの構築を自動化できないか? =ロボット+全文検索エンジン ○ Webページ単位で詳細な   検索ができる。 ○ 網羅性が高い。 × 質の低いWebページが   検索される(スパムもある)。 Webディレクトリ =人手で収集、評価、分類 ○ Webサイト単位で階層的に   分類されている。 ○ 完成度の高いWebサイト   のみが登録されている。 × 網羅性が低い。 維持と構築に要する 人的コストが問題。 ロボットが収集したデータを利用して、 Webディレクトリの構築を自動化できないか?

発表の概要 研究の目的とアプローチ 関連研究 Webディレクトリ拡大手順の提案 関連Webサイト発見アルゴリズム(2種類) 評価実験 まとめ

本研究の目的とアプローチ 目的:Webディレクトリの自動拡大の実現 アプローチ 各カテゴリに分類されたWebサイト群を元に、 ロボットで収集したデータから、 それらに関連するWebサイトを発見し、 登録Webサイト数を増大させる。 ハイパーリンクによる参照関係の解析を応用 与えられたWebサイト群に関連し、 重要度の高いWebサイトを発見する ことが狙い。

関連研究: テキストの自動分類 テキストの自動分類 ハイパーテキストの自動分類 問題点 多数のカテゴリへの高精度の分類は困難。 関連研究: テキストの自動分類 テキストの自動分類 テキストをあらかじめ決められたカテゴリに分類する。 ハイパーテキストの自動分類 ノードをあらかじめ決められたカテゴリに分類する。 近傍のノードの分類結果によって補正する。 問題点 多数のカテゴリへの高精度の分類は困難。 Web上のテキストは多様であり、特に難しい。 テキストの自動分類によるWebディレクトリ構築は困難。 →テキストの内容を用いない方法を検討する。

関連研究:特定トピックのオーソリティ発見 HITS [Kleinberg1998] トピックを表すキーワード の検索結果の近傍から オーソリティとハブを抽出。 オーソリティ…多数のハブから参照される、重要なWebページ。 ハブ…多数のオーソリティを参照する、リンク集的なWebページ。 カテゴリ名によるオーソリティ発見…詳細な分類には不向き。 ・・・ ・・・ ハブ オーソリティ 例:ゲーム全般 /ゲーム/   ゲーム販売店 /ショッピング/趣味とおもちゃ/ゲーム/   ゲーム開発企業 /ビジネス/エンターテインメント/ゲーム/

関連研究: 関連Webページ発見手法 参照共起関係 関連Webページ発見アルゴリズム 共通のリンク元でハイパーリンクの位置がL以内にあること。 関連Webページ発見アルゴリズム 与えられたWebページと関連するオーソリティを発見する。 → Webディレクトリに登録すべきWebサイトを発見できる。 : リンク6 リンク7 リンク8 リンク9 シードWebページ L以内 関連Webページ

Webディレクトリ拡大手順 1. 大域Webグラフを作成する。 2. 各カテゴリで関連Webサイトを発見する。

1.大域Webグラフの作成 ロボットで大量のWebページを収集し、それらの参照関係からWebグラフを作成する。 WWWサーバ間のハイパーリンクのみ辺とする。 Webサイトを点としたWebグラフを作成。 Webディレクトリにおける検索の単位。 実装では同じサーバで同じパスを持つファイル群をWebサイトとみなした。 http://www.ntt.co.jp/product/ http://www.ntt.co.jp/product/index-j.html http://www.ntt.co.jp/product/product.html http://www.ntt.co.jp/product/*

2.関連Webサイト発見アルゴリズムの適用 例:ビジネス/食品/飲料/酒類 http://www.asahibeer.co.jp/ http://www.gekkeikan.co.jp/ http://www.kirin.co.jp/ http://www.moritakk.com/ http://www.ozeki.co.jp/ http://www.sapporobeer.co.jp/ http://www.suntory.co.jp/ http://www.asahibeer.co.jp/ http://www.gekkeikan.co.jp/ http://www.kirin.co.jp/ http://www.moritakk.com/ http://www.ozeki.co.jp/ http://www.sapporobeer.co.jp/ http://www.suntory.co.jp/ http://www.budweiser.co.jp/ http://www.takara.co.jp/ http://www.heineken.co.jp/ http://www.kirin-seagram.co.jp/ http://j-entertain.co.jp/guiness/ http://www.kizakura.co.jp/ http://www.hakutsuru.co.jp/ : 関連度 22.1 19.5 14.4 12.5 11.8 8.8 8.2  : 関連Webサイト発見 アルゴリズムを適用

3.重複Webサイトの削除 重複して発見されたWebサイトは関連度が最大のカテゴリのみに残す。 ビジネス/食品/飲料 ビジネス/食品/食材・調味料 http://www.cocacola.co.jp/ http://www.morinagamilk.co.jp/ http://www.nestle.co.jp/ http://www.ucc.co.jp/ http://www.yakult.co.jp/ http://www.ajinomoto.co.jp/ http://www.nipponham.co.jp/ http://www.sangaria.co.jp/ http://www.dydo.co.jp/ http://www.cclemon.com/ : http://www.hanamaruki.co.jp/ http://www.heiwa-food.co.jp/ http://www.soysauce.or.jp/ http://www.kagome.co.jp/ http://www.marukome.co.jp/ http://www.ajinomoto.co.jp/ http://www.nipponham.co.jp/ http://www.higeta.co.jp/ http://www.takeya-miso.co.jp/ http://nitanda.com/ http://www.aohata.co.jp/ : 関連度 9.9 8.9 8.4 8.1 7.7 5.8 : 関連度 11.1 9.2 8.3 7.7 5.9 5.7  :

関連Webサイト発見アルゴリズム 関連Webページ発見アルゴリズムを拡張。 複数のシードに関連するWebサイトを発見する。 ステップ3で比較可能な関連度を出力する。 (1) Companion+ シードセットの近傍にHITSを適用し、オーソリティを発見。 (2) MultiCocitation 多くのシードと参照共起関係にあるWebサイトを発見。

(1) Companion+ Companion+[豊田2000]を複数シードに拡張。 シードセット全体の近傍からオーソリティを発見する。 (近傍:参照元Webサイト+参照共起関係にあるWebサイト) 関連度= (オーソリティスコア)2 ×近傍Webサイト数 シードセット

(2) MultiCocitation Cocitation[Dean1998]を複数シードに拡張。 多くの異なるシードと参照共起関係にあるWebサイトを発見。 関連度=参照共起関係にあるシードの数 + 0.1×Σシードと参照共起する回数 シード シードセット 関連Webサイト(関連度: 1.3) 関連Webサイト(関連度: 2.2)

評価実験: 対象データ Webディレクトリ 大域Webグラフ Open Directory Projectの日本語カテゴリ 評価実験: 対象データ Webディレクトリ Open Directory Projectの日本語カテゴリ http://dmoz.org/World/Japanese/ 登録Webサイト数 6,143URL カテゴリ数 702 大域Webグラフ サーチエンジンODINの検索対象Webページ Webディレクトリの登録サイトを起点として収集。 総Webページ数 約1130万URL 辺となるハイパーリンク 約1350万本 辺の起点 約80万個,辺の終点 約110万個

実験1: 精度の評価 関連Webサイトが正しいカテゴリに配置されるか? 各カテゴリから、評価用Webサイトを一つずつ取り出す。 実験1: 精度の評価 関連Webサイトが正しいカテゴリに配置されるか? 各カテゴリから、評価用Webサイトを一つずつ取り出す。 それらを除いたWebディレクトリに拡大手順を施す。 評価用Webサイトが発見されたときの精度を評価。      元々のカテゴリで発見された評価用Webサイト 精度=         評価用Webサイトのうち発見されたもの 注意:元々Webディレクトリに登録されていたWebサイトのみを評価。

実験1:精度の評価結果 各カテゴリで最大N件の関連Web サイトを発見した場合の精度 MultiCocitationは実用的な精度を達成。 Companion+ではトピックドリフトが発生。 被参照数の大きいシードにのみ関連するWebサイトが発見されやすい。

実験1:シードセットサイズと発見精度 登録Webサイト数が大きいカテゴリでは精度が低下

実験2-1: 適合度の評価 被験者:ネットワーク分野の研究者8名。 カテゴリ:被験者がよく知っている分野を2つ。 実験2-1: 適合度の評価 被験者:ネットワーク分野の研究者8名。 カテゴリ:被験者がよく知っている分野を2つ。 関連Webサイトのトピックとの適合性を判断。 適合する +2点 どちらかといえば適合する +1点 評価不能(アクセスできないなど)  0点 どちらかといえば適合しない -1点 適合しない -2点 カテゴリの適合度=関連Webサイト全体の平均点 注意:分類精度の評価とは異なる。

実験2-1: 適合度の評価 Companion+ 平均0.99 MultiCocitation 平均1.44 実験2-1: 適合度の評価 Companion+ 平均0.99 MultiCocitation 平均1.44 カテゴリによって適合度の高低がある。 × アート/映画/洋画 ○ /音楽/ビートルズ ○ニュース/新聞

実験2-1: 適合度の評価 適合度の低いカテゴリがある理由 リンク集における分類と、Webディレクトリの分類の不一致。 実験2-1: 適合度の評価 適合度の低いカテゴリがある理由 リンク集における分類と、Webディレクトリの分類の不一致。 例:アート/映画/洋画…邦画のWebサイトが発見される。 近傍Webグラフが小さい カテゴリでは、少数の関 連Webサイトしか得られ ない。 シードセット中に被参照 数の大きいWebサイト が一つは必要。

実験2-2: 重要度の評価 登録する価値があるWebサイトが発見されるか? 各カテゴリで重要度(平均点)を比較 実験2-2: 重要度の評価 登録する価値があるWebサイトが発見されるか? 知名度、信頼性、情報量、オリジナリティ、デザインで判断。 登録すべき +2点 どちらかといえば登録すべき +1点 評価不能(アクセスできないなど)  0点 どちらかといえば登録すべきでない -1点 登録すべきではない -2点 各カテゴリで重要度(平均点)を比較 シードセットのWebサイト。 発見された関連Webサイトのうち、「適合する」あるいは「どちらかといえば適合する」Webサイト

実験2-2:重要度の評価結果 Companion+の評価 シードセット 平均1.00 Companion+ 平均0.96 被参照数の大きいWebサ イトを発見しやすい。 →トピックに適合していれ  ば、重要なWebサイト。 MultiCocitationの評価 網羅的なリンク集の影響 で、重要度の低いWebサ イトを発見しやすい。 シードセットの重要度と正 の相関がある。 シードセット 平均1.00 Companion+ 平均0.96 MultiCocitation 平均0.74

まとめと今後の課題 関連Webページ発見アルゴリズムを拡張し、 Webディレクトリの自動拡大を実現した。 今後の課題 適合度と重要度を両立するアルゴリズムの検討。 カテゴリ間の関係(階層構造)の利用。 http://odin.ingrid.org/ にてデモシステムを公開予定。

関連研究: 特定トピックのオーソリティ発見 HITS [Kleinberg1998] サーチエンジンの検索結 果の近傍Webグラフから オーソリティとハブを抽出。 オーソリティスコア順に 検索結果を出力。 オーソリティ…多数のハブから参照される、重要なWebページ。 ハブ…多数のオーソリティを参照する、リンク集的なWebページ。 ハブ オーソリティ オーソリティスコア ハブスコア 高 低 ・・・

Companion+とCompanion++ シードセット全体の近傍からオーソリティを発見する。 (近傍:参照元Webサイト+参照共起関係にあるWebサイト) ハイパーリンクの選別と重み付けでHITSの精度を改善。 関連度=(オーソリティスコア)2×近傍Webサイト数 Companion++ 各シードの近傍から オーソリティを発見する。 関連度= ΣCompanion+の関連度 シードセット シード

Cocitation++とMultiCocitation Cocitation++ [Dean&Henzinger1998]を拡張 各シードと多数回参照共起関係にあるWebサイトを発見。 関連度= Σシードと参照共起する回数 MultiCocitation 多くの異なるシードと参照共起関係にあるWebサイトを発見。  関連度=参照共起関係にあるシードの数 +   0.1×(Cocitation++の関連度) シード シードセット Cocitation++ MultiCocitation 関連度: 3 関連度: 1.3 関連度: 2 関連度: 2.2

関連研究: Webグラフの参照関係の分析 HITS [Kleinberg1998] オーソリティスコア順に 検索結果を出力。 オーソリティ…多数のハブから参照される、重要なWebページ。 ハブ…多数のオーソリティを参照する、リンク集的なWebページ。 ハブ オーソリティ オーソリティスコア ハブスコア 高 低 ・・・

関連研究: 特定トピックのオーソリティ発見 ARC:Automatic Resource Compilation [Chakrabarti1998] HITSの精度を改善: アンカーテキストでリンクを重みづけ。 トピックを表すキーワードから、オーソリティを発見する。 カテゴリによっては商用Webディレクトリに匹敵する 品質のWebサイトのリストが得られる。 (例:“Sushi”) 問題点 詳細なカテゴリをキーワードで表すのは難しい。 例:  ゲーム全般 /ゲーム/  ゲーム販売店 /ショッピング/趣味とおもちゃ/ゲーム/  ゲーム開発企業 /ビジネス/エンターテインメント/ゲーム/