参照共起分析の Webディレクトリへの適用

Slides:

Advertisements

Similar presentations

静岡大学情報学研究科戸根木千洋ユーザーイメージ収集インターフェースの開発. 2 目次背景と目的研究の構成研究の詳細イメージ収集インターフェースの提案映画イメージ収集システムの開発システムの評価今後の課題.

Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.

人間とコンピュータインターネット検索 11 月 10 日， 11 月 17 日， 11 月 24 日.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

ユーザーイメージ収集インターフェイスの開発

インターネットの利用教科書 P22～27,36～41 埼玉県立大宮武蔵野高等学校・情報科.

最新ファイルの提供を保証する代理FTPサーバの開発

検索エンジン最適化.

「わかりやすいパターン認識」第１章：パターン認識とは

情報処理基礎 2006年 6月 1日.

分散コンピューティング環境上の Webリンク収集システムの実装

Webネットワークにおける研究者間の分析

前回までの配布資料（Webにないもの）：教室の後方

前回までの配布資料（Webにないもの）：教室の後方

テキストマイニング，データマイニングと社会活動のトレース

Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

検索サイトの話情報社会と情報倫理 1/22/09.

本研究の概要目的：サーチエンジンの検索結果表示の改善．手段： Web上にある紹介文を要約文として利用．

大阪教育大学大学院教育学研究科総合基礎科学専攻中窪仁

自動車レビューにおける検索と分析Ｈ２０８０３２　松岡智也Ｈ２０８０６０中西潤Ｈ２０８０８２　松井泰介.

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

Java ソフトウェア部品検索システム SPARS-J のためのリポジトリ自動更新機能の実現

IPｖ６アドレスによる RFIDシステム利用方式

プログラム実行履歴を用いたトランザクションファンクション抽出手法

Javaクラスの利用関係を用いたソフトウェア部品のカテゴリ階層構築法

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

動的依存グラフの3-gramを用いた実行トレースの比較手法

利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成

WWW上の効率的なハブ探索法の提案と実装

プリムのアルゴリズム重み付きグラフG=（V,E)の任意の点集合　U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝ｌを含むような最小木が存在する。

ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門　SEOの基本.

The Web as a graph 末次　寛之清水　伸明.

インターネット利用法実習経営工学基礎演習ａ（第3週）.

Internet広域分散協調サーチロボットの研究開発

オープンソース開発支援のためのソースコード及びメールの履歴対応表示システム

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

エピソード記憶に訴えるBookmarkless Bookmarkの実現

Webネットワークにおける研究者間の分析

テキストマイニング，データマイニングと社会活動のトレース

○ 後藤祥1，吉田則裕2 ，井岡正和1 ，井上克郎1 1大阪大学 2奈良先端科学技術大学院大学

情報共有による Z39.50データベース選択支援環境

コードクローン分類の詳細化に基づく集約パターンの提案と評価

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

国立国会図書館のインターネット上の情報資源に対する取り組み

Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

コーディングパターンのあいまい検索の提案と実装

Webページのグループ化による静的動的スコアリング

オブジェクトの協調動作を用いたオブジェクト指向プログラム実行履歴分割手法

ISO23950による分散検索の課題とその解決案に関する検討

構造的類似性を持つ半構造化文書における頻度分析

設計情報の再利用を目的とした UML図の自動推薦ツール

保守請負時を対象とした労力見積のためのメトリクスの提案

メソッドの同時更新履歴を用いたクラスの機能別分類法

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

プログラムの一時停止時に将来の実行情報を提供するデバッガ

地理情報コンテンツ・データベースコンテンツ新規作成

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

P2Pによる協調学習システム唐澤　信介　　北海道工業大学　電気工学専攻.

Presentation transcript:

参照共起分析の Webディレクトリへの適用 NTT未来ねっと研究所 ○原田昌紀　風間一洋　佐藤進也 harada@ingrid.core.ntt.co.jp

研究の背景サーチエンジン Webディレクトリロボットが収集したデータを利用して、 Webディレクトリの構築を自動化できないか？＝ロボット＋全文検索エンジン ○　Webページ単位で詳細な　　検索ができる。 ○　網羅性が高い。 ×　質の低いWebページが　　検索される（スパムもある）。 Webディレクトリ＝人手で収集、評価、分類 ○　Webサイト単位で階層的に　　分類されている。 ○　完成度の高いWebサイト　　のみが登録されている。 ×　網羅性が低い。維持と構築に要する人的コストが問題。ロボットが収集したデータを利用して、 Webディレクトリの構築を自動化できないか？

発表の概要研究の目的とアプローチ関連研究 Webディレクトリ拡大手順の提案関連Webサイト発見アルゴリズム（２種類）評価実験まとめ

本研究の目的とアプローチ目的：Webディレクトリの自動拡大の実現アプローチ各カテゴリに分類されたWebサイト群を元に、ロボットで収集したデータから、それらに関連するWebサイトを発見し、登録Webサイト数を増大させる。ハイパーリンクによる参照関係の解析を応用与えられたWebサイト群に関連し、重要度の高いWebサイトを発見することが狙い。

関連研究：テキストの自動分類テキストの自動分類ハイパーテキストの自動分類問題点多数のカテゴリへの高精度の分類は困難。関連研究：　テキストの自動分類テキストの自動分類テキストをあらかじめ決められたカテゴリに分類する。ハイパーテキストの自動分類ノードをあらかじめ決められたカテゴリに分類する。近傍のノードの分類結果によって補正する。問題点多数のカテゴリへの高精度の分類は困難。 Web上のテキストは多様であり、特に難しい。テキストの自動分類によるWebディレクトリ構築は困難。 →テキストの内容を用いない方法を検討する。

関連研究:特定トピックのオーソリティ発見 HITS [Kleinberg1998] トピックを表すキーワードの検索結果の近傍からオーソリティとハブを抽出。オーソリティ…多数のハブから参照される、重要なWebページ。ハブ…多数のオーソリティを参照する、リンク集的なWebページ。カテゴリ名によるオーソリティ発見…詳細な分類には不向き。･･････ハブオーソリティ例：ゲーム全般 /ゲーム/ 　　ゲーム販売店 /ショッピング/趣味とおもちゃ/ゲーム/ 　　ゲーム開発企業 /ビジネス/エンターテインメント/ゲーム/

関連研究: 関連Webページ発見手法参照共起関係関連Webページ発見アルゴリズム共通のリンク元でハイパーリンクの位置がL以内にあること。関連Webページ発見アルゴリズム与えられたWebページと関連するオーソリティを発見する。 →　Webディレクトリに登録すべきWebサイトを発見できる。 : リンク6 リンク7 リンク8 リンク9 シードWebページ L以内関連Webページ

Webディレクトリ拡大手順 1. 大域Webグラフを作成する。 2. 各カテゴリで関連Webサイトを発見する。

１．大域Webグラフの作成ロボットで大量のWebページを収集し、それらの参照関係からWebグラフを作成する。 WWWサーバ間のハイパーリンクのみ辺とする。 Webサイトを点としたWebグラフを作成。 Webディレクトリにおける検索の単位。実装では同じサーバで同じパスを持つファイル群をWebサイトとみなした。 http://www.ntt.co.jp/product/ http://www.ntt.co.jp/product/index-j.html http://www.ntt.co.jp/product/product.html http://www.ntt.co.jp/product/＊

２．関連Webサイト発見アルゴリズムの適用例：ビジネス/食品/飲料/酒類 http://www.asahibeer.co.jp/ http://www.gekkeikan.co.jp/ http://www.kirin.co.jp/ http://www.moritakk.com/ http://www.ozeki.co.jp/ http://www.sapporobeer.co.jp/ http://www.suntory.co.jp/ http://www.asahibeer.co.jp/ http://www.gekkeikan.co.jp/ http://www.kirin.co.jp/ http://www.moritakk.com/ http://www.ozeki.co.jp/ http://www.sapporobeer.co.jp/ http://www.suntory.co.jp/ http://www.budweiser.co.jp/ http://www.takara.co.jp/ http://www.heineken.co.jp/ http://www.kirin-seagram.co.jp/ http://j-entertain.co.jp/guiness/ http://www.kizakura.co.jp/ http://www.hakutsuru.co.jp/ : 関連度 22.1 19.5 14.4 12.5 11.8 8.8 8.2 　：関連Webサイト発見アルゴリズムを適用

３．重複Webサイトの削除重複して発見されたWebサイトは関連度が最大のカテゴリのみに残す。ビジネス/食品/飲料ビジネス/食品/食材・調味料 http://www.cocacola.co.jp/ http://www.morinagamilk.co.jp/ http://www.nestle.co.jp/ http://www.ucc.co.jp/ http://www.yakult.co.jp/ http://www.ajinomoto.co.jp/ http://www.nipponham.co.jp/ http://www.sangaria.co.jp/ http://www.dydo.co.jp/ http://www.cclemon.com/ ： http://www.hanamaruki.co.jp/ http://www.heiwa-food.co.jp/ http://www.soysauce.or.jp/ http://www.kagome.co.jp/ http://www.marukome.co.jp/ http://www.ajinomoto.co.jp/ http://www.nipponham.co.jp/ http://www.higeta.co.jp/ http://www.takeya-miso.co.jp/ http://nitanda.com/ http://www.aohata.co.jp/ ：関連度 9.9 8.9 8.4 8.1 7.7 5.8 ：関連度 11.1 9.2 8.3 7.7 5.9 5.7 　：

関連Webサイト発見アルゴリズム関連Webページ発見アルゴリズムを拡張。複数のシードに関連するWebサイトを発見する。ステップ３で比較可能な関連度を出力する。 (1) Companion+ シードセットの近傍にHITSを適用し、オーソリティを発見。 (2) MultiCocitation 多くのシードと参照共起関係にあるWebサイトを発見。

(1) Companion+ Companion+[豊田2000]を複数シードに拡張。シードセット全体の近傍からオーソリティを発見する。　（近傍:参照元Webサイト+参照共起関係にあるWebサイト）関連度＝（オーソリティスコア）2 ×近傍Webサイト数シードセット

(2) MultiCocitation Cocitation[Dean1998]を複数シードに拡張。多くの異なるシードと参照共起関係にあるWebサイトを発見。関連度＝参照共起関係にあるシードの数 + 0.1×Σシードと参照共起する回数シードシードセット関連Webサイト(関連度： 1.3) 関連Webサイト(関連度： 2.2)

評価実験：対象データ Webディレクトリ大域Webグラフ Open Directory Projectの日本語カテゴリ評価実験：　対象データ Webディレクトリ Open Directory Projectの日本語カテゴリ http://dmoz.org/World/Japanese/ 登録Webサイト数 6,143URL カテゴリ数 702 大域WebグラフサーチエンジンODINの検索対象Webページ Webディレクトリの登録サイトを起点として収集。総Webページ数約1130万URL 辺となるハイパーリンク約1350万本辺の起点　約80万個，辺の終点　約110万個

実験１：精度の評価関連Webサイトが正しいカテゴリに配置されるか？各カテゴリから、評価用Webサイトを一つずつ取り出す。実験１：　精度の評価関連Webサイトが正しいカテゴリに配置されるか？各カテゴリから、評価用Webサイトを一つずつ取り出す。それらを除いたWebディレクトリに拡大手順を施す。評価用Webサイトが発見されたときの精度を評価。　　　　　元々のカテゴリで発見された評価用Webサイト精度＝　　　　　　　　評価用Webサイトのうち発見されたもの注意：元々Webディレクトリに登録されていたWebサイトのみを評価。

実験１：精度の評価結果各カテゴリで最大N件の関連Web サイトを発見した場合の精度 MultiCocitationは実用的な精度を達成。 Companion+ではトピックドリフトが発生。被参照数の大きいシードにのみ関連するWebサイトが発見されやすい。

実験１：シードセットサイズと発見精度登録Webサイト数が大きいカテゴリでは精度が低下

実験２-1：適合度の評価被験者：ネットワーク分野の研究者８名。カテゴリ：被験者がよく知っている分野を２つ。実験２-1：　適合度の評価被験者：ネットワーク分野の研究者８名。カテゴリ：被験者がよく知っている分野を２つ。関連Webサイトのトピックとの適合性を判断。適合する＋２点どちらかといえば適合する＋１点評価不能（アクセスできないなど）　　０点どちらかといえば適合しない－１点適合しない－２点カテゴリの適合度＝関連Webサイト全体の平均点注意：分類精度の評価とは異なる。

実験２-1：適合度の評価 Companion+ 平均0.99 MultiCocitation 平均1.44 実験２-1：　適合度の評価 Companion+ 平均0.99 MultiCocitation 平均1.44 カテゴリによって適合度の高低がある。 × アート/映画/洋画 ○ /音楽/ビートルズ ○ニュース/新聞

実験２-1：適合度の評価適合度の低いカテゴリがある理由リンク集における分類と、Webディレクトリの分類の不一致。実験２-1：　適合度の評価適合度の低いカテゴリがある理由リンク集における分類と、Webディレクトリの分類の不一致。例：アート/映画/洋画…邦画のWebサイトが発見される。近傍Webグラフが小さいカテゴリでは、少数の関連Webサイトしか得られない。シードセット中に被参照数の大きいWebサイトが一つは必要。

実験２-２：重要度の評価登録する価値があるWebサイトが発見されるか？各カテゴリで重要度（平均点）を比較実験２-２：　重要度の評価登録する価値があるWebサイトが発見されるか？知名度、信頼性、情報量、オリジナリティ、デザインで判断。登録すべき＋２点どちらかといえば登録すべき＋１点評価不能（アクセスできないなど）　０点どちらかといえば登録すべきでない－１点登録すべきではない－２点各カテゴリで重要度（平均点）を比較シードセットのWebサイト。発見された関連Webサイトのうち、「適合する」あるいは「どちらかといえば適合する」Webサイト

実験２-２：重要度の評価結果 Companion+の評価シードセット平均1.00 Companion+ 平均0.96 被参照数の大きいWebサイトを発見しやすい。 →トピックに適合していれ　ば、重要なWebサイト。 MultiCocitationの評価網羅的なリンク集の影響で、重要度の低いWebサイトを発見しやすい。シードセットの重要度と正の相関がある。シードセット平均1.00 Companion+ 平均0.96 MultiCocitation 平均0.74

まとめと今後の課題関連Webページ発見アルゴリズムを拡張し、 Webディレクトリの自動拡大を実現した。今後の課題適合度と重要度を両立するアルゴリズムの検討。カテゴリ間の関係(階層構造)の利用。 http://odin.ingrid.org/　にてデモシステムを公開予定。

関連研究: 特定トピックのオーソリティ発見 HITS [Kleinberg1998] サーチエンジンの検索結果の近傍Webグラフからオーソリティとハブを抽出。オーソリティスコア順に検索結果を出力。オーソリティ…多数のハブから参照される、重要なWebページ。ハブ…多数のオーソリティを参照する、リンク集的なWebページ。ハブオーソリティオーソリティスコアハブスコア高低･･･

Companion+とCompanion++ シードセット全体の近傍からオーソリティを発見する。（近傍:参照元Webサイト+参照共起関係にあるWebサイト）ハイパーリンクの選別と重み付けでHITSの精度を改善。関連度＝（オーソリティスコア）2×近傍Webサイト数 Companion++ 各シードの近傍からオーソリティを発見する。関連度＝ ΣCompanion+の関連度シードセットシード

Cocitation++とMultiCocitation Cocitation++　[Dean&Henzinger1998]を拡張各シードと多数回参照共起関係にあるWebサイトを発見。関連度＝ Σシードと参照共起する回数 MultiCocitation 多くの異なるシードと参照共起関係にあるWebサイトを発見。　関連度＝参照共起関係にあるシードの数 + 　　0.1×(Cocitation++の関連度) シードシードセット Cocitation++ MultiCocitation 関連度： 3 関連度： 1.3 関連度： 2 関連度： 2.2

関連研究: Webグラフの参照関係の分析 HITS [Kleinberg1998] オーソリティスコア順に検索結果を出力。オーソリティ…多数のハブから参照される、重要なWebページ。ハブ…多数のオーソリティを参照する、リンク集的なWebページ。ハブオーソリティオーソリティスコアハブスコア高低･･･

関連研究: 特定トピックのオーソリティ発見 ARC：Automatic Resource Compilation [Chakrabarti1998] HITSの精度を改善：　アンカーテキストでリンクを重みづけ。トピックを表すキーワードから、オーソリティを発見する。カテゴリによっては商用Webディレクトリに匹敵する品質のWebサイトのリストが得られる。（例:“Sushi”）問題点詳細なカテゴリをキーワードで表すのは難しい。例：　ゲーム全般 /ゲーム/ 　ゲーム販売店 /ショッピング/趣味とおもちゃ/ゲーム/ 　ゲーム開発企業 /ビジネス/エンターテインメント/ゲーム/