Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水洋志.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities
清水洋志

構成研究背景と研究目的既存手法の説明提案手法の説明評価実験実験結果・考察今後の課題

研究背景インターネットの普及して多くの人がWebを利用するようになってきている
Web上の情報からの有益な情報の発見を目指すWebマイニングの研究が盛んに行われてきているキーワード検索型のサーチエンジンが主流である

研究背景キーワード検索で目的のWebページを得ることが困難になってきている
キーワード検索による検索結果も増加個人でも簡単にWebページを作成できるテキストの文体の多様化キーワード検索で目的のWebページを得ることが困難になってきているハイパーリンクのグラフ構造に基づくWeb structureマイニングが注目されている

研究背景ハイパーリンクによって内容の関連性を見出すためには、対象とするページからのハイパーリンクに注目するだけでは不十分であり、他のページから対象のページへのハイパーリンク（backlink）に注目することが必要になる．

研究目的ハイパーリンクのグラフ構造を基にWebページの関連性を見出す研究のひとつして、ユーザが興味のあるトピックに関連するWebページを発見するシステムの提案する

研究目的提案手法は村田のWebコミュニティの発見手法[村田 0１]を参考にし、その手法における支持者があまり多くないトピックでよい結果が得られなかった問題点を解決を目指す Webコミュニティという用語は、多くの研究者がさまざまな意味で用いているが同一トピックに関するWebページ集合の意味で用いることにする

既存手法の説明村田によるWebコミュニティの発見手法
ユーザから与えられたWebページのURL数個を元に、そのURLを含んでいるような完全２部グラフを見出すことを目標としている完全２部グラフKi,jにおけるリンク元の i 個のURLをfans、リンク先の j 個のURLをcentersと呼ぶことにしている．

既存手法の説明村田によるWebコミュニティの発見手法 centersを参照するfansの検索
centersの全てに対してリンクを張っているWebページを獲得し、それをfansとする fansの多数決によるcentersへのページ追加 fansのURLにアクセスしてHTMLファイル取得しハイパーリンクのURLを全て抽出する.その中でもっとも出現回数の多いものをcentersに追加する

既存手法の説明村田によるWebコミュニティの発見手法入力 (1) fansの検索 (2) centersへのページ追加 fans

提案手法の説明村田の手法の問題点対象について熱心な支持者を持つものが多いトピックでは良い結果が得られたが、あまり支持者を持たないトピックでは良い結果が得られなかった良い結果が得られなかったトピックのハイパーリンクのグラフ構造が疎になっていた十分な数のfansを得られなかったことが要因である

提案手法の説明 fansの取得方法の改良 centersの全てのURLに対してリンクを張っているWebページをfansとするのではなく、centersの一つ一つに対してリンクを張っているWebページをfansとする

提案手法の説明ハイパーリンクの出現回数による順序付けユーザによる入力URLへの重み付け
得られたfansのURLに順次アクセスしてHTMLファイルを取得し、各々のファイルに含まれるハイパーリンクのURLを全て抽出し、それらを降順にソートしたもの検索結果とするユーザによる入力URLへの重み付けユーザが入力したWebページに対して重み付けをすることによって、ユーザの考えをより反映することを可能する

提案手法の説明６３４入力６４３ Centers １５１０６出力 Fans

評価実験実験条件サーチエンジンとしてGoogleを使用する
対象のトピックは、村田の実験で良い結果が得られた“Cars”,“College”,“Finance”,“Kids”,“Newspapers”と良い結果が得られなかった“Art”,“Chat”,“Events”, “Family”の9個とする Yahooのディレクトリに登録されているURLを出力順に5個選択しcentersとする centersへの重み付けは全て１とする

評価実験実験結果村田のシステムでよい結果の得られなかった“Art”,“Chat”のトピックでも数多くの関連性の高いWebページを発見することができた “Art”の上位のURL

評価実験実験結果 “Cars”,“College”,“Events”などのトピックで、目的のトピックと関連性の低いポータルサイトや資格・就職関係のWebページがランキングの上位に出力された関連性の低いWebページのURL

考察トピック毎の実験結果の違いハイパーリンクのグラフ構造が疎になっているトピックでも多くの関連性の高いWebページを発見することができた
fansの獲得方法をcentersのひとつひとつのURLにリンクしているWebページにしたことにより、fansが十分獲得できたことが要因だと言える

考察トピック毎の実験結果の違い目的のトピックと関連性の低いWebページがランキングの上位に来ていた
対象について熱心な支持者を持っているトピックに対して広告としてリンクを張られている

考察広告などのWebページの出力に対する改善別々のトピックでも同一のWebページが多く見られた

考察広告などのWebページの出力に対する改善

考察広告などのWebページの出力に対する改善ポータルサイトや企業のWebページは完全に取り除かれたわけではない
この改善処理の精度を高めるためにより多くのトピックの結果を利用する必要がある

今後の課題 Web全体の重要度による広告などの除外
広告などのWebページを取り除くのに全トピックの総合ランキングを利用したが、総合ランキングの上位になったWebページが目的のトピックと関連あるWebページであっても出力されない多くのトピックの総合ランキングの上位になるということはWeb全体での重要度が高いということである

今後の課題 Web全体の重要度による広告などの除外
各トピックの評価値からWeb全体の評価値を一定の割合で減少させることで、企業の広告などによるWebページが各トピックのランキングの上位になることを防ぐことができるはずである各トピックの評価値は次のような式で与えられる (各トピックの評価値) = (各トピックの局所的なデータでの評価値) - α(Web全体での評価値)

今後の課題 Web全体のグラフ構造の研究 Web全体のハイパーリンクのグラフ構造を詳細に解明することによってWeb structureマイニングをさらに発展させることが期待できる

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水洋志.

Similar presentations

Presentation on theme: "Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水洋志."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水 洋志.

Similar presentations

Presentation on theme: "Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水 洋志."— Presentation transcript:

Similar presentations

About project

フィードバック

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水洋志.

Presentation on theme: "Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水洋志."— Presentation transcript: