Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水 洋志
構成 研究背景と研究目的 既存手法の説明 提案手法の説明 評価実験 実験結果・考察 今後の課題
研究背景 インターネットの普及して多くの人がWebを利用するようになってきている Web上の情報からの有益な情報の発見を目指すWebマイニングの研究が盛んに行われてきている キーワード検索型のサーチエンジンが主流である
研究背景 キーワード検索で目的のWebページを得ることが困難になってきている キーワード検索による検索結果も増加 個人でも簡単にWebページを作成できる テキストの文体の多様化 キーワード検索で目的のWebページを得ることが困難になってきている ハイパーリンクのグラフ構造に基づくWeb structureマイニングが注目されている
研究背景 ハイパーリンクによって内容の関連性を見出すためには、対象とするページからのハイパーリンクに注目するだけでは不十分であり、他のページから対象のページへのハイパーリンク(backlink)に注目することが必要になる.
研究目的 ハイパーリンクのグラフ構造を基にWebページの関連性を見出す研究のひとつして、ユーザが興味のあるトピックに関連するWebページを発見するシステムの提案する
研究目的 提案手法は村田のWebコミュニティの発見手法[村田 01]を参考にし、その手法における支持者があまり多くないトピックでよい結果が得られなかった問題点を解決を目指す Webコミュニティという用語は、多くの研究者がさまざまな意味で用いているが同一トピックに関するWebページ集合の意味で用いることにする
既存手法の説明 村田によるWebコミュニティの発見手法 ユーザから与えられたWebページのURL数個を元に、そのURLを含んでいるような完全2部グラフを見出すことを目標としている 完全2部グラフKi,jにおけるリンク元の i 個のURLをfans、リンク先の j 個のURLをcentersと呼ぶことにしている.
既存手法の説明 村田によるWebコミュニティの発見手法 centersを参照するfansの検索 centersの全てに対してリンクを張っているWebページを獲 得し、それをfansとする fansの多数決によるcentersへのページ追加 fansのURLにアクセスしてHTMLファイル取得しハイパーリ ンクのURLを全て抽出する.その中でもっとも出現回数の多 いものをcentersに追加する
既存手法の説明 村田によるWebコミュニティの発見手法 入力 (1) fansの検索 (2) centersへのページ追加 fans
提案手法の説明 村田の手法の問題点 対象について熱心な支持者を持つものが多いトピックでは良い結果が得られたが、あまり支持者を持たないトピックでは良い結果が得られなかった 良い結果が得られなかったトピックのハイパーリンクのグラフ構造が疎になっていた 十分な数のfansを得られなかったことが要因である
提案手法の説明 fansの取得方法の改良 centersの全てのURLに対してリンクを張っているWebページをfansとするのではなく、centersの一つ一つに対してリンクを張っているWebページをfansとする
提案手法の説明 ハイパーリンクの出現回数による順序付け ユーザによる入力URLへの重み付け 得られたfansのURLに順次アクセスしてHTMLファイルを取得し、各々のファイルに含まれるハイパーリンクのURLを全て抽出し、それらを降順にソートしたもの検索結果とする ユーザによる入力URLへの重み付け ユーザが入力したWebページに対して重み付けをすることによって、ユーザの考えをより反映することを可能する
提案手法の説明 6 3 4 入力 6 4 3 Centers 15 10 6 出力 Fans
評価実験 実験条件 サーチエンジンとしてGoogleを使用する 対象のトピックは、村田の実験で良い結果が得られた“Cars”,“College”,“Finance”,“Kids”,“Newspapers”と良い結果が得られなかった“Art”,“Chat”,“Events”, “Family”の9個とする Yahooのディレクトリに登録されているURLを出力順に5個選択しcentersとする centersへの重み付けは全て1とする
評価実験 実験結果 村田のシステムでよい結果の得られなかった“Art”,“Chat”のトピックでも数多くの関連性の高いWebページを発見することができた “Art”の上位のURL http://www.geisai.net http://happyhour.air-nifty.com http://www.lammfromm.jp http://www.takefloor.com
評価実験 実験結果 “Cars”,“College”,“Events”などのトピックで、目的のトピックと関連性の低いポータルサイトや資格・就職関係のWebページがランキングの上位に出力された 関連性の低いWebページのURL http://www.yahoo.co.jp http://www.mainichi.co.jp http://www.recruit.co.jp
考察 トピック毎の実験結果の違い ハイパーリンクのグラフ構造が疎になっているトピックでも多くの関連性の高いWebページを発見することができた fansの獲得方法をcentersのひとつひとつのURLにリンクしているWebページにしたことにより、fansが十分獲得できたことが要因だと言える
考察 トピック毎の実験結果の違い 目的のトピックと関連性の低いWebページがランキングの上位に来ていた 対象について熱心な支持者を持っているトピックに対して広告としてリンクを張られている
考察 広告などのWebページの出力に対する改善 別々のトピックでも同一のWebページが多く見られた
考察 広告などのWebページの出力に対する改善
考察 広告などのWebページの出力に対する改善 ポータルサイトや企業のWebページは完全に取り除かれたわけではない この改善処理の精度を高めるためにより多くのトピックの結果を利用する必要がある
今後の課題 Web全体の重要度による広告などの除外 広告などのWebページを取り除くのに全トピックの総合ランキングを利用したが、総合ランキングの上位になったWebページが目的のトピックと関連あるWebページであっても出力されない 多くのトピックの総合ランキングの上位になるということはWeb全体での重要度が高いということである
今後の課題 Web全体の重要度による広告などの除外 各トピックの評価値からWeb全体の評価値を一定の割合で減少させることで、企業の広告などによるWebページが各トピックのランキングの上位になることを防ぐことができるはずである 各トピックの評価値は次のような式で与えられる (各トピックの評価値) = (各トピックの局所的なデータでの評価値) - α(Web全体での評価値)
今後の課題 Web全体のグラフ構造の研究 Web全体のハイパーリンクのグラフ構造を詳細に解明することによってWeb structureマイニングをさらに発展させることが期待できる