Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水 洋志.

Slides:



Advertisements
Similar presentations
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
1 安全性の高いセッション管理方 式 の Servlet への導入 東京工業大学 理学部 千葉研究室所属 99-2270-6 松沼 正浩.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
Project Next-L プロトタイ プ 東京工科大学 田辺浩介
OWL-Sを用いたWebアプリケーションの検査と生成
ユーザーイメージ収集 インターフェイスの開発
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
最新ファイルの提供を保証する代理FTPサーバの開発
パネル型クエリ生成インタフェース画像検索システムの改良
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
Googleの行方 ~検索のGoogleの新たな試み~
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
経済データのダウンロードと グラフの作成 経済データ解析 2011年度.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
セマンティクスを利用した 図書検索システム
アクセスログ解析 専修大学 ネットワーク情報学部.
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
IPv6アドレスによる RFIDシステム利用方式
プログラム実行履歴を用いたトランザクションファンクション抽出手法
オントロジーを使用した プログラム開発支援システムの提案
2003年度 データベース論 安藤 友晴.
DNSトラフィックに着目したボット検出手法の検討
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
経済データのダウンロードと グラフの作成 経済データ解析 2009年度.
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
学生の相互評価を用いた モデリング支援システムの開発
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
インターネット利用法実習 経営工学基礎演習a(第3週).
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
多層的な知人関係に基づく 自己情報コントロールの実現
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
コーディングパターンの あいまい検索の提案と実装
Webからの 人間関係ネットワークの抽出と 情報支援
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
保守請負時を対象とした 労力見積のためのメトリクスの提案
メソッドの同時更新履歴を用いたクラスの機能別分類法
Microsoft SharePoint Online の Web サイトを カスタマイズする方法
自然言語処理2015 Natural Language Processing 2015
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
複雑度メトリクスを用いた JAVAプログラム品質特性の実験的評価
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
自然言語処理2016 Natural Language Processing 2016
地理情報コンテンツ・データベースコンテンツ新規作成
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
雑音環境下における Sparse Coding声質変換 3-P-49d
Presentation transcript:

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水 洋志

構成 研究背景と研究目的 既存手法の説明 提案手法の説明 評価実験 実験結果・考察 今後の課題

研究背景 インターネットの普及して多くの人がWebを利用するようになってきている Web上の情報からの有益な情報の発見を目指すWebマイニングの研究が盛んに行われてきている キーワード検索型のサーチエンジンが主流である

研究背景 キーワード検索で目的のWebページを得ることが困難になってきている キーワード検索による検索結果も増加 個人でも簡単にWebページを作成できる テキストの文体の多様化 キーワード検索で目的のWebページを得ることが困難になってきている ハイパーリンクのグラフ構造に基づくWeb structureマイニングが注目されている

研究背景 ハイパーリンクによって内容の関連性を見出すためには、対象とするページからのハイパーリンクに注目するだけでは不十分であり、他のページから対象のページへのハイパーリンク(backlink)に注目することが必要になる.

研究目的 ハイパーリンクのグラフ構造を基にWebページの関連性を見出す研究のひとつして、ユーザが興味のあるトピックに関連するWebページを発見するシステムの提案する

研究目的 提案手法は村田のWebコミュニティの発見手法[村田 01]を参考にし、その手法における支持者があまり多くないトピックでよい結果が得られなかった問題点を解決を目指す Webコミュニティという用語は、多くの研究者がさまざまな意味で用いているが同一トピックに関するWebページ集合の意味で用いることにする

既存手法の説明 村田によるWebコミュニティの発見手法 ユーザから与えられたWebページのURL数個を元に、そのURLを含んでいるような完全2部グラフを見出すことを目標としている 完全2部グラフKi,jにおけるリンク元の i 個のURLをfans、リンク先の j 個のURLをcentersと呼ぶことにしている.

既存手法の説明 村田によるWebコミュニティの発見手法 centersを参照するfansの検索 centersの全てに対してリンクを張っているWebページを獲 得し、それをfansとする fansの多数決によるcentersへのページ追加 fansのURLにアクセスしてHTMLファイル取得しハイパーリ ンクのURLを全て抽出する.その中でもっとも出現回数の多 いものをcentersに追加する

既存手法の説明 村田によるWebコミュニティの発見手法 入力 (1) fansの検索 (2) centersへのページ追加 fans

提案手法の説明 村田の手法の問題点 対象について熱心な支持者を持つものが多いトピックでは良い結果が得られたが、あまり支持者を持たないトピックでは良い結果が得られなかった 良い結果が得られなかったトピックのハイパーリンクのグラフ構造が疎になっていた 十分な数のfansを得られなかったことが要因である

提案手法の説明 fansの取得方法の改良 centersの全てのURLに対してリンクを張っているWebページをfansとするのではなく、centersの一つ一つに対してリンクを張っているWebページをfansとする

提案手法の説明 ハイパーリンクの出現回数による順序付け ユーザによる入力URLへの重み付け 得られたfansのURLに順次アクセスしてHTMLファイルを取得し、各々のファイルに含まれるハイパーリンクのURLを全て抽出し、それらを降順にソートしたもの検索結果とする ユーザによる入力URLへの重み付け ユーザが入力したWebページに対して重み付けをすることによって、ユーザの考えをより反映することを可能する

提案手法の説明 6 3 4 入力 6 4 3 Centers 15 10 6 出力 Fans

評価実験 実験条件 サーチエンジンとしてGoogleを使用する 対象のトピックは、村田の実験で良い結果が得られた“Cars”,“College”,“Finance”,“Kids”,“Newspapers”と良い結果が得られなかった“Art”,“Chat”,“Events”, “Family”の9個とする Yahooのディレクトリに登録されているURLを出力順に5個選択しcentersとする centersへの重み付けは全て1とする

評価実験 実験結果 村田のシステムでよい結果の得られなかった“Art”,“Chat”のトピックでも数多くの関連性の高いWebページを発見することができた “Art”の上位のURL http://www.geisai.net http://happyhour.air-nifty.com http://www.lammfromm.jp http://www.takefloor.com

評価実験 実験結果 “Cars”,“College”,“Events”などのトピックで、目的のトピックと関連性の低いポータルサイトや資格・就職関係のWebページがランキングの上位に出力された 関連性の低いWebページのURL http://www.yahoo.co.jp http://www.mainichi.co.jp http://www.recruit.co.jp

考察 トピック毎の実験結果の違い ハイパーリンクのグラフ構造が疎になっているトピックでも多くの関連性の高いWebページを発見することができた fansの獲得方法をcentersのひとつひとつのURLにリンクしているWebページにしたことにより、fansが十分獲得できたことが要因だと言える

考察 トピック毎の実験結果の違い 目的のトピックと関連性の低いWebページがランキングの上位に来ていた 対象について熱心な支持者を持っているトピックに対して広告としてリンクを張られている

考察 広告などのWebページの出力に対する改善 別々のトピックでも同一のWebページが多く見られた

考察 広告などのWebページの出力に対する改善

考察 広告などのWebページの出力に対する改善 ポータルサイトや企業のWebページは完全に取り除かれたわけではない この改善処理の精度を高めるためにより多くのトピックの結果を利用する必要がある

今後の課題 Web全体の重要度による広告などの除外 広告などのWebページを取り除くのに全トピックの総合ランキングを利用したが、総合ランキングの上位になったWebページが目的のトピックと関連あるWebページであっても出力されない 多くのトピックの総合ランキングの上位になるということはWeb全体での重要度が高いということである

今後の課題 Web全体の重要度による広告などの除外 各トピックの評価値からWeb全体の評価値を一定の割合で減少させることで、企業の広告などによるWebページが各トピックのランキングの上位になることを防ぐことができるはずである 各トピックの評価値は次のような式で与えられる (各トピックの評価値) = (各トピックの局所的なデータでの評価値) - α(Web全体での評価値)

今後の課題 Web全体のグラフ構造の研究 Web全体のハイパーリンクのグラフ構造を詳細に解明することによってWeb structureマイニングをさらに発展させることが期待できる