リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

Slides:



Advertisements
Similar presentations
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
Advertisements

Building text features for object image classification
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
セキュアネットワーク符号化構成法に関する研究
状況空間に基づく位置依存サービスの階層管理
TCPコネクションの分割 によるスループットの向上
ラベル付き区間グラフを列挙するBDDとその応用
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
卒業論文のタイトルをここに (発表時間は5分です。 PPTスライドは10枚程度にまとめる事)
神奈川大学大学院工学研究科 電気電子情報工学専攻
モード付き並列機械における オンラインスケジューリング
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
プログラムの動作を理解するための技術として
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
テキストの類似度計算
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
プログラム実行履歴を用いたトランザクションファンクション抽出手法
静的情報と動的情報を用いた プログラムスライス計算法
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
Data Clustering: A Review
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
音高による音色変化に着目した音源同定に関する研究
IIR輪講復習 #17 Hierarchical clustering
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
Internet広域分散協調サーチロボット の研究開発
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
言語XBRLで記述された 財務諸表の分析支援ツールの試作
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
複数特徴量の重み付け統合による一般物体認識
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
C11: 不正アクセスパケットの可視化 シャボン
実空間における関連本アウェアネス 支援システム
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
コーディングパターンの あいまい検索の提案と実装
自己組織化マップ Self-Organizing Map SOM
ISO23950による分散検索の課題と その解決案に関する検討
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
保守請負時を対象とした 労力見積のためのメトリクスの提案
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
テキストデータベース.
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
時間情報に基づく多様な中心性に着目した 動的ネットワーク分析の提案
マルチエージェントシステムにおける 通信コストの構造依存性に関する解析
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
市松模様を使用した カメラキャリブレーション
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究 2006年度 WINGS発表 リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究 発表者 佐々木 雄一

1.背景 WWW上には膨大な量のページ ・ 文書検索エンジンの問題 文書検索で目的にたどり着くのは難しい! query 検索エンジン ・ 文書検索エンジンの問題 query 検索エンジン answer 1 2 3 約11.5億 query 検索エンジン answer 1 2 3 4 5 6 7 : 1万 膨大な 検索結果 文書検索で目的にたどり着くのは難しい!

1.背景 膨大な量のページをどう扱うか? どのようにWebページからグループを構成するか? ・ グループ化を行う 本研究では について扱う. ・ グループ化を行う Webページ グループ化 システム input グループB output グループA グループC 検索文字列以外の類似情報 情報の位置づけ 本研究では どのようにWebページからグループを構成するか? について扱う.

2.研究概要 ベクトル空間法 本論文ではリンク構造も考える ベクトル空間法はリンク構造を考えていない Webページからの自動的なグループ構成を行うための一般的手法 文書内容の類似度を計算する方法 ベクトル空間 文書di 2つのベクトルのコサインを計算 [x1,x2,…,xn] di [x1,x2,…,xn] θが近いほど類似 文書dj dj θ [y1,y2,…,yn] [y1,y2,…,yn] 文書内の単語の頻度 ベクトル空間法はリンク構造を考えていない 本論文ではリンク構造も考える

発表の流れ 関連研究 提案手法 実装 実験 おわりに

3.関連研究 リンク構造からのコミュニティ抽出に関する研究 リンクと文書両方の情報を用いたクラスタリング手法に関する研究 参照の共起性に基づくWebコミュニティ発見手法 [村田 01] リンクと文書両方の情報を用いたクラスタリング手法に関する研究 リンクと文書両方を考慮に入れたクラスタリングサーチエンジンHyPursuit [Weiss 96] 巨大なネットワークからのコミュニティ抽出に関する研究 ネットワーク分割に関する評価値Modularity Q を応用した高速コミュニティ発見手法 [Clauset 04]

4.提案手法 リンク構造も考慮に入れたベクトル空間法 : : : : ×α ×(1-α) Content-Linkベクトル どのように扱うのか? 文書の内容 リンク構造 文書ベクトル リンクベクトル [x1,x2,…,xn] [e1,e2,…,en] [y1,y2,…,yn] [f1,f2,…,fn] ×α ×(1-α) : : : : [z1,z2,…,zn] [g1,g2,…,gn] Content-Linkベクトル

4.提案手法 どのようにリンクベクトルを扱うのか? 村田の手法におけるWebコミュニティ 適切にリンクを用いてグループ構築ができなければならない 村田の手法の完全二部グラフ構造を拡張利用 村田の手法におけるWebコミュニティ 熱心な支持者(fans)から共通に張られているリンクを利用 fansから形成される完全二部グラフ構造をWebコミュニティとして抽出 完全二部グラフ構造 Webコミュニティ fans

4.提案手法 完全二部グラフ構造からのWebコミュニティ抽出の限界 完全二部グラフ構造という制約を緩和する必要がある 完全二部グラフ構造という制約が厳しい 現実のWebコミュニティは様々なリンク構造をもっている 完全二部グラフ構造 完全二部グラフ構造 Webコミュニティ Webコミュニティ fans fans 完全二部グラフ構造という制約が厳しい 完全二部グラフ構造という制約を緩和する必要がある

4.提案手法 リンクベクトルと完全二部グラフ構造 p1はfansからリンクを1つ介した位置にある fans Webコミュニティ p1はfansからリンクを1つ介した位置にある b1 p1 b2 fans p2 piはfansのページbjからリンクを1つ介しているという情報が与えられる b3 p3 b4 piはfansのページbjからリンクに関する情報が与えられ  リンクベクトル          をもつ リンクベクトル p1 [1, 1, 1, 1] すべて類似度最大 p2 [1, 1, 1, 1] p3 [1, 1, 1, 1] 完全二部グラフをもつWebコミュニティの類似性はリンクベクトルでも評価可能 リンクベクトルはすべて同じ向き

完全二部グラフの構造を引継ぎ,さらに柔軟に解釈できる 4.提案手法 完全二部グラフ構造を柔軟に解釈したWebコミュニティ抽出 b1,b2,b3,b4からをリンクを1つ介している [1, 1, 1, 1] b1 p1 [1, 1, 1, 1] b2 fansから与えられるリンクベクトル fans p2 b3 p3 b4 [1, 1, 1, 2] b4からをリンクを2つ介している 得られる類似度の表 p1 p2 p3 ― 1.0 0.945 p1とp2は酷似している p1とp3はp1とp2に比べて似ていない リンクベクトルを用いることで 完全二部グラフの構造を引継ぎ,さらに柔軟に解釈できる

4.提案手法 基準ページの配置 p1とp3の類似度が1 p1とp2とp3はWebコミュニティを構成 様々な位置に基準ページを配置 基準ページの問題 同じ向き b5 基準ページ [1, 1, 1, 1] b8 [2, 2, 2, 2] b1 p1 b2 p3 b1 fans p2 p1 b3 b2 p3 p2 b4 b3 p1とp3の類似度が1 b4 b7 本当? b6 p1とp2とp3はWebコミュニティを構成 多くの視点を基にグループ構築を判断することができる 完全二部グラフを与えるようなWebページだけを基点にするのは適切ではない

4.提案手法 リンクベクトルの提案 リンクベクトル pi = bj のときfn(pi,bj)=0とし 基準ページもリンクベクトルの式に含む 1 リンクベクトルの提案 b 1 1 1 Webページpi,基準ページbj 基準ページの総数k個 bjからpiに到達するまで辿る最短のリンクの数fn(pi,bj) 1 4 2 2 2 3 3 3 3 リンクベクトル 3 pi = bj のときfn(pi,bj)=0とし 基準ページもリンクベクトルの式に含む

4.提案手法 リンクベクトルのカスタマイズ 標準リンクベクトル リンク介した数を要素をとしてもつリンクベクトル 標準リンクベクトル リンク介した数を要素をとしてもつリンクベクトル score 1 score 2 +1 1つリンクを介す度にベクトルの構成要素が1ずつ加算される score 3 +1 +1 カスタマイズ1 リンクの次数を考慮に入れた要素をもつリンクベクトル score x score x + (1/ki+1/kj) 次数が高いほどリンクを介する加算値が小さくなる コミュニティの周りのページがグループを構成しやすくなる 次数重みベクトルと呼ぶことにする +(1/ki+1/kj) 複数のスコアが与えられるような状況の場合,スコアはその中の最小の値をとる. 次数kj 次数ki カスタマイズ2 リンクを介した数に重みをつけたリンクベクトル リンクを辿るほど加算値が小さくなる リンクを辿る数を少なくしてもグループ構成への影響を小さくできる 距離重みベクトルと呼ぶことにする score 1 score 1+r score 1+r+r2 +r2 +r r < 1.0 +r2

5.実装 リンク構造からグループを構築するための実装 実装言語はJavaで, グラフ構造を扱うためJavaパッケージのJUNGを使用した 提案手法の実装   ‐ リンクベクトルの実装   ‐ カスタマイズされたリンクベクトルの実装 クラスタリング手法の実装   ‐ 初歩的な階層クラスタリング手法である単連結法と完全連結法の実装 単連結法 完全連結法 最も類似した頂点を併合に用いる 最も類似していない頂点を併合に用いる

6.実験 実験設定 リンクベクトルがWebページに対してどのようなグループ構成をするのかを調べる 実験に使う手法 単連結法を用いた距離重みなしベクトル 単連結法を用いた次数重みベクトル 単連結法を用いてr=0.8としたときの距離重みベクトル  完全連結法を用いた距離重みなしベクトル 距離重みなしベクトルとは,標準のリンクベクトルと同じ

6.実験 実験設定 実験対象のデータ アメリカの政治に関するブログのリンク構造データ その他の実験設定 1490のWebページのリンク構造に関するデータをもつ 1490のページのうち,758個が民主党,732個が共和党寄りのWebページ 91%のリンクは同一コミュニティと結びついている その他の実験設定 200個のWebページが併合される毎に,サイズ10以上のグループのデータを記録した すべてのWebページを基準ページとした

6.実験 実験結果1 単連結法を用いた距離重みなしリンクベクトルから得られる結果 併合ページ数200 併合ページ数600 併合ページ数769 民主の数 共和の数 民主の数 共和の数 民主の数 共和の数 24 1 212 7 316 9 22 2 5 214 10 413 11 1 15 68 15 2つのメイングループが併合され1つになる直前 11 12 民主党のグループができた リンクベクトルを用いることで民主党,共和党のどちらかが大半を占めるグループが構成された 良い 混在するグループができた 悪い

6.実験 実験結果2(カスタマイズ手法との比較) 2つのメイングループが併合されるまでのページ併合数 max 距離重みなしベクトル 次数重みベクトル 距離重みベクトル 併合ページ数769 併合ページ数441 併合ページ数661 民主の数 共和の数 民主の数 共和の数 民主の数 共和の数 147 62 316 9 262 14 11 108 9 334 21 30 10 413 17 10 10 次数重みベクトルを用いることにより,ハブ構造をもつWebページ同士の類似度が大きくなり,メイングループの構成要素であるハブ構造をもったWebページがつながったため生じた. 距離重みなしベクトル 769 max 同一コミュニティに属するWebページをより多く含んでいる 次数重みベクトル 441 距離重みベクトル 661 次数重みベクトルでは早い段階でメイングループが併合した 原因 異なるコミュニティに属するハブ構造をもつWebページ同士の類似度が高くなったため

6.実験 実験結果2(カスタマイズ手法との比較) 距離重みなしベクトルと距離重みベクトルの比較 ページ併合数 距離重みなしベクトル r=0.8とした距離重みベクトル 民主の数 共和の数 民主の数 共和の数 400 32 2 65 1 30 1 33 2 2 112 2 149 600 212 7 241 10 5 214 5 247 r=0.8の距離重みベクトルは距離重みなしベクトルに比べて大きなグループを構成した 原因 リンクを辿るほどリンクベクトルのスコアの特徴が失われたため

6.実験 実験結果3(単連結法と完全連結法の比較) ■ 単連結法と完全連結法の特徴を強く示した結果が得られた ■ 単連結法と完全連結法の特徴を強く示した結果が得られた - 単連結法の特徴 大きなグループがさらに大きなグループを構築しやすくなる - 完全連結法の特徴 大きなグループ同士が結びつきにくくなり,過剰にグループができる ページ併合数 単連結法が構成する グループ数 完全連結法が構成する 200 5 4 400 7 600 13 800 1 22 989 ■ 完全連結法では最後の方まで2つのメイングループは併合されなかった 2つのメイングループが併合されるまでのページ併合数 単連結法 769 同一コミュニティに属するWebページを十分含んでいる max 完全連結法 960 実験では最も良い結果を得ている

6.実験 実験結果4(単連結法と完全連結法の比較) メイングループが1つになる直前 単連結法を用いた実験結果 完全連結法を用いた実験結果  メイングループが1つになる直前 - 四角は民主党,丸は共和党を表す - 同じ色は同一グループを表す 単連結法を用いた実験結果 完全連結法を用いた実験結果

7.おわりに まとめ Content-Linkベクトル提案 リンクベクトルの設計 リンクベクトルのカスタマイズ  リンクベクトルのカスタマイズ  Webページのリンク構造への実験と考察

7.おわりに 今後の課題 計算量の改善 基準ページの選択とWebページのグループ構成への影響に関する実験調査 クラスタリング手法の検討  計算量の改善  基準ページの選択とWebページのグループ構成への影響に関する実験調査  クラスタリング手法の検討  他手法との実験比較  文書内容の導入  多くのデータに対する応用  コンテンツ内容の調査