Presentation is loading. Please wait.

Presentation is loading. Please wait.

大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁

Similar presentations


Presentation on theme: "大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁"— Presentation transcript:

1 大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
Web検索における ページのグループ化 大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁

2 はじめに リンク構造解析によるスコアリング 推薦したいページにリンクできない可能性 PageRankアルゴリズム
「リンク行為=推薦行為」と定義 隣接関係を基にスコアリング 推薦したいページにリンクできない可能性 隣接関係だけではモデル化が不可能

3 提案 隣接関係を拡張したスコアリング Webページのグループ化 グループ化スコアリング ランキング
同一作成者による類似情報ページをグループ化 グループ内の隣接関係を削除 = 隣接関係の拡大 グループ化スコアリング グループ化済みリンク構造を基にスコアリング ランキング

4 グループ化 ディレクトリ構造方式 リンク構造方式 B C E D A B C E D A HTML Root HTML Root
Document Root Document Root

5 スコアリング ディレクトリ構造方式 リンク構造方式 B C E D A H G F B C E D A H F G B C E D A H

6 ランキング リンク構造解析と全文検索のスコアを併合 乗算方式 加算方式 (リンク構造解析スコア) × (全文検索スコア)
(リンク構造解析スコア) + (全文検索スコア)

7 実験概要 グループ化によるランキング変化を確認 グループ化手法 スコアリング手法 ランキング手法 ディレクトリ構造方式(簡易版)
全文検索スコア:tf‐idf アルゴリズム リンク構造解析スコア:PageRankアルゴリズム ランキング手法 乗算方式・加算方式

8 実験対象 NTCIR‐4テストコレクション 検索対象 検索語句 NW100G‐01(元HTMLデータ100GB)
NTCIR‐4 Web Task B Topics 300課題から197課題を有効課題として抽出

9 収集データ 全文検索スコアによるランキング リンク構造解析スコアによるランキング 上記2項目の併合スコアによるランキング
グループ化有無の2パターン 上記2項目の併合スコアによるランキング 乗算方式 (全文検索スコア) × (リンク構造解析スコア) 加算方式 (全文検索スコア) + (W × (リンク構造解析スコア)) W = {1,2,3,4,5}

10 グループ化評価 グループ化あり グループ化なし 最大スコア 3.495E-15 2.215E-11 最小スコア 0.278E-15
0.620E-15 平均スコア 1.859E-15 3.581E-15 分散 1/∞ 5.558E-28 中央値 1.883E-15 7.111E-16 項目最大数 565,314 179,903 項目最小数

11 評価比較(WRR)

12 手法別検索結果

13 手法別傾向 グループ化有無2種類のスコアを併合すれば 検索精度が向上するのではないか? グループ化あり グループ化なし Rank変動幅 小
効果発揮帯 低Rank帯 高Rank帯 全文検索の影響 受けやすい 受けにくい グループ化有無2種類のスコアを併合すれば 検索精度が向上するのではないか?

14 追加実験 グループ化有無2種のスコアを併合 収集データ 加算方式
(全文検索スコア)                       + (W1 × (グループ化ありリンク構造解析スコア))  + (W2 × (グループ化なしリンク構造解析スコア)) W1 = {1,3,5},W2 = {1,3,5}

15 評価比較(WRR)

16 考察 グループ化スコアリング ランキング 既存手法ほど劇的な効果はない 既存手法では効果の低い文書に効果がある
全文検索によるランキングの底上げが可能 全文検索に漏れた文書の抽出は不可能 既存手法との併合で精度が全体的に向上

17 今後の課題 グループ化スコアリング 別グループ化手法の有効性の確認 ランキング 乗算・加算以外の併合方法の検証 各スコアの適正重みの検証

18 ありがとうございました

19 評価方式 NTCIR‐4評価方式 WRR(Weighted Reciprocal Rank)
DCG(Discounted Cumulative Gain) 被検索トピック数 (Cumulative Number of Topics  for Relevant Topics were Retrieved) 11点平均適合率(Recall‐Precision)

20 手法単体(WRR)

21 手法単体(DCG)

22 手法単体(トピック)

23 手法単体(11点)

24 NormalPageRank(WRR)

25 NormalPageRank(DCG)

26 NormalPageRank(トピック)

27 NormalPageRank(11点)

28 GroupedPageRank(WRR)

29 GroupedPageRank(DCG)

30 GroupedPageRank(トピック)

31 GroupedPageRank(11点)

32 評価比較(WRR)

33 評価比較(WRR‐Top100)

34 評価比較(DCG)

35 評価比較(DCG‐Top100)

36 評価比較(トピック)

37 評価比較(トピック‐Top100)

38 評価比較(11点)


Download ppt "大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁"

Similar presentations


Ads by Google