Webページのグループ化による静的動的スコアリング

Slides:

Advertisements

Similar presentations

静岡大学情報学研究科戸根木千洋ユーザーイメージ収集インターフェースの開発. 2 目次背景と目的研究の構成研究の詳細イメージ収集インターフェースの提案映画イメージ収集システムの開発システムの評価今後の課題.

Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.

静脈画像を鍵とする暗号化手法に関する研究大山研究室安藤のぞみ. 研究の背景、目的近年、バイオメトリクス認証が注目されている静脈は身体内部の情報 → 偽造に強い環境に左右されることが少ない利用者の心理的抵抗が軽減されるオープンなネットワークへのバイオメトリクス認証の適用 : Double.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

OWL-Sを用いたWebアプリケーションの検査と生成

ユーザーイメージ収集インターフェイスの開発

円形管における３次元骨組解析への適用事例平成１６年９月１７日（株）アイエスシイ犬飼隆義.

遺伝的アルゴリズムにおけるランドスケープによる問題のクラス分類

Building text features for object image classification

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

XHTML構文検証手法におけるスクリプト要素の静的解析アルゴリズム

国内線で新千歳空港を利用している航空会社はどこですか？

秘密のリンク構造を持つグラフのリンク解析

分散コンピューティング環境上の Webリンク収集システムの実装

参照共起分析の Webディレクトリへの適用

神奈川大学大学院工学研究科電気電子情報工学専攻

時空間データからのオブジェクトベース知識発見

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

マイクロシミュレーションにおける可変属性セル問題と解法

テキストの類似度計算

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

大阪教育大学大学院教育学研究科総合基礎科学専攻中窪仁

PlanetLab における効率的な近隣サーバ選択法

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

３次元剛体運動の理論とシミュレーション技法

Java ソフトウェア部品検索システム SPARS-J のためのリポジトリ自動更新機能の実現

サーバ負荷分散におけるOpenFlowを用いた省電力法

プログラム実行履歴を用いたトランザクションファンクション抽出手法

静的情報と動的情報を用いたプログラムスライス計算法

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

環境リスクマネジメントに関する検索システム

第14章　モデルの結合修士２年山川佳洋.

WWW上の効率的なハブ探索法の提案と実装

プリムのアルゴリズム重み付きグラフG=（V,E)の任意の点集合　U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝ｌを含むような最小木が存在する。

The Web as a graph 末次　寛之清水　伸明.

第7回授業計画の修正中間テストの解説・復習前回の補足（クロックアルゴリズム・PFF) 仮想記憶方式のまとめ特別課題について

TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法

Internet広域分散協調サーチロボットの研究開発

Javaを対象としたソフトウェア部品検索システムSPARS-Jの実験的評価

階層的位置表現への広域化ビュー適用における追尾性向上

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

“SFC SUBWAY Maniacs” プロジェクト計画書

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

エピソード記憶に訴えるBookmarkless Bookmarkの実現

複数特徴量の重み付け統合による一般物体認識

片方向通信路を含むネットワークアーキテクチャに於ける動的な仮想リンク制御機構の設計と実装

Javaソフトウェア部品検索システムSPARS-Jの実験的評価

背景課題目的手法作業期待成果有限体積法による汎用CFDにおける流体構造連成解析ソルバーの計算効率の検証

○ 後藤祥1，吉田則裕2 ，井岡正和1 ，井上克郎1 1大阪大学 2奈良先端科学技術大学院大学

早稲田大学大学院基幹理工学研究科情報理工学専攻後藤研究室修士１年魏元

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

ISO23950による分散検索の課題とその解決案に関する検討

構造的類似性を持つ半構造化文書における頻度分析

プログラムスライスを用いた凝集度メトリクスに基づく類似メソッド集約候補の順位付け手法

設計情報の再利用を目的とした UML図の自動推薦ツール

メソッドの同時更新履歴を用いたクラスの機能別分類法

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

資料3-2 平成26年度第3回技術委員会資料次年度テーマの検討

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

わかりやすいパターン認識第６章特徴空間の変換６．５ KL展開の適用法〔１〕 KL展開と線形判別法〔２〕 KL展開と学習パターン数

Webページタイプによるクラスタリングを用いた検索支援システム

エイリアス関係を考慮した Javaプログラム用静的スライシングツール

学籍番号：氏名：峯村孝征指導教員：小林泰秀准教授

識別子の読解を目的とした名詞辞書の作成方法の一試案

Presentation transcript:

Webページのグループ化による静的動的スコアリング大阪教育大学大学院教育学研究科数理情報コース 039606 中窪仁

他の手法と全文検索を併用し，精度向上を図る背景 WWW空間上には膨大な情報が存在必要な情報のみの抽出は困難ロボット型Web検索システム大量の情報を蓄積全文検索により必要と思われる情報を抽出全文検索のみによる検索精度向上は困難他の手法と全文検索を併用し，精度向上を図る

関連研究リンク構造解析による手法 PageRankアルゴリズム HITSアルゴリズム各Webページの有用性を示す Scam Web*1の影響を受けにくい HITSアルゴリズム類似情報をもつWebページ群の抽出が可能 *1 Scam Web: Webページのスコアをあげるため，複数ダミーページからリンクを行う構造

PageRankアルゴリズム概要基本概念スコアの特徴ランダムウォークモデルリンク行為＝リンク先Webページの推薦検索語句に左右されない静的スコア

HITSアルゴリズム概要基本概念スコアの特徴 Webページを2種類の観点で評価類似情報をもつWebページ群を抽出可能情報源として有用なWebページ（Authority）リンク集として有用なWebページ（Hub）スコアの特徴類似情報をもつWebページ群を抽出可能検索語句に左右される動的スコア

各既存手法の問題点 PageRankアルゴリズム HITSアルゴリズムリンク行為＝推薦行為？既知の問題特定ページ以外へのリンクを拒否するWebサイト掲示板などの揮発性情報 HITSアルゴリズム既知の問題常に適切なコミュニティを抽出できるとは限らない

× 各既存手法の問題点解決案 PageRankアルゴリズム問題発生の原因問題解決案リンク構造上隣接関係を基にしていること再帰的に解決されるリンク構造上隣接関係を考慮アルゴリズムの拡張リンク構造の拡張リンク元リンク先 × 中継点中継によりリンク元の影響力が減衰

各既存手法の問題点解決案 HITSアルゴリズム問題発生の原因問題解決案検索語句に関係ないWebページが考慮されることアルゴリズム適用対象の精査検索語句との関連性を考慮アルゴリズム適用範囲検索語句に無関係のWebページが存在全文検索結果集合

提案手法グループ化静的/動的スコアリングランキング Webページを一定法則においてグループ化グループ化を併用しリンク構造解析を適用複数スコアの併合により最終評価を決定

提案システム全文検索スコアスコアリング動的スコア#1 グループ化動的スコア#2 静的スコアランキングリンク構造データ全文検索結果スコアリング文書データランキングリンク構造データ動的スコア#1 静的スコアグループ化動的スコア#2

グループ化目的基本概念リンク構造上隣接関係の拡張 Webページ集合への意味付与類似情報をもつWebページ集合をグループ化類似情報：同一作成者/同一コンテンツ扱い 2種類の方式：ディレクトリ構造/リンク構造グループ内リンク構造を削除

グループ化アルゴリズムディレクトリ構造方式リンク構造方式 B C E D A B C E D A HTML Root HTML Root Document Root Document Root

静的スコアリング目的基本概念 Webページの重要度を決定 PageRankアルゴリズム問題点を軽減スコアリング対象は全Webページグループ化済みリンク構造を解析/評価

静的スコアリング例ディレクトリ構造方式リンク構造方式 B C E D A H G F B C E D A H F G B C E D A Web Site Web Site

動的スコアリング目的基本概念検索語句依存のWebページ重要度を決定 HITSアルゴリズム問題点を軽減スコアリング対象は全文検索結果集合グループ化なしリンク構造を解析/評価（#1）グループ化ありリンク構造を解析/評価（#2）

動的スコアリング例動的スコア#1 動的スコア#2 U Y U Y V W X Z V W X Z Retrieved Documents

ランキング目的基本概念複数スコアを併合し，最終的なスコアを決定各スコアの特性を生かす併合方式を採用各スコアの粒度を揃えた上で併合重み付け加算を利用重み係数の適正値は実験により決定各スコアの粒度を揃えた上で併合各スコアに累乗根を適用

実験目的実験項目提案手法の有効性を検証既存手法との比較検証グループ化評価全文検索/静的/動的スコア単体評価併合スコア評価/重み係数最適値検証

プロトタイプ全文検索リンク構造解析可変長グラムベースインデクス tf-idf法+確率モデルによるスコアリングスコアリング結果上位2500件を抽出リンク構造解析 PageRankアルゴリズムによるスコアリング

検索対象 NTCIR-4 Web テストコレクション*2 文書データリンク構造データ NW100G-01（元HTMLデータ100GB分） Webページ総数：約1100万Webページリンク構造データリンク総数：約8000万リンク *2 NTCIR: 情報検索システム評価用テストコレクション構築プロジェクト（NII-NACSIS Test Collection for IR Systems）

検索課題 NTCIR-4 Web Task B Formal Run 本実験で利用した検索課題検索課題総数：300課題有効課題数：197課題本実験で利用した検索課題検索課題数：77課題 NTCIR-4 Webにおける有効課題より抽出全文検索による抽出文書数が一定数以上の検索課題

評価手法 Weighted Reciprocal Rank（WRR） Discounted Cumulative Gain（DCG）高適合文書の抽出ランクを評価 Discounted Cumulative Gain（DCG）適合文書抽出の連続性を評価 11点平均適合率（適合率，再現率）特定再現率における適合率を評価累積適合課題数適合文書抽出課題数を評価

グループ化処理結果グループあたりWebページ数に偏りグループ化手法の再検討が必要グループあたりリンク数に影響する可能性 Webページ数最小値 1 平均値 5 最大値 30,466 中央値グループあたりWebページ数に偏りグループあたりリンク数に影響する可能性グループ化手法の再検討が必要

> < グループ化処理結果比較静的スコアリング：ノード数減/リンク数減動的スコアリング：ノード数減/リンク数増なしありノード数 23,670,000 4,500,000 192,500 124,041 リンク数 79,700,000 18,140,000 95,848 120,292 > < 静的スコアリング：ノード数減/リンク数減動的スコアリング：ノード数減/リンク数増提案手法において期待した処理結果

各スコアリング結果比較グループ化によるスコアの平均化 →適合文書の抽出能力低下全文検索静的スコア動的スコアグループ化－なしあり最小値 2.283 7.314E-9 3.344E-8 6.846E-5 7.675E-5 平均値 10.389 4.223E-8 2.223E-7 4.000E-4 6.369E-4 最大値 30.260 2.613E-4 4.199E-7 4.863E-1 5.687E-2 中央値 9.482 8.386E-9 2.261E-7 7.012E-5 5.101E-4 グループ化によるスコアの平均化 →適合文書の抽出能力低下

最大値：グループ化なし > グループ化あり最小値：グループ化なし < グループ化あり各スコアリング結果比較全文検索静的スコア動的スコアグループ化－なしあり最小値 2.283 7.314E-9 3.344E-8 6.846E-5 7.675E-5 平均値 10.389 4.223E-8 2.223E-7 4.000E-4 6.369E-4 最大値 30.260 2.613E-4 4.199E-7 4.863E-1 5.687E-2 中央値 9.482 8.386E-9 2.261E-7 7.012E-5 5.101E-4 < > グループ化有無でスコア分布傾向が変化最大値：グループ化なし > グループ化あり最小値：グループ化なし < グループ化あり

各スコアリング評価 Weighted Reciprocal Rank グループ化あり静的スコア単体では適合文書抽出不可能

各スコアリング評価 Weighted Reciprocal Rank 動的スコアはランクにより優位性が変化

静的スコアリング評価結果詳細手法別適合文書抽出課題数未抽出グループ化有無グループ化なしグループ化なしグループ化ありグループ化ありグループ化なし：61% / グループ化あり：13%

動的スコアリング評価結果詳細手法別適合文書抽出課題数未抽出グループ化有無グループ化なしグループ化なしグループ化ありグループ化ありグループ化なし：32% / グループ化あり：31%

各スコアリング手法特徴静的スコアリンググループ化なしグループ化ありスコアの分布範囲広狭スコアリング効果発揮帯高ランク帯低ランク帯ランクへの影響度高低適合課題中の占有率 82% 18% 動的スコアリング同等 42% 58%

スコア併合式検討各スコア単体ではランクへの影響が微小グループ化有無でスコアの特徴が正反対特定のスコアをベースにスコア併合を行う全文検索スコアをベースと扱うグループ化有無ともに併合を行うグループ化なし静的スコアを考慮

検討後スコア併合式併合スコア（p） = Wr×全文検索スコア（p）＋静的スコア（p）＋動的スコア（p）静的スコア（p） = Ws1×グループ化なし静的スコア（p）　　＋Ws2×グループ化あり静的スコア（p）動的スコア（p） = Wd1×動的スコア#1（p）　　＋Wd2×動的スコア#2（p）

適正重み係数調査結果 (Wr, Ws1, Ws2, Wd1, Wd2) [ Rank ] Wr = {1, 2}, Wx = {0, 1, 2}, x∈{s1, s2, d1, d2} … … … … 動的スコアなし動的スコア#1 or #2 単体動的スコア併合

vs. “tf-idf+PageRank” Weighted Reciprocal Rank +6% +180%

vs. “tf-idf+PageRank” 11点平均適合率 +140% +6%

提案手法考察グループ化手法効果グループ化の有効性を確認グループ化手法については再検討が必要各グループの粒度に格差静的スコアリング：ノード数減/リンク数減動的スコアリング：ノード数減/リンク数増グループ化の有効性を確認グループ化手法については再検討が必要

ランキングを大きく変動させることは不可能提案手法考察静的スコアリンググループ化適用によるスコアへの影響スコア適用先が変更グループ化なしスコアと異なる文書にスコアリングスコアの平均化ランキングへの影響度が減少既存手法では抽出できない文書を抽出可能ランキングを大きく変動させることは不可能

提案手法考察動的スコアリング精度面で非常に劣る結果各スコアリングの特徴グループ化手法検討後に再実験が必要不適合文書を多く抽出グループ化精度の影響各スコアリングの特徴 #1：既存手法と同様の文書に僅かな影響力 #2：既存手法と異なる文書に大きな影響力グループ化手法検討後に再実験が必要

提案手法考察ランキング評価結果スコア併合式/適正重み係数提案手法による精度向上を確認動的スコアを併合しない算出式が最良結果グループ化精度の影響既存手法に比べ6%程度の精度向上スコア併合式/適正重み係数今回の実験では決定不可能提案手法による精度向上を確認

まとめグループ化によるランキング手法を提案今後の課題各提案手法の有効性を確認提案手法による精度向上を確認グループ化手法の再検討スコア併合式/適正重み係数の検討

ありがとうございました

付録

PageRankアルゴリズム例 100 50 53 50 9 3

HITSアルゴリズム例スコアリング Root 適用手順 H: 0 A: 0.408 A: 0.816 H: 0.408 A: 0 Base

スコア併合式併合スコア（p） = Wr×全文検索スコア（p）＋Ws×静的スコア（p）＋Wd×動的スコア（p）動的スコア（p） = Wd1×動的スコア#1（p）　　＋Wd2×動的スコア#2（p）

評価方式 NTCIR-4 Web Task B 適合判定結果多値適合レベル適合文書不適合文書高適合，適合，部分適合，不適合の4レベル

処理時間全文検索所要時間全文検索用インデクス作成 2080min. 検索課題あたり平均検索時間 707msec. リンク構造解析ドキュメントID→PageRankスコア算出用データ 40min. グループ化なし静的スコアリング 1004min. グループ化あり静的スコアリング 4min. PageRankスコア算出結果→ドキュメントID 14min. グループ化なし動的スコアリング 16min. グループ化あり動的スコアリング 20min.

ディスク /メモリ使用量全文検索外部記憶使用量元データ 100GB インデクス 30.2GB リンク構造解析リンク構造データ PageRankスコア算出用データ 1.5GB 内部記憶使用量 PageRankスコア算出プログラム 1.6GB

各スコアリング評価 Discounted Cumulative Gain

各スコアリング評価累積適合課題数

各スコアリング評価 11点平均適合率

各スコアリング評価比較全文検索静的スコア動的スコアグループ化－ × ○ WRR 10 0.03090 0.03510 0.00162 0.00325 100 0.03895 0.04307 0.00043 0.00619 0.00492 DCG 0.19169 0.21926 0.00866 0.02417 0.43771 0.65954 0.02146 0.09893 0.09364 累積課題 9 1 29 23 2 8

各スコアリング評価比較 Weighted Reciprocal Rank

各スコアリング評価比較 Discounted Cumulative Gain

各スコアリング評価比較累積適合課題数

スコア粒度調整全文検索スコアリンク構造解析スコア 2乗根を適用 101のオーダーに圧縮（対応範囲：１～１００） 16乗根を適用最小値： 2.2831 最大値： 30.2596 リンク構造解析スコア最小値： 7.3143E-9 最大値： 4.8634E-1 2乗根を適用 101のオーダーに圧縮（対応範囲：１～１００） 16乗根を適用 10-1のオーダーに圧縮（対応範囲：1～1.0E-16）

全文検索スコアベース静的スコアリング評価比較グループ化－ × ○ ×○ WRR 10 0.03090 0.09665 0.02960 0.10314 100 0.03895 0.10574 0.03872 0.11225 DCG 0.19169 0.56869 0.18330 0.56989 0.43771 1.31375 0.43811 1.32008 累積課題 9 17 8 29 37

全文検索スコアベース評価比較 Weighted Reciprocal Rank

全文検索スコアベース評価比較 Discounted Cumulative Gain

全文検索スコアベース評価比較累積適合課題数

全文検索スコアベース評価比較 11点平均適合率

全文検索スコアベース評価比較 Weighted Reciprocal Rank

全文検索スコアベース評価比較 Discounted Cumulative Gain

全文検索スコアベース評価比較累積適合課題数

適正重み係数調査結果上位3パターン全文検索提案手法（1,1,1,0,0）（2,2,1,0,0）（1,1,2,0,0） WRR 10 0.03090 0.103139 100 0.03895 0.112253 0.112279 0.112088 DCG 0.19169 0.569888 0.568694 0.566949 0.43771 1.320078 1.314444 1.316460 累積課題 9 17 29 37

上位3パターン評価結果比較 Weighted Reciprocal Rank

上位3パターン評価結果 Discounted Cumulative Gain

上位3パターン評価結果累積適合課題数

上位3パターン評価結果 11点平均適合率

Vs tf-idf+PageRank Discounted Cumulative Gain

Vs tf-idf+PageRank 累積適合課題数