大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁

Slides:



Advertisements
Similar presentations
授業展開#12 コンピュータの扱いにくい問 題. 扱いにくい問題  処理時間がかかる。  メモリを大量に必要とする。  プログラムの優劣、アルゴリズムの優劣 を比較するためには、標準的なコン ピュータで比較する必要がある。  処理時間を計るのに、コンピュータのモ デルとして、チューリングマシンを考え、
Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
初歩的情報リテラ シーと アンケート集計のた めの Excel ・ SPSS 講 座 2002 年 5 月 14 日 政策科学部助手 山田 一隆.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
学会(総会・地方会)における発表時の利益相反状態の開示について 要項1 ●POSTER(POSTER DISCUSSION を含む) 1) 開示方法は、 POSTER などの CONCLUSION の後に記載してください。(5ページ) 2) 表記は日本語版 様式1、または乳癌学会HPの英語版FOR M1.
OWL-Sを用いたWebアプリケーションの検査と生成
基本情報技術概論 I 演習(第5回) 埼玉大学 理工学研究科 堀山 貴史
Building text features for object image classification
キャッシュ付PRAM上の 並列クィックソートと 並列マージソート
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
情報処理基礎 2006年 6月 1日.
秘密のリンク構造を持つグラフのリンク解析
分散コンピューティング環境上の Webリンク収集システムの実装
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
夢見る図書館情報システム The Cards Challenge !
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
DB マルチメディア・コンテンツの組織化機構 マルチメディア・コンテンツ ①組織化機構 解体・整理の仕事 現実世界に流通するマルチ
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
第11講: 平成18年12月 8日 (金) 4限 E352教室 グラフ (1).
①データ構造 ②アルゴリズム ③プログラム言語 ④マークアップ言語
PlanetLab における 効率的な近隣サーバ選択法
見積もりを使って み つ イラスト 「イラストポップ」 「イラストAC」
Android端末によるロボット制御とその評価
学会(総会・地方会)における発表時の利益相反状態の開示について 要項1
学会(総会・地方会)における発表時の利益相反状態の開示について 要項1
本時のねらい 「相似の意味と性質を理解し、相似な図形の辺の長さや角度を求めることができる。」
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
コードクローンの分類に基づいた メソッド引き上げ手順の提案とその有効性評価
ICT活用指導力向上のための ICT教育研修と校内研修
WWW上の効率的な ハブ探索法の提案と実装
学生の相互評価を用いた モデリング支援システムの開発
雑音環境下における 非負値行列因子分解を用いた声質変換
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
公民No.34 三権分立.
インターネット利用法実習 経営工学基礎演習a(第3週).
Internet広域分散協調サーチロボット の研究開発
Javaを対象としたソフトウェア部品 検索システムSPARS-Jの実験的評価
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
北陸先端科学技術大学院大学 中田豊久,金井秀明,國藤進
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
中点連結定理 本時の目標 「中点連結定理を理解する。」
適応的近傍を持つ シミュレーテッドアニーリングの性能
実空間における関連本アウェアネス 支援システム
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
コーディングパターンの あいまい検索の提案と実装
21  ~ぜったい負けたくない君へ~ 8班.
Webページのグループ化による 静的動的スコアリング
ISO23950による分散検索の課題と その解決案に関する検討
設計情報の再利用を目的とした UML図の自動推薦ツール
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
開発作業の形式化に基づく プロセス評価 松下誠 大阪大学.
2009/11/27 グラフ (1) 第9講: 平成21年11月27日 (金) 4限 E252教室 コンピュータアルゴリズム.
自然言語処理2015 Natural Language Processing 2015
散らばり 本時の目標 資料の傾向をみるときは、代表値だけでなく散らばりを考える必要があることを理解する。
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
演習問題 下記の表は木造家屋建築作業リストである。
Webページタイプによるクラスタ リングを用いた検索支援システム
立方体の切り口の形は?  3点を通る平面はただ1つに決まります。
Facebook広告における 貴社顧客データを活用した 類似ターゲットへの広告配信施策のご提案.
自然言語処理2016 Natural Language Processing 2016
MAUI Project 2009 インターネットにおける近接性
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
●利益計画(参考) 前 期 G.経常利益(E-F) F.営業外損益 E.営業利益(C-D) その他経費 減価償却費 研究開発費 広告宣伝費
Presentation transcript:

大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁 Web検索における ページのグループ化 大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁

はじめに リンク構造解析によるスコアリング 推薦したいページにリンクできない可能性 PageRankアルゴリズム 「リンク行為=推薦行為」と定義 隣接関係を基にスコアリング 推薦したいページにリンクできない可能性 隣接関係だけではモデル化が不可能

提案 隣接関係を拡張したスコアリング Webページのグループ化 グループ化スコアリング ランキング 同一作成者による類似情報ページをグループ化 グループ内の隣接関係を削除 = 隣接関係の拡大 グループ化スコアリング グループ化済みリンク構造を基にスコアリング ランキング

グループ化 ディレクトリ構造方式 リンク構造方式 B C E D A B C E D A HTML Root HTML Root Document Root Document Root

スコアリング ディレクトリ構造方式 リンク構造方式 B C E D A H G F B C E D A H F G B C E D A H

ランキング リンク構造解析と全文検索のスコアを併合 乗算方式 加算方式 (リンク構造解析スコア) × (全文検索スコア) (リンク構造解析スコア) + (全文検索スコア)

実験概要 グループ化によるランキング変化を確認 グループ化手法 スコアリング手法 ランキング手法 ディレクトリ構造方式(簡易版) 全文検索スコア:tf‐idf アルゴリズム リンク構造解析スコア:PageRankアルゴリズム ランキング手法 乗算方式・加算方式

実験対象 NTCIR‐4テストコレクション 検索対象 検索語句 NW100G‐01(元HTMLデータ100GB) NTCIR‐4 Web Task B Topics 300課題から197課題を有効課題として抽出

収集データ 全文検索スコアによるランキング リンク構造解析スコアによるランキング 上記2項目の併合スコアによるランキング グループ化有無の2パターン 上記2項目の併合スコアによるランキング 乗算方式 (全文検索スコア) × (リンク構造解析スコア) 加算方式 (全文検索スコア) + (W × (リンク構造解析スコア)) W = {1,2,3,4,5}

グループ化評価 グループ化あり グループ化なし 最大スコア 3.495E-15 2.215E-11 最小スコア 0.278E-15 0.620E-15 平均スコア 1.859E-15 3.581E-15 分散 1/∞ 5.558E-28 中央値 1.883E-15 7.111E-16 項目最大数 565,314 179,903 項目最小数 1

評価比較(WRR)

手法別検索結果

手法別傾向 グループ化有無2種類のスコアを併合すれば 検索精度が向上するのではないか? グループ化あり グループ化なし Rank変動幅 小 大 効果発揮帯 低Rank帯 高Rank帯 全文検索の影響 受けやすい 受けにくい グループ化有無2種類のスコアを併合すれば 検索精度が向上するのではないか?

追加実験 グループ化有無2種のスコアを併合 収集データ 加算方式 (全文検索スコア)                       + (W1 × (グループ化ありリンク構造解析スコア))  + (W2 × (グループ化なしリンク構造解析スコア)) W1 = {1,3,5},W2 = {1,3,5}

評価比較(WRR)

考察 グループ化スコアリング ランキング 既存手法ほど劇的な効果はない 既存手法では効果の低い文書に効果がある 全文検索によるランキングの底上げが可能 全文検索に漏れた文書の抽出は不可能 既存手法との併合で精度が全体的に向上

今後の課題 グループ化スコアリング 別グループ化手法の有効性の確認 ランキング 乗算・加算以外の併合方法の検証 各スコアの適正重みの検証

ありがとうございました

評価方式 NTCIR‐4評価方式 WRR(Weighted Reciprocal Rank) DCG(Discounted Cumulative Gain) 被検索トピック数 (Cumulative Number of Topics  for Relevant Topics were Retrieved) 11点平均適合率(Recall‐Precision)

手法単体(WRR)

手法単体(DCG)

手法単体(トピック)

手法単体(11点)

NormalPageRank(WRR)

NormalPageRank(DCG)

NormalPageRank(トピック)

NormalPageRank(11点)

GroupedPageRank(WRR)

GroupedPageRank(DCG)

GroupedPageRank(トピック)

GroupedPageRank(11点)

評価比較(WRR)

評価比較(WRR‐Top100)

評価比較(DCG)

評価比較(DCG‐Top100)

評価比較(トピック)

評価比較(トピック‐Top100)

評価比較(11点)