類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.

Slides:



Advertisements
Similar presentations
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Advertisements

データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
チーム名 : X5 チーム長 : 金泰亨 チーム員 : 張洪鉉 黃政燮 金壯先
最大エントロピーモデルに基づく形態素解析と辞書による影響
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
秘密のリンク構造を持つグラフのリンク解析
参照共起分析の Webディレクトリへの適用
群論とルービックキューブ 白柳研究室  水野貴裕.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
時空間データからのオブジェクトベース知識発見
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Paper from PVLDB vol.7 (To appear in VLDB 2014)
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
Topic-Word Selection Based on Combinatorial Probability
日本語解析済みコーパス管理ツール 「茶器」
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
WWWとブラウザ.
データモデリング Webページの検索とランキング
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
視点移動カメラにおけるカメラキャリブレーション
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
The Web as a graph 末次 寛之 清水 伸明.
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
インターネット利用法実習 経営工学基礎演習a(第3週).
知識情報演習Ⅲ(後半第3回) 辻 慶太
Internet広域分散協調サーチロボット の研究開発
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
知識情報演習Ⅲ(後半第2回) 辻 慶太
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
プログラミングコンテストシステムへの 提出履歴データとその分析
超大規模ウェブコーパスを用いた 分布類似度計算
知識情報演習Ⅲ(後半第3回) 辻 慶太
実空間における関連本アウェアネス 支援システム
文書分類モデルの統計的性質に関する一考察
コーディングパターンの あいまい検索の提案と実装
Webページのグループ化による 静的動的スコアリング
データ工学特論 第六回 木村昌臣.
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
Max Cut and the Smallest Eigenvalue 論文紹介
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
自然言語処理2015 Natural Language Processing 2015
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
識別子の読解を目的とした名詞辞書の作成方法の一試案
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
Presentation transcript:

類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行

目標 WWWのリンク構造の解析を行い、 自分の求めているトピックを正確に探し出す。 HITSアルゴリズムの改善を提案し実験を行う。

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察

Hubs&Authorities Hubs Authorities

The HITS algorithmの特徴 J. Kleinberg. 1998 各Webコンテンツの内容に立ち入らず、 サイト間のリンク構造の解析のみで、 適切な情報を抽出する。 適切な情報・・・Hub、Authorityページ集合

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

Updated of hubs and authority authority weight : Xp hub weight :Yp (each page p∈V) Xp = Σ Yq  ←authority weight increased Yq = Σ Xp  ← hub weight increased q1 ・・・ Yq1 ・・・ pn Yqn qn Xpn = Yq1 + ・・・ + Yqn q→p q→p

Updated of hubs and authority Xp1 authority weight : Xp hub weight :Yp (each page p∈V) Xp = Σ Yq  ←authority weight increased Yq = Σ Xp  ← hub weight increased q1 ・・・ Xpn ・・・ pn qn Yq1 = Xp1 + ・・・ + Xpn q→p q→p

Update hubs and authority A : adjacency matrix (隣接行列) a11 a1n ・・・ 1 if page i points to page j 0 otherwise aij A  = ・・・ ・・・ ann an1          1 0 1 1 0             2 0 0 1 1          3 0 0 0 1          4 0 0 0 0   1 3 A = 2 4

Update hubs and authority 1  2   0 1 1 0   1 2  2   0 0 1 1   1 3  1   0 0 0 1   1 4  0   0 0 0 0   1   Hub authority Weight weight 1 3 = 2 4

Update hubs and authority 1  0   0 0 0 0   2 2  2   1 0 0 0   2 3  4   1 1 0 0   1 4  3   0 1 1 0   0 1 3 = 2 4 HubWeight AuthorityWeight    0   0   0   0   1   61  19   6   2   1    136  42  13   4   1  108  33  10   3   1   収束回数13回 … ← ← ← ←

HITSアルゴリズムの問題点 base set に本来のトピックとはまったく関係のないページが含まれており、そのページが密なリンク構造である場合、高いweightを与えてしまう。(topic drift 問題)

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察

HITSアルゴリズムの改善着目点 リンクを張っている、張られているページと内容があまりにも違うならば、weightを低くしても良いのではないか? →ページ間に類似値を導入 (Bharat et al, SIGIR’98) 自分の探したいトピックがページ内に含まれているのならばweightを高くしても良いのではないか? →topic値を導入

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察

2つのサイトの類似値 各ページの索引語の抽出 索引語の重み付け 各ページをベクトル空間で表記 各ベクトル間の類似値を求める 文章検索ではポピュラーな方法

索引語の抽出 索引語 : その文書を特徴付けるための単語 索引語の抽出 : 各文書を形態素解析を行い 動詞、名詞、英単語を抽出 索引語の抽出 : 各文書を形態素解析を行い                   動詞、名詞、英単語を抽出 今日 / は / 晴れ / です /。 / しかし / 、 / 明日 / は /晴れ / か / 雨 / か / わかり / ま / せん /。 今日は晴れです。 しかし、明日は晴れか雨かわかりません。

索引語の抽出 索引語 : その文書を特徴付けるための単語 索引語の抽出 : 各文書を形態素解析を行い 動詞、名詞、英単語を抽出 今日 晴れ 索引語の抽出 : 各文書を形態素解析を行い                   動詞、名詞、英単語を抽出 今日 晴れ 。 明日 雨 わかる 今日 / は / 晴れ / です /。 /しかし / 、 / 明日 / は /晴れ /か / 雨 / か / わかり / ま / せん /。

索引語の重み付け D1 今日 d11 : 1/6 × 2/1 = 1/3 晴れ W1 : 今日 d12 : 2/6 × 2/2 = 1/3 。 明日 雨 わかる d11 : 1/6 × 2/1 = 1/3 d12 : 2/6 × 2/2 = 1/3 d13 : 1/6 × 2/1 = 1/3 d14 : 1/6 × 2/1 = 1/3 d15 : 1/6 × 2/1 = 1/3 W1 : 今日 W2 : 晴れ W3 : 明日 W4 : 雨 W5 : わかる たまたま今回は1/3になってしまう。 D1 D1…Dn : 対象となるサイト TFij : 索引語頻度 W1…Wm : 抽出された索引語 IDFj : 文章頻度の逆数 dij : WiのDjにおける重み dij = TFij × IDFj

各ページをベクトル空間で表記 索引語の重みを要素としてベクトルで表現 d1j d2j dj = ・・・ dmj d1 = D1 1/3 d2j d1 = dj = ・・・ dmj D1 dj : ページDjにおけるベクトル表記 dij : 索引語wiのサイトDjにおける重み

各ベクトル間の類似値を求める ベクトル間の類似度 : コサイン尺度 cos(di,dj) = di ・ dj / ||di|| ||dj||

HITSアルゴリズムの改善 aij 1 if page i points to page j 0 otherwise A = aij a1n ・・・ aij 1 if page i points to page j 0 otherwise A  = ・・・ ・・・ an1 ann a11 a1n ・・・ aij cos(di,dj) if page i points to page j 0 otherwise A  = ・・・ ・・・ an1 ann

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察

Topic値 トピック値 : ページ内にトピックが含まれてい るならば一定の値を与える。 Topic(j) = 1 + cos(di,dj)         るならば一定の値を与える。 Topic(j) = 1 + cos(di,dj) 1 if Topic ∈ dj otherwise いろいろな値を使い実験を行い統計などをとり、適切な値を見つけなければならないが a11 a1n ・・・ cos(di,dj)・Topic(j)             if page i points to page j 0 otherwise aij A  = ・・・ ・・・ an1 ann

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察

実験方法 1 1、HITS 2、類似値を用いたHITS 3、類似値+Topic値を用いたHITS root set の収集方法 : 1つURLからリンクを たどり収集 たどる方法 : 幅優先 root set のサイズ : 100 base setのサイズ : 1000~5000

実験方法 1 R B ・・・・・・・・・・ ・・・ ・・・・・・・・・・・・・・・・

実験プログラム概要 GetURL.class Analysis.class Similarity.class 茶筌を使用 Similarity.class Jamaを使用 CalculateMatrix.class 各Weightの出力

実験結果 http://math.nist.gov/javanumerics/jama/ HITS 類似値 類似値+トピック値 (対象とするトピック : Matrix) 1、 http://www.netlib.org/lapack/index.html 2、 http://www.netlib.org/linpack/readme 3、 http://www.mathworks.com/ 1、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/index.shtml 2、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/siteindex.shtml 3、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/search 1、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/index.shtml 2、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/siteindex.shtml 3、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/search

実験結果 http://www.pure.cc/~winds/volleyball/sunflower/ HITS 類似値 類似値+トピック値 (対象とするトピック : 栗原恵) 1、 http://www.jva.or.jp/jva/schedule.html 2、 http://www.jva.or.jp/topics/index.html 3、 http://www.jva.or.jp/jva/index.html 1、 http://www.jva.or.jp/japan/motoko/20040127.html 2、 http://www.jva.or.jp/japan/motoko/20031224.html 3、 http://www.jva.or.jp/japan/motoko/20031210.html 1、 http://momocan1111.hp.infoseek.co.jp/megu/ 2、 http://momocan1111.hp.infoseek.co.jp/azusa/redrockets_members.html 3、 http://momocan1111.hp.infoseek.co.jp/megu/vleague.html

考察 幾つかのケースを除いて、今実験では目に見えた差を得ることが出来なかった。 ・WWWにおいてページの内容はリンク構造 だけで判断可能?   だけで判断可能? ・類似度・トピック値においてそれぞれチュー   ニングを行うことで精度の向上が可能?

考察 文章検索の手法の有効性 トピックの意味 索引語の抽出方法 base setの作成方法 文章検索の有効性 ・webページにおいて、1文は本なんかに比べるとはるかに短い。 ・句読点がはっきりと存在しない。 トピックの意味 ・多義性のある単語ではより一般的な意味の方によってしまう。 索引語の抽出方法 ・形態素解析を行いばらばらに抽出したわけだが、より意味的に抽出する。 Basesetの作成方法 今回、深さ1で考えて見たがより深くして考えて見る。