類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Slides:

Advertisements

Similar presentations

組合せ最適化輪講 2.3 連結性川原純. 2.3 連結性内容 – グラフ上の節点をすべてたどるアルゴリズム計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズムトポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.

Advertisements

データモデリング Web ページの検索とランキング Google, Yahoo はこんなことをしている.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

チーム名 : X5 チーム長 : 金泰亨チーム員 : 張洪鉉黃政燮金壯先

最大エントロピーモデルに基づく形態素解析と辞書による影響

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

言語体系とコンピュータ第5回.

国内線で新千歳空港を利用している航空会社はどこですか？

知識情報演習Ⅲ（後半第1回）辻慶太（水）

秘密のリンク構造を持つグラフのリンク解析

参照共起分析の Webディレクトリへの適用

群論とルービックキューブ白柳研究室　水野貴裕.

「Self-Organizing Map 自己組織化マップ」を説明するスライド

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

時空間データからのオブジェクトベース知識発見

検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine

１．自然言語処理システム２．単語と形態素３．文節と係り受け

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

Paper from PVLDB vol.7 (To appear in VLDB 2014)

形態素解析および係り受け解析・主語を判別

テキストの類似度計算

大阪教育大学大学院教育学研究科総合基礎科学専攻中窪仁

自動車レビューにおける検索と分析Ｈ２０８０３２　松岡智也Ｈ２０８０６０中西潤Ｈ２０８０８２　松井泰介.

Topic-Word Selection Based on Combinatorial Probability

日本語解析済みコーパス管理ツール「茶器」

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

検索エンジンを利用した Covert Channelの検出

自然言語処理及び実習第11回　形態素解析.

WWWとブラウザ.

データモデリング Webページの検索とランキング

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

視点移動カメラにおけるカメラキャリブレーション

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

環境リスクマネジメントに関する検索システム

WWW上の効率的なハブ探索法の提案と実装

プリムのアルゴリズム重み付きグラフG=（V,E)の任意の点集合　U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝ｌを含むような最小木が存在する。

The Web as a graph 末次　寛之清水　伸明.

豊田正史（Masashi Toyoda）福地健太郎（Kentarou Fukuchi)

インターネット利用法実習経営工学基礎演習ａ（第3週）.

知識情報演習Ⅲ（後半第3回）辻　慶太

Internet広域分散協調サーチロボットの研究開発

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

知識情報演習Ⅲ（後半第2回）辻　慶太

連続領域におけるファジィ制約充足問題の反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

プログラミングコンテストシステムへの提出履歴データとその分析

超大規模ウェブコーパスを用いた分布類似度計算

知識情報演習Ⅲ（後半第3回）辻　慶太

実空間における関連本アウェアネス支援システム

文書分類モデルの統計的性質に関する一考察

コーディングパターンのあいまい検索の提案と実装

Webページのグループ化による静的動的スコアリング

データ工学特論第六回木村昌臣.

プログラムスライスを用いた凝集度メトリクスに基づく類似メソッド集約候補の順位付け手法

設計情報の再利用を目的とした UML図の自動推薦ツール

発表32 レポート評価支援について（剽窃部分と指導箇所の検出）

Max Cut and the Smallest Eigenvalue 論文紹介

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

自然言語処理2015 Natural Language Processing 2015

シソーラス情報を用いた童話文章登場人物の感情情報読み取りシステム

Webページタイプによるクラスタリングを用いた検索支援システム

自然言語処理2016 Natural Language Processing 2016

識別子の読解を目的とした名詞辞書の作成方法の一試案

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

雑音環境下における Sparse Coding声質変換 3-P-49d

Presentation transcript:

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行

目標 WWWのリンク構造の解析を行い、自分の求めているトピックを正確に探し出す。 HITSアルゴリズムの改善を提案し実験を行う。

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点・類似値の導入・Topic値の導入実験・考察

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点・類似値の導入・Topic値の導入実験・考察

Hubs＆Authorities Hubs Authorities

The HITS algorithmの特徴 J. Kleinberg. 1998 各Webコンテンツの内容に立ち入らず、サイト間のリンク構造の解析のみで、適切な情報を抽出する。適切な情報･･･Hub、Authorityページ集合

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

The HITS algorithm root set の入力 base set の作成 Authority や Hub に重みをつける。

Updated of hubs and authority authority weight : Xp hub weight :Yp (each page p∈V) Xp = Σ　Yq　　←authority weight increased Yq = Σ　Xp　　← hub weight increased q1 ・・・ Yq1 ・・・ pn Yqn qn Xpn　=　Yq1 + ･･･ + Yqn q→p q→p

Updated of hubs and authority Xp1 authority weight : Xp hub weight :Yp (each page p∈V) Xp = Σ　Yq　　←authority weight increased Yq = Σ　Xp　　← hub weight increased q1 ・・・ Xpn ・・・ pn qn Yq1　=　Xp1 + ･･･ + Xpn q→p q→p

Update hubs and authority A : adjacency matrix (隣接行列) a11 a1n ・・・ 1 if page i points to page j 0 otherwise aij A　 = ・・・・・・ ann an1 　　　　　　　　　１　０　１　１　０　　　　　　　　　　　　２　０　０　１　１　　　　　　　　　３　０　０　０　１　　　　　　　　　４　０　０　０　０　　 1 3 A ＝ 2 4

Update hubs and authority １　　２　　　０　１　１　０　　　１２　　２　　　０　０　１　１　　　１３　　１　　　０　０　０　１　　　１４　　０　　　０　０　０　０　　　１　　Hub authority Weight weight 1 3 ＝ 2 4

Update hubs and authority １　　０　　　０　０　０　０　　　２２　　２　　　１　０　０　０　　　２３　　４　　　１　１　０　０　　　１４　　３　　　０　１　１　０　　　０ 1 3 ＝ 2 4 HubWeight AuthorityWeight 　　　０　　　０　　　０　　　０　　　１　　６１　　１９　　　６　　　２　　　１　　　１３６　　４２　　１３　　　４　　　１　１０８　　３３　　１０　　　３　　　１　　収束回数１３回 … ← ← ← ←

HITSアルゴリズムの問題点 base set に本来のトピックとはまったく関係のないページが含まれており、そのページが密なリンク構造である場合、高いweightを与えてしまう。(topic drift 問題)

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点・類似値の導入・Topic値の導入実験・考察

HITSアルゴリズムの改善着目点リンクを張っている、張られているページと内容があまりにも違うならば、weightを低くしても良いのではないか？ →ページ間に類似値を導入 (Bharat et al, SIGIR’98) 自分の探したいトピックがページ内に含まれているのならばweightを高くしても良いのではないか？ →topic値を導入

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点・類似値の導入・Topic値の導入実験・考察

２つのサイトの類似値各ページの索引語の抽出索引語の重み付け各ページをベクトル空間で表記各ベクトル間の類似値を求める文章検索ではポピュラーな方法

索引語の抽出索引語 : その文書を特徴付けるための単語索引語の抽出 : 各文書を形態素解析を行い動詞、名詞、英単語を抽出索引語の抽出 : 各文書を形態素解析を行い　　　　　　　　　　　　　　　　動詞、名詞、英単語を抽出今日 / は / 晴れ / です /。 / しかし / 、 / 明日 / は /晴れ / か / 雨 / か / わかり / ま / せん /。今日は晴れです。しかし、明日は晴れか雨かわかりません。

索引語の抽出索引語 : その文書を特徴付けるための単語索引語の抽出 : 各文書を形態素解析を行い動詞、名詞、英単語を抽出今日晴れ索引語の抽出 : 各文書を形態素解析を行い　　　　　　　　　　　　　　　　動詞、名詞、英単語を抽出今日晴れ。明日雨わかる今日 / は / 晴れ / です /。 /しかし / 、 / 明日 / は /晴れ /か / 雨 / か / わかり / ま / せん /。

索引語の重み付け D１今日 d11 : 1/6 × 2/1 = 1/3 晴れ W1 : 今日 d12 : 2/6 × 2/2 = 1/3 。明日雨わかる d11 : 1/6 × 2/1 = 1/3 d12 : 2/6 × 2/2 = 1/3 d13 : 1/6 × 2/1 = 1/3 d14 : 1/6 × 2/1 = 1/3 d15 : 1/6 × 2/1 = 1/3 W1 : 今日 W2 : 晴れ W3 : 明日 W4 : 雨 W5 : わかるたまたま今回は1/3になってしまう。 D１ D1…Dn ：対象となるサイト TFij : 索引語頻度 W1…Wm : 抽出された索引語 IDFj : 文章頻度の逆数 dij : WiのDjにおける重み dij = TFij × IDFj

各ページをベクトル空間で表記索引語の重みを要素としてベクトルで表現 d1j d2j dｊ = ・・・ dmj d1 = D１ 1/3 d2j d1 = dｊ　= ・・・ dmj D１ dj : ページDjにおけるベクトル表記 dij : 索引語wiのサイトDjにおける重み

各ベクトル間の類似値を求めるベクトル間の類似度 : コサイン尺度 cos(di,dj) = di ・ dj / ||di|| ||dj||

HITSアルゴリズムの改善 aij 1 if page i points to page j 0 otherwise A = aij a1n ・・・ aij 1 if page i points to page j 0 otherwise A　 = ・・・・・・ an1 ann a11 a1n ・・・ aij cos(di,dj) if page i points to page j 0 otherwise A　 = ・・・・・・ an1 ann

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点・類似値の導入・Topic値の導入実験・考察

Topic値トピック値 : ページ内にトピックが含まれているならば一定の値を与える。 Topic（ｊ） = 1 + cos(di,dj) 　　　　　　　るならば一定の値を与える。 Topic（ｊ） = 1 + cos(di,dj) 1 if　Topic ∈　ｄj otherwise いろいろな値を使い実験を行い統計などをとり、適切な値を見つけなければならないが a11 a1n ・・・ cos(di,dj)･Topic(ｊ) 　　　　　　　　　　　 if page i points to page j 0 otherwise aij A　 = ・・・・・・ an1 ann

目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点・類似値の導入・Topic値の導入実験・考察

実験方法 1 １、HITS ２、類似値を用いたHITS ３、類似値＋Topic値を用いたHITS root set の収集方法 : １つURLからリンクをたどり収集たどる方法 : 幅優先 root set のサイズ : 100 base setのサイズ : 1000～5000

実験方法 1 R B ・･････････・・・・・・・・・・・・・・・・・・・

実験プログラム概要 GetURL.class Analysis.class Similarity.class 茶筌を使用 Similarity.class Jamaを使用 CalculateMatrix.class 各Weightの出力

実験結果 http://math.nist.gov/javanumerics/jama/ HITS 類似値類似値＋トピック値　（対象とするトピック : Matrix）１、　http://www.netlib.org/lapack/index.html ２、　http://www.netlib.org/linpack/readme ３、　http://www.mathworks.com/ １、　http://www.mathworks.com/company/pressroom/index.shtml/article/439/index.shtml ２、　http://www.mathworks.com/company/pressroom/index.shtml/article/439/siteindex.shtml ３、　http://www.mathworks.com/company/pressroom/index.shtml/article/439/search １、　http://www.mathworks.com/company/pressroom/index.shtml/article/435/index.shtml ２、　http://www.mathworks.com/company/pressroom/index.shtml/article/435/siteindex.shtml ３、　http://www.mathworks.com/company/pressroom/index.shtml/article/435/search

実験結果 http://www.pure.cc/~winds/volleyball/sunflower/ HITS 類似値類似値＋トピック値　（対象とするトピック : 栗原恵）１、　http://www.jva.or.jp/jva/schedule.html ２、　http://www.jva.or.jp/topics/index.html ３、　http://www.jva.or.jp/jva/index.html １、　http://www.jva.or.jp/japan/motoko/20040127.html ２、　http://www.jva.or.jp/japan/motoko/20031224.html ３、　http://www.jva.or.jp/japan/motoko/20031210.html １、　http://momocan1111.hp.infoseek.co.jp/megu/ ２、　http://momocan1111.hp.infoseek.co.jp/azusa/redrockets_members.html ３、　http://momocan1111.hp.infoseek.co.jp/megu/vleague.html

考察幾つかのケースを除いて、今実験では目に見えた差を得ることが出来なかった。・WWWにおいてページの内容はリンク構造だけで判断可能？　　だけで判断可能？・類似度・トピック値においてそれぞれチュー　　ニングを行うことで精度の向上が可能？

考察文章検索の手法の有効性トピックの意味索引語の抽出方法 base setの作成方法文章検索の有効性・webページにおいて、1文は本なんかに比べるとはるかに短い。・句読点がはっきりと存在しない。トピックの意味・多義性のある単語ではより一般的な意味の方によってしまう。索引語の抽出方法・形態素解析を行いばらばらに抽出したわけだが、より意味的に抽出する。 Basesetの作成方法今回、深さ１で考えて見たがより深くして考えて見る。