Download presentation
Presentation is loading. Please wait.
0
参照元HTMLテキストからの Webサイト紹介文抽出
NTT未来ねっと研究所 原田昌紀, 風間一洋, 佐藤進也
1
本研究の概要 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用.
目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用. 評価: 実用可能性の検証. (十分な数の要約文が得られるか)
2
サーチエンジンのWebサイト要約 問題点 Webページの先頭テキスト キーワード出現位置周辺のテキスト
機械的に抜粋されたテキストであり,読みにくい. Webサイト単位での概要がわからない.
3
Webサイト自動要約手法の必要性 既存の自動要約手法では不十分 Webサイト要約手法の要件
適合性判断のための指示的(indicative)要約の出力. 複数のWebページで構成されるWebサイトへの対応. 多様な言語,表現,書式,文書サイズへの対応. 高速かつロバストな処理. 既存の自動要約手法では不十分
4
本研究のアプローチ Web上にはWebサイトの紹介文が多数存在する. アンカーの周辺に記述されることが多い. レイアウトや文章表現が定型的.
自動抽出し,要約文として利用できる
5
先行研究との相違 先行研究:“InCommonSense” [Amitay2000] 本研究では: 紹介文の要約としての利用をはじめて提案.
問題点 英語に依存した経験則を利用していた. Web上に紹介文がどれだけ存在するか不明だった. 本研究では: 言語に依存した処理を極力少なくする. 実際に多数の要約文が得られるかを検証する.
6
システムの概要 ロボットでWebページを収集. レイアウトを解析し紹介文候補を抽出. 要約文に適した紹介文を選別.
十分な数の紹介文が得られるか検証. 紹介文DB
7
紹介文候補の抽出(1) 典型的なレイアウトを仮定し,アンカーと紹介文の組を抽出. 経験則1 アンカーと紹介文の組で独立した段落となる.
経験則1 アンカーと紹介文の組で独立した段落となる. 経験則2 段落はアンカーで始まり,直後に紹介文が 記述される. ーナーやクーポン情報など様々です。 アンカー 紹介文 ☆山口市 ・山口市のページ。市内情報は元より過去の市報が掲載されていたりと、他の市のホームページに比べ内容は充実している。 段落 ☆玖北地域振興協議会
8
紹介文候補の抽出(2) 段落は論理的にタグづけされているとは限らない. しかし,上下に視覚的に識別できる境界がある.
例: <DT>, <DD>を用いずに<BR>でリストを記述. しかし,上下に視覚的に識別できる境界がある. → 前後で改行する要素に着目して,空行を境界とする. (空行) アンカー 段落 紹介文テキスト (空行)
9
要約文に適した紹介文候補の選別 St 紹介文テキストのスコア Sa アンカーテキストのスコア Sr 参照元Webページのスコア
テキストのみで紹介文を選別することは難しい. → 要約文としての適切さを3つの要素から評価する. S=St×Sa×Sr St 紹介文テキストのスコア 句読点はあるか,長さは適切か,などを評価. Sa アンカーテキストのスコア Webサイト名と一致するか,長さは適切か,などを評価. Sr 参照元Webページのスコア 同時に抽出された紹介文候補の数からリンク集らしさを評価. 独立した文か? Webサイトの紹介か? 客観的な記述か?
10
要約文に適した紹介文候補 (S = 144) アンカーテキスト: “やまぐち”
紹介文テキスト: “山口市の遊び場、福祉、イベント情報等が掲載されており、市民にはお勧めです。もちろん史跡案内もありますので観光客にもお役立ちサイトです。” St = 180 適度な長さ(68文字), 句点2個,読点3個 Sa= 0.8 やや短い(4字) Sr = 1.0 同時に抽出された 紹介文候補数: 23個
11
要約文に適さない紹介文候補 (S = 19.2) アンカーテキスト: “山口市”
紹介文テキスト: “山頭火の庵跡 風来居 文学・記念碑、記念館等 種田山頭火句牌” St = 64 短すぎる(27文字), 句点0個,読点1個 Sa= 0.6 やや短い(3字) Sr = 0.5 同時に抽出された 紹介文候補数: 5個
12
評価(1) 抽出される紹介文の数 抽出された紹介文候補の数 要約文に適した紹介文の数 ロボットで収集したHTMLテキスト 1,345万URL
抽出された紹介文候補 1,864万個 参照元と参照先が別サーバ上にあるもの 万個 要約文に適した紹介文の数 閾値T以上のスコアを持つ紹介文候補 万個 T以上のスコアを持つ紹介文候補の9割が 要約文として使えるように閾値Tを設定.
13
今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい.
被参照数が大きいほど,紹介文が多く存在するため. 今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい.
14
上位10サイト中、7サイトに要約文が得られた.
デモ Webページの先頭を表示 紹介文による要約を表示 [1] マイライン 新着情報 | マイラインってなに? | 今までと何がちがうの? | どうしたら利用できるの? | 利用.. [2] ■ ■ ■通信料金総合研究所■ ■ ■ このページをご覧いただくにはフレーム対応のブラウザが必要です。 [3] Yahoo! JAPAN - マイライン特集 開催期間:2001年4月20日(金)~10月末日 最近、TVをつけると決まって耳にする言葉「マ.. [1] マイライン事業者協議会 電話会社の選択・固定サービス。制度の概要、利用方法、料金、参加会社一覧等 [2] 通信料金総合研究所 マイラインの基本の他、各電話会社の比較データが掲載されています。 [3] Yahoo!マイライン特集 マイライン基礎の基礎、マイライン登録法、マイライン選びのポイント 上位10サイト中、7サイトに要約文が得られた.
15
まとめ Webサイト紹介文を抽出・選別し,要約として利用する手法を提案した. 大量のWebページに提案手法を適用し,実用可能性を検証した.
レイアウトの解析による紹介文候補の抽出. リンク集を重視した紹介文の選別. 大量のWebページに提案手法を適用し,実用可能性を検証した.
16
今後の課題 より詳細な評価 選別精度の向上( St の拡張) 検索結果表示方法の検討 指示的要約としての有用性,抽出・選別手法の妥当性
否定的な紹介文の排除 (「 ○○○は嫌いな会社です。」) 検索結果表示方法の検討 紹介文の参照元Webページをハブとして提示. 著作権への対応.
17
参考文献 [Okumura1999] 奥村 学, 難波 英嗣: “テキスト自動要約に関する研究動向”,自然言語処理, Vol.6, No.6, pp.1--26, 1999. [Amitay2000a] Amitay E., Paris C.: “Automatically Summarising Web Sites - Is There A Way Around It ?”, ACM 9th International Conference on Information and Knowledge Management (CIKM 2000), 2000. [Amitay2000b] Amitay E.: “InCommonSense --- Rethinking Web Search Results”, IEEE International Conference on Multimedia and Expo (ICME 2000), 2000.
18
サーチエンジンの検索結果表示
19
要約文に適した紹介文候補の選別 St …紹介文テキストのスコア Sa …アンカーテキストのスコア Sr …参照元Webページのスコア
50~150字程度の長さで,適度に句読点がある. 「ホームページです」「サイトです」等の表現があれば加点. Sa …アンカーテキストのスコア 5~20字程度の長さが適切. 参照先の名称がベスト.URL文字列は0点. Sr …参照元Webページのスコア 参照元はリンク集的か(10個以上の紹介文があるか)
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.