参照元HTMLテキストからの Webサイト紹介文抽出 NTT未来ねっと研究所 原田昌紀, 風間一洋, 佐藤進也 <harada@ingrid.org>
本研究の概要 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用. 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用. 評価: 実用可能性の検証. (十分な数の要約文が得られるか)
サーチエンジンのWebサイト要約 問題点 Webページの先頭テキスト キーワード出現位置周辺のテキスト 機械的に抜粋されたテキストであり,読みにくい. Webサイト単位での概要がわからない.
Webサイト自動要約手法の必要性 既存の自動要約手法では不十分 Webサイト要約手法の要件 適合性判断のための指示的(indicative)要約の出力. 複数のWebページで構成されるWebサイトへの対応. 多様な言語,表現,書式,文書サイズへの対応. 高速かつロバストな処理. 既存の自動要約手法では不十分
本研究のアプローチ Web上にはWebサイトの紹介文が多数存在する. アンカーの周辺に記述されることが多い. レイアウトや文章表現が定型的. 自動抽出し,要約文として利用できる
先行研究との相違 先行研究:“InCommonSense” [Amitay2000] 本研究では: 紹介文の要約としての利用をはじめて提案. 問題点 英語に依存した経験則を利用していた. Web上に紹介文がどれだけ存在するか不明だった. 本研究では: 言語に依存した処理を極力少なくする. 実際に多数の要約文が得られるかを検証する.
システムの概要 ロボットでWebページを収集. レイアウトを解析し紹介文候補を抽出. 要約文に適した紹介文を選別. 十分な数の紹介文が得られるか検証. 紹介文DB
紹介文候補の抽出(1) 典型的なレイアウトを仮定し,アンカーと紹介文の組を抽出. 経験則1 アンカーと紹介文の組で独立した段落となる. 経験則1 アンカーと紹介文の組で独立した段落となる. 経験則2 段落はアンカーで始まり,直後に紹介文が 記述される. ーナーやクーポン情報など様々です。 アンカー 紹介文 ☆山口市 ・山口市のページ。市内情報は元より過去の市報が掲載されていたりと、他の市のホームページに比べ内容は充実している。 段落 ☆玖北地域振興協議会
紹介文候補の抽出(2) 段落は論理的にタグづけされているとは限らない. しかし,上下に視覚的に識別できる境界がある. 例: <DT>, <DD>を用いずに<BR>でリストを記述. しかし,上下に視覚的に識別できる境界がある. → 前後で改行する要素に着目して,空行を境界とする. (空行) アンカー 段落 紹介文テキスト (空行)
要約文に適した紹介文候補の選別 St 紹介文テキストのスコア Sa アンカーテキストのスコア Sr 参照元Webページのスコア テキストのみで紹介文を選別することは難しい. → 要約文としての適切さを3つの要素から評価する. S=St×Sa×Sr St 紹介文テキストのスコア 句読点はあるか,長さは適切か,などを評価. Sa アンカーテキストのスコア Webサイト名と一致するか,長さは適切か,などを評価. Sr 参照元Webページのスコア 同時に抽出された紹介文候補の数からリンク集らしさを評価. 独立した文か? Webサイトの紹介か? 客観的な記述か?
要約文に適した紹介文候補 (S = 144) アンカーテキスト: “やまぐち” 紹介文テキスト: “山口市の遊び場、福祉、イベント情報等が掲載されており、市民にはお勧めです。もちろん史跡案内もありますので観光客にもお役立ちサイトです。” St = 180 適度な長さ(68文字), 句点2個,読点3個 Sa= 0.8 やや短い(4字) Sr = 1.0 同時に抽出された 紹介文候補数: 23個
要約文に適さない紹介文候補 (S = 19.2) アンカーテキスト: “山口市” 紹介文テキスト: “山頭火の庵跡 風来居 文学・記念碑、記念館等 種田山頭火句牌” St = 64 短すぎる(27文字), 句点0個,読点1個 Sa= 0.6 やや短い(3字) Sr = 0.5 同時に抽出された 紹介文候補数: 5個
評価(1) 抽出される紹介文の数 抽出された紹介文候補の数 要約文に適した紹介文の数 ロボットで収集したHTMLテキスト 1,345万URL 抽出された紹介文候補 1,864万個 参照元と参照先が別サーバ上にあるもの 518万個 要約文に適した紹介文の数 閾値T以上のスコアを持つ紹介文候補 175万個 T以上のスコアを持つ紹介文候補の9割が 要約文として使えるように閾値Tを設定.
今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい. 被参照数が大きいほど,紹介文が多く存在するため. 今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい.
上位10サイト中、7サイトに要約文が得られた. デモ Webページの先頭を表示 紹介文による要約を表示 [1] http://www.myline.org/index.html マイライン 新着情報 | マイラインってなに? | 今までと何がちがうの? | どうしたら利用できるの? | 利用.. [2] http://www.alpha-net.ne.jp/users2/boonboon/ ■ ■ ■通信料金総合研究所■ ■ ■ このページをご覧いただくにはフレーム対応のブラウザが必要です。 [3] http://event.yahoo.co.jp/docs/event/myline/ Yahoo! JAPAN - マイライン特集 開催期間:2001年4月20日(金)~10月末日 最近、TVをつけると決まって耳にする言葉「マ.. [1] http://www.myline.org/index.html マイライン事業者協議会 電話会社の選択・固定サービス。制度の概要、利用方法、料金、参加会社一覧等 [2] http://www.alpha-net.ne.jp/users2/boonboon/ 通信料金総合研究所 マイラインの基本の他、各電話会社の比較データが掲載されています。 [3] http://event.yahoo.co.jp/docs/event/myline/ Yahoo!マイライン特集 マイライン基礎の基礎、マイライン登録法、マイライン選びのポイント 上位10サイト中、7サイトに要約文が得られた.
まとめ Webサイト紹介文を抽出・選別し,要約として利用する手法を提案した. 大量のWebページに提案手法を適用し,実用可能性を検証した. レイアウトの解析による紹介文候補の抽出. リンク集を重視した紹介文の選別. 大量のWebページに提案手法を適用し,実用可能性を検証した.
今後の課題 より詳細な評価 選別精度の向上( St の拡張) 検索結果表示方法の検討 指示的要約としての有用性,抽出・選別手法の妥当性 否定的な紹介文の排除 (「 ○○○は嫌いな会社です。」) 検索結果表示方法の検討 紹介文の参照元Webページをハブとして提示. 著作権への対応.
参考文献 [Okumura1999] 奥村 学, 難波 英嗣: “テキスト自動要約に関する研究動向”,自然言語処理, Vol.6, No.6, pp.1--26, 1999. [Amitay2000a] Amitay E., Paris C.: “Automatically Summarising Web Sites - Is There A Way Around It ?”, ACM 9th International Conference on Information and Knowledge Management (CIKM 2000), 2000. [Amitay2000b] Amitay E.: “InCommonSense --- Rethinking Web Search Results”, IEEE International Conference on Multimedia and Expo (ICME 2000), 2000.
サーチエンジンの検索結果表示
要約文に適した紹介文候補の選別 St …紹介文テキストのスコア Sa …アンカーテキストのスコア Sr …参照元Webページのスコア 50~150字程度の長さで,適度に句読点がある. 「ホームページです」「サイトです」等の表現があれば加点. Sa …アンカーテキストのスコア 5~20字程度の長さが適切. 参照先の名称がベスト.URL文字列は0点. Sr …参照元Webページのスコア 参照元はリンク集的か(10個以上の紹介文があるか)