本研究の概要 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用.

Slides:



Advertisements
Similar presentations
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
検索エンジン最適化.
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
HTMLの記述と WWWにおける情報公開 遠藤
参照共起分析の Webディレクトリへの適用
ホームページの作り方.
 授業を設計する(その4) 情報科教育法 後期5回 2004/11/6 太田 剛.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
テキストマイニング, データマイニングと 社会活動のトレース
第3章 第2節 ネットワークを活用した 情報の収集・発信 6 情報の多様な提示方法 7 構造を工夫した情報の表現方法 8 ウエブページの公開
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
プレゼンテーションの仕方 学籍番号:?? 名前:?? 2017/3/17.
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
情報検索演習 第2回 前から4列目までに着席すること 2005年10月05日 後期 水曜5限 江草由佳 国立教育政策研究所
検索サイトの話 情報社会と情報倫理 1/22/09.
9 Microsoft Word(1).
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
情報コミュニケーション入門 総合実習(1) 基礎知識のポイント(2)
日本語解析済みコーパス管理ツール 「茶器」
10 Microsoft Word(1) 10.1 Microsoft Word v.Xの概要 起動 終了
HTTPとHTML 技術領域専攻 3回 中川 晃.
情報コミュニケーション入門b 第10回 Web入門(1)
情報コミュニケーション入門b 第10回 Web入門(1)
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
授業に役立つホームページを探したい ~検索サイト・リンク集の紹介~
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
環境リスクマネジメントに関する 検索システム
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
第3章 第2節 ネットワークを活用した 情報の収集・発信(2) 4 文書の構造と表現
限られた保存領域を使用する Javaプログラムの実行トレース記録手法の 提案と評価
第3章 第2節 ネットワークを活用した 情報の収集・発信 4 文書による情報開示
情報スキル活用  第6週    基礎技術のまとめ  復習.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
情報コミュニケーション入門e 第11回 Part2 Web入門(1)
Internet広域分散協調サーチロボット の研究開発
数量分析 第2回 データ解析技法とソフトウェア
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
テキストマイニング, データマイニングと 社会活動のトレース
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
国立国会図書館の インターネット上の 情報資源に対する取り組み
コーディングパターンの あいまい検索の提案と実装
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
基礎技術ー3 : Webページの標準規格について
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
売れるためのWEBサイト構築.
時間連続性を考慮した 動画からの人物の姿勢推定
第14回放送授業.
自然言語処理2015 Natural Language Processing 2015
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
識別子の読解を目的とした名詞辞書の作成方法の一試案
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
Presentation transcript:

参照元HTMLテキストからの Webサイト紹介文抽出 NTT未来ねっと研究所 原田昌紀, 風間一洋, 佐藤進也 <harada@ingrid.org>

本研究の概要 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用. 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用. 評価: 実用可能性の検証. (十分な数の要約文が得られるか)

サーチエンジンのWebサイト要約 問題点 Webページの先頭テキスト キーワード出現位置周辺のテキスト 機械的に抜粋されたテキストであり,読みにくい. Webサイト単位での概要がわからない.

Webサイト自動要約手法の必要性 既存の自動要約手法では不十分 Webサイト要約手法の要件 適合性判断のための指示的(indicative)要約の出力. 複数のWebページで構成されるWebサイトへの対応. 多様な言語,表現,書式,文書サイズへの対応. 高速かつロバストな処理. 既存の自動要約手法では不十分

本研究のアプローチ Web上にはWebサイトの紹介文が多数存在する. アンカーの周辺に記述されることが多い. レイアウトや文章表現が定型的. 自動抽出し,要約文として利用できる

先行研究との相違 先行研究:“InCommonSense” [Amitay2000] 本研究では: 紹介文の要約としての利用をはじめて提案. 問題点 英語に依存した経験則を利用していた. Web上に紹介文がどれだけ存在するか不明だった. 本研究では: 言語に依存した処理を極力少なくする. 実際に多数の要約文が得られるかを検証する.

システムの概要 ロボットでWebページを収集. レイアウトを解析し紹介文候補を抽出. 要約文に適した紹介文を選別. 十分な数の紹介文が得られるか検証. 紹介文DB

紹介文候補の抽出(1) 典型的なレイアウトを仮定し,アンカーと紹介文の組を抽出. 経験則1 アンカーと紹介文の組で独立した段落となる. 経験則1 アンカーと紹介文の組で独立した段落となる. 経験則2 段落はアンカーで始まり,直後に紹介文が 記述される. ーナーやクーポン情報など様々です。 アンカー 紹介文 ☆山口市 ・山口市のページ。市内情報は元より過去の市報が掲載されていたりと、他の市のホームページに比べ内容は充実している。 段落 ☆玖北地域振興協議会

紹介文候補の抽出(2) 段落は論理的にタグづけされているとは限らない. しかし,上下に視覚的に識別できる境界がある. 例: <DT>, <DD>を用いずに<BR>でリストを記述. しかし,上下に視覚的に識別できる境界がある. → 前後で改行する要素に着目して,空行を境界とする. (空行) アンカー 段落 紹介文テキスト (空行)

要約文に適した紹介文候補の選別 St 紹介文テキストのスコア Sa アンカーテキストのスコア Sr 参照元Webページのスコア テキストのみで紹介文を選別することは難しい. → 要約文としての適切さを3つの要素から評価する. S=St×Sa×Sr St 紹介文テキストのスコア 句読点はあるか,長さは適切か,などを評価. Sa アンカーテキストのスコア Webサイト名と一致するか,長さは適切か,などを評価. Sr 参照元Webページのスコア 同時に抽出された紹介文候補の数からリンク集らしさを評価. 独立した文か? Webサイトの紹介か? 客観的な記述か?

要約文に適した紹介文候補 (S = 144) アンカーテキスト: “やまぐち” 紹介文テキスト: “山口市の遊び場、福祉、イベント情報等が掲載されており、市民にはお勧めです。もちろん史跡案内もありますので観光客にもお役立ちサイトです。” St = 180 適度な長さ(68文字), 句点2個,読点3個 Sa= 0.8 やや短い(4字) Sr = 1.0 同時に抽出された 紹介文候補数: 23個

要約文に適さない紹介文候補 (S = 19.2) アンカーテキスト: “山口市” 紹介文テキスト: “山頭火の庵跡 風来居 文学・記念碑、記念館等 種田山頭火句牌” St = 64 短すぎる(27文字), 句点0個,読点1個 Sa= 0.6 やや短い(3字) Sr = 0.5 同時に抽出された 紹介文候補数: 5個

評価(1) 抽出される紹介文の数 抽出された紹介文候補の数 要約文に適した紹介文の数 ロボットで収集したHTMLテキスト 1,345万URL 抽出された紹介文候補 1,864万個 参照元と参照先が別サーバ上にあるもの 518万個 要約文に適した紹介文の数 閾値T以上のスコアを持つ紹介文候補 175万個 T以上のスコアを持つ紹介文候補の9割が 要約文として使えるように閾値Tを設定.

今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい. 被参照数が大きいほど,紹介文が多く存在するため. 今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい.

上位10サイト中、7サイトに要約文が得られた. デモ Webページの先頭を表示 紹介文による要約を表示 [1] http://www.myline.org/index.html マイライン   新着情報 | マイラインってなに? | 今までと何がちがうの? | どうしたら利用できるの? | 利用.. [2] http://www.alpha-net.ne.jp/users2/boonboon/ ■ ■ ■通信料金総合研究所■ ■ ■   このページをご覧いただくにはフレーム対応のブラウザが必要です。 [3] http://event.yahoo.co.jp/docs/event/myline/ Yahoo! JAPAN - マイライン特集   開催期間:2001年4月20日(金)~10月末日 最近、TVをつけると決まって耳にする言葉「マ.. [1] http://www.myline.org/index.html マイライン事業者協議会   電話会社の選択・固定サービス。制度の概要、利用方法、料金、参加会社一覧等 [2] http://www.alpha-net.ne.jp/users2/boonboon/ 通信料金総合研究所   マイラインの基本の他、各電話会社の比較データが掲載されています。 [3] http://event.yahoo.co.jp/docs/event/myline/ Yahoo!マイライン特集   マイライン基礎の基礎、マイライン登録法、マイライン選びのポイント 上位10サイト中、7サイトに要約文が得られた.

まとめ Webサイト紹介文を抽出・選別し,要約として利用する手法を提案した. 大量のWebページに提案手法を適用し,実用可能性を検証した. レイアウトの解析による紹介文候補の抽出. リンク集を重視した紹介文の選別. 大量のWebページに提案手法を適用し,実用可能性を検証した.

今後の課題 より詳細な評価 選別精度の向上( St の拡張) 検索結果表示方法の検討 指示的要約としての有用性,抽出・選別手法の妥当性 否定的な紹介文の排除 (「 ○○○は嫌いな会社です。」) 検索結果表示方法の検討 紹介文の参照元Webページをハブとして提示. 著作権への対応.

参考文献 [Okumura1999] 奥村 学, 難波 英嗣: “テキスト自動要約に関する研究動向”,自然言語処理, Vol.6, No.6, pp.1--26, 1999. [Amitay2000a] Amitay E., Paris C.: “Automatically Summarising Web Sites - Is There A Way Around It ?”, ACM 9th International Conference on Information and Knowledge Management (CIKM 2000), 2000. [Amitay2000b] Amitay E.: “InCommonSense --- Rethinking Web Search Results”, IEEE International Conference on Multimedia and Expo (ICME 2000), 2000.

サーチエンジンの検索結果表示

要約文に適した紹介文候補の選別 St …紹介文テキストのスコア Sa …アンカーテキストのスコア Sr …参照元Webページのスコア 50~150字程度の長さで,適度に句読点がある. 「ホームページです」「サイトです」等の表現があれば加点. Sa …アンカーテキストのスコア 5~20字程度の長さが適切. 参照先の名称がベスト.URL文字列は0点. Sr …参照元Webページのスコア 参照元はリンク集的か(10個以上の紹介文があるか)