Webページタイプによるクラスタ リングを用いた検索支援システム

Slides:



Advertisements
Similar presentations
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Advertisements

生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
OWL-Sを用いたWebアプリケーションの検査と生成
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
顔表情クラスタリングによる 映像コンテンツへのタギング
シーケンス図の生成のための実行履歴圧縮手法
Building text features for object image classification
人工知能特論 8.教師あり学習と教師なし学習
パネル型クエリ生成インタフェース画像検索システムの改良
リアルタイム単語認識技術を利用した カメラベース情報取得システム
形態素周辺確率を用いた 分かち書きの一般化とその応用
Flashプレイヤーを使った動画配信 情報工学科 宮本 崇也.
Twitterの発言に基づくウェブページ推薦システム
国内線で新千歳空港を利用している航空会社はどこですか?
SPA 報告
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
神奈川大学大学院工学研究科 電気電子情報工学専攻
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
ユビキタス環境における コミュニケーション・ツール選択支援機構の提案
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
第8章 Web技術とセキュリティ   岡本 好未.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
練習問題アイテムバンクの開発研究 ~再生形式~
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
環境リスクマネジメントに関する 検索システム
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
WWW上の効率的な ハブ探索法の提案と実装
雑音環境下における 非負値行列因子分解を用いた声質変換
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
複数特徴量の重み付け統合による一般物体認識
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
構造的類似性を持つ半構造化文書における頻度分析
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
オントロジーを利用した Webサービスの実行支援に関する研究
地理情報コンテンツ・データベースコンテンツ新規作成
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

Webページタイプによるクラスタ リングを用いた検索支援システム 折原 大  内海 彰 電気通信大学 システム工学専攻 2008/09/22 NLP若手の会 第3回シンポジウム

はじめに 背景 動機 文書クラスタリングを用いた検索支援システム これらはすべてトピックによる分類を行っている Clusty(http://clusty.jp/) KartOO(http://www.kartoo.com/) Carrot(http://www.carrot-search.com/) これらはすべてトピックによる分類を行っている 動機 ユーザが望む分類はトピックだけではない ニュースサイト/blogなどジャンルによる分類 画像や動画の有無による分類 企業・大学などのオフィシャルサイトかどうかによる分類

本研究の目的 本研究の目的 HTMLタグを用いることで,トピックによる分類ではなく,Webページの形式(ページタイプ)による分類 用意されたカテゴリへの分類(classification)ではなく,クラスタリング手法を用いた検索結果に応じた動的な分類(clustering) HTMLタグの出現頻度情報を元にした新しい素性の提案

ページタイプによるクラスタリングを用いた検索支援システム Live Searchより検索結果上位n件を取得 各ページのHTMLソースを取得 次の3つのStepでクラスタリングを行う Step-1 特徴ベクトルの構成 Step-1F HTMLタグの頻度に基づく特徴ベクトル Setp-1T HTMLタグの木構造に基づく特徴ベクトル Step-2 類似度の計算 Step-3 クラスタの生成 各クラスタの重心に最も近いページをクラスタの代表とし,キャプチャ画像をユーザに提示

検索支援システム 出力例 C#により作成

評価実験 提案する手法を実装し,有用性を検証 分類精度による評価 検索支援システムとしての評価 データ 比較手法 アンケートにより作成した分類正解データ(21件) 比較手法 単語の分布に基づく手法(BoW) Bekkermanらの手法[Bekkerman 06] 検索支援システムとしての評価 2名のユーザに試用してもらい,回答となるページを取得するまでの早さ,多さを比較 Live Search による検索と比較

タグの頻度に基づく特徴ベクトル(最適なパラメータ) 評価結果 - 分類精度 比較手法よりも本研究で提案する2つの手法において分類精度が向上 表1:提案手法と既存手法との比較 平均F値 タグの木構造に基づく特徴ベクトル 0.478 タグの頻度に基づく特徴ベクトル(最適なパラメータ) 0.477 Bekkermanらの手法 0.459 Bag-of-Words (BoW) 0.451

評価結果 – 検索支援システム 2名のユーザに試用してもらった 今後,検索要求タスクを設定し本評価を行う 次のような検索要求において本システムが有用であった 料理のレシピを検索した際に,画像付きで解説されているページが欲しい 文書クラスタリング手法を検索した際に,具体的な内容が書かれているページが欲しい ⇒学会のプログラムが書かれているページが分別 された 今後,検索要求タスクを設定し本評価を行う

今後の課題 検索支援システムとしての問題点を改良 トピックとページタイプを組み合わせたクラスタリング手法の提案 検索結果(クラスタリング結果)出力までの時間がかかりすぎる 30件の検索結果をクラスタリングするのに約1’30″ クラスタリング結果の提示方法 クラスタの代表となるページのキャプチャ画像を提示しているが… トピックとページタイプを組み合わせたクラスタリング手法の提案