Presentation is loading. Please wait.

Presentation is loading. Please wait.

能動的リソースマイニングに基づく 異種情報統合基盤の研究

Similar presentations


Presentation on theme: "能動的リソースマイニングに基づく 異種情報統合基盤の研究"— Presentation transcript:

1 能動的リソースマイニングに基づく 異種情報統合基盤の研究
研究代表者: 北川博之(筑波大学)  分担者: 天笠俊之, 森嶋厚行(筑波大学) 石川佳治(名古屋大学) 情報源 情報統合による 新たな価値の創造 リソースマイニングに基づくアプローチ → 知識発見と情報統合の融合 主要研究テーマ マイニングと 情報統合に 関わる応用研究 マイニングのための 要素技術に 関する研究 能動性 拡張性 分散環境への適応 能動的統合基盤 リソース マイニング リソース マイニング リソース マイニング DBと連携した文書情報源からの情報抽出 Web連続的モニタリングによるページ移動先探索 比率規則マイニング XMLデータに対するOLAP 連続的クラスタリング 同一オブジェクト(人物)の同定 話題構造マイニング 移動体統計情報抽出 能動的情報統合のための 基盤システムの研究開発 情報爆発の時代を迎え,情報統合の重要性は増加 しかし,一方で情報統合はますます困難に… 情報源の数と規模 情報源の異種性 情報源の動的変化,動的情報源 情報源 情報源 情報源 ・統合対象の発見:情報源マイニング ・動的変化:連続的マイニング ・様々な情報源:異種データマイニング ・複数情報源:クロスリソースマイニング → 情報源統合の高度化 拡張性を有する能動的情報統合基盤システム Webからの人物の呼称抽出 比率規則マイニングに関する研究 背景 Webからのオブジェクトに関する動的/非公式な情報抽出に対する需要 (掲示板やWeblogからの商品レビュー、評判情報抽出) 口コミ的な性質の強いWeb情報源では、1つのオブジェクトが様々な呼び方で参照される Webから人物に関する非公式な呼び名(呼称)を抽出する 応用例:ある人物に関する口コミ・最近の話題を掲載したblog記事を発見する データ中の比率規則の抽出 サポートと確信度の概念を導入 複数の線形関係が混在したり,一部分でのみ線形関係が成り立つ場合でも抽出可能 本研究における比率規則 線分とその近傍で比率規則を表現 比率規則に従うタプルの割合を用いてサポートと確信度を定義 サポート:タプル全体に対する割合 確信度:区間Iのタプル中,比率規則に従うものの割合 サポート・確信度を最大とする 最適比率規則を抽出 提案手法の概略 最適 サポート/ 確信度 区間の 抽出 候補 パラメータ を絞り込む × 類似した 比率規則をクラスタリング 比率規則 集合 入力 データ 実験結果 1.呼称候補の抽出  2.隣接パターンの抽出 3.呼称候補の評価 フルネーム 関連オブジェクト名 呼称集合 Web “呼称候補”ことフルネーム “prefix”フルネーム”suffix” “prefix” ”呼称候補” ”呼称候補” ”suffix” 手法の概要 サーチエンジン 小泉純一郎 パラメータ ポチ・純ちゃん・ライオンハート etc. 荒川静香 実験結果(ワインデータベース) イナバウアー・クールビューティー etc. X I Y 松井秀喜 2種類の線形関係を 個別に捉えている ゴジラ・ゴジラ松井 etc. 比率規則 坂本龍一 教授 etc. 話題構造マイニング XML-OLAP XMLデータの多次元分析 文書集合から、主要な話題の抽出や特定の話題にアクセスしたいというニーズの高まり サーチエンジンの検索結果 RSSリーダで取得した最新ニュース群 従来の解決法 クラスタリングの利用・・・以下のような問題点が挙げられる 実データには,全文書がいずれかのクラスタに属するというクラスタリングの前提が当てはまらない クラスタへの割り当て情報以外に得られる情報がない  ⇒ 上記のニーズに即した話題構造マイニングの提案 XMLデータ上での複雑な分析処理の必要性   ●多次元分析,意思決定支援,etc. 現状   ●XPath, XQueryによる問合せ処理が中心   ●XQueryには “GROUP BY” が存在しない XMLデータの多次元分析XML-OLAPの 研究・開発 研究課題   ●XMLデータ上の多次元キューブの形式的定義 多様な概念階層のサポート    -値ベースの概念階層 とXMLの階層構造の組合せ 複雑かつ多様な グルーピング操作 非数値属性の取り扱い    -(構造化)テキストデータ   ●大規模リポジトリへの適用 XML World Relational World E 35 2 /bookinfo/c F T 64 61 /bookinfo/c/c/b/t 63 /sales/area/kansai/kyoto/b/t 1 72 /bookinfo 3400 67 66 /bookinfo/c/c/b/p 74 /sales 2000 45 44 58 49 /sales/area/kansai/osaka/b 70 /sales/area/kansai/kyoto/b 1000 11 10 48 39 14 5 /sales/area/kanto/tsukuba/b value type post pre pexp did 経路 アプローチ ・主要な話題に関するクラスタのみを抽出 ・話題間の関係,クラスタの中心的な話題と各文書の関係等を抽出 ・全文書をいずれかのクラスタに割当 ・クラスタ割り当ての情報のみ 提案手法 クラスタリング アウトライア クラスタ  クラスタの主題に最も近い文書  クラスタの主題に関する文書  クラスタの主題とやや異なる内容を含む文書  特定のクラスタに属しない文書 文書 提案手法を文書集合の可視化に利用した例 Fact Path: pf: doc(“sales.xml”)//b pd: doc(“bookinfo.xml”)//b[t=pf/t]/p Dimension Path: XPath SQL Core Node of topic “AUM-MATSUMOTO-SARIN” Core Node of topic “AUM-LYNCH” 2 1 F B C D A key 3400 3000 8000 2000 1000 value did /bookinfo/c/c/b/p pexp /sales/kanto/osaka/b /sales/kanto/kyoto/b /sales/kansai/tsukuba/b Shared node Supplemental Nodes of topic “AUM-LYNCH” Web連続的モニタリングによるページ移動先探索 能動性をもつ情報統合基盤システム ストリーム等を含めた情報統合基盤:StreamSpinner データ到着やタイマーに連動し,イベント駆動で能動的に各種統合処理を実行 外部関数呼び出し機構やアプリケーション記述のためのJava APIによる拡張性 Webコンテンツ一貫性維持のための ページ移動先探索に関する研究 移動先発見 システム 監視 (3)発見 Webページの移動により生じるリンク切れの問題に着目 ロボットによりWebページ群を監視し,リンク切れを発見したときにWebページの移動先を探索  (2)リンク切れ アプリケーション プログラム 監視対象 Webページ群 情報統合基盤 システム 相関ルール マイニング モジュール 知識発見 データ クリーニング (1)移動 問合せ要求記述 問合せ結果 “ありそうな場所”に着目した探索 12万リンクを対象とした実験結果 問合せ解析器 API 外部関数 呼び出し 機構 ページの位置関係 リンクオーソリティの利用 他ページの 移動情報の利用 Web ページ Web ページ 大学Aの 研究室一覧 イベント通知 メディエータ 4倍の差 ラッパー ラッパー ラッパー ラッパー ラッパー ラッパー 更新 大学Aの 研究室 大学Aの 研究室 RDBMS XMLDB Web 移動 インデックスサーバ Google, Yahoo!, MSN全てを利用 WISHシステム センサー,タグ カメラ メール


Download ppt "能動的リソースマイニングに基づく 異種情報統合基盤の研究"

Similar presentations


Ads by Google