能動的リソースマイニングに基づく 異種情報統合基盤の研究

Slides:



Advertisements
Similar presentations
1 プリミティブ Web サービスの 入出力データに関する一考察 2005 年 3 月 21 日 松江工業高等専門学校 情報工学科 奈良先端科学技術大学院大学 情報科学研究科 越田高志 電子情報通信学会 2005年総合 大会.
Advertisements

地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
位置情報履歴を利用した サービス提供機構の構築 慶応大学環境情報学部 4 年 徳田研究室 土田泰徳
OWL-Sを用いたWebアプリケーションの検査と生成
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
Web アプリをユーザー毎に カスタマイズ可能にする AOP フレームワーク
シーケンス図の生成のための実行履歴圧縮手法
テキストデータベースからの 構文構造のマイニング
ソースプログラム・アーカイブ・サイト -関数依存グラフと検索への応用-
Webサービスに関する基本用語 Masatoshi Ohishi / NAOJ & Sokendai
国内線で新千歳空港を利用している航空会社はどこですか?
REST型Webサービスによる 楽曲検索システムの開発
メソッド周辺の識別子と メソッド本体のAPI利用実績に基づいたAPI集合推薦手法
データマイニングのための柔軟なデータ取得、操作を支援するAPIの設計
早稲田大学大学院理工学研究科 情報科学専攻修士2年 後藤滋樹研究室 坂本義裕
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
Myoungkyu Song and Eli Tilevich 発表者: 石尾 隆(大阪大学)
ビジネスパターンに基づく クラウドシステムのサービスレベル設計
テキストマイニング, データマイニングと 社会活動のトレース
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
マイクロシミュレーションにおける 可変属性セル問題と解法
セマンティクスを利用した 図書検索システム
ストリーム処理エンジンを用いた 顔映像に対する 補助情報提供システム
CSP記述によるモデル設計と ツールによる検証
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
早わかりアントコロニー最適化 (ACO: Ant Colony Optimization)
第8章 Web技術とセキュリティ   岡本 好未.
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
音高による音色変化に着目した音源同定に関する研究
村山祐司(筑波大学)・尾野久二(㈱パスコ)
実行時情報に基づく OSカーネルのコンフィグ最小化
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
プログラム動作理解支援を目的とした オブジェクトの振舞いの同値分割手法
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
Internet広域分散協調サーチロボット の研究開発
階層的位置表現への 広域化ビュー適用における追尾性向上
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
Spatial Linker - 空間コンテンツ融合の研究 -
楽天広場が仕掛ける webサービスの世界 2003/6/13 楽天株式会社 田中良和.
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
コーディングパターンの あいまい検索の提案と実装
構造的類似性を持つ半構造化文書における頻度分析
地域生活支援システムの開発 越田研究室 j0431 野津洋二.
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
資料3-2 平成26年度 第3回技術委員会資料 次年度テーマの検討
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
オントロジーを利用した Webサービスの実行支援に関する研究
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
時間情報に基づく多様な中心性に着目した 動的ネットワーク分析の提案
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

能動的リソースマイニングに基づく 異種情報統合基盤の研究 研究代表者: 北川博之(筑波大学)  分担者: 天笠俊之, 森嶋厚行(筑波大学) 石川佳治(名古屋大学) 情報源 情報統合による 新たな価値の創造 リソースマイニングに基づくアプローチ → 知識発見と情報統合の融合 主要研究テーマ マイニングと 情報統合に 関わる応用研究 マイニングのための 要素技術に 関する研究 能動性 拡張性 分散環境への適応 能動的統合基盤 リソース マイニング リソース マイニング リソース マイニング DBと連携した文書情報源からの情報抽出 Web連続的モニタリングによるページ移動先探索 比率規則マイニング XMLデータに対するOLAP 連続的クラスタリング 同一オブジェクト(人物)の同定 話題構造マイニング 移動体統計情報抽出 能動的情報統合のための 基盤システムの研究開発 情報爆発の時代を迎え,情報統合の重要性は増加 しかし,一方で情報統合はますます困難に… 情報源の数と規模 情報源の異種性 情報源の動的変化,動的情報源 情報源 情報源 … 情報源 ・統合対象の発見:情報源マイニング ・動的変化:連続的マイニング ・様々な情報源:異種データマイニング ・複数情報源:クロスリソースマイニング → 情報源統合の高度化 拡張性を有する能動的情報統合基盤システム Webからの人物の呼称抽出 比率規則マイニングに関する研究 背景 Webからのオブジェクトに関する動的/非公式な情報抽出に対する需要 (掲示板やWeblogからの商品レビュー、評判情報抽出) 口コミ的な性質の強いWeb情報源では、1つのオブジェクトが様々な呼び方で参照される Webから人物に関する非公式な呼び名(呼称)を抽出する 応用例:ある人物に関する口コミ・最近の話題を掲載したblog記事を発見する データ中の比率規則の抽出 サポートと確信度の概念を導入 複数の線形関係が混在したり,一部分でのみ線形関係が成り立つ場合でも抽出可能 本研究における比率規則 線分とその近傍で比率規則を表現 比率規則に従うタプルの割合を用いてサポートと確信度を定義 サポート:タプル全体に対する割合 確信度:区間Iのタプル中,比率規則に従うものの割合 サポート・確信度を最大とする 最適比率規則を抽出 提案手法の概略 最適 サポート/ 確信度 区間の 抽出 候補 パラメータ を絞り込む × 類似した 比率規則をクラスタリング 比率規則 集合 入力 データ 実験結果 1.呼称候補の抽出  2.隣接パターンの抽出 3.呼称候補の評価 フルネーム 関連オブジェクト名 呼称集合 Web “呼称候補”ことフルネーム “prefix”フルネーム”suffix” “prefix” ”呼称候補” ”呼称候補” ”suffix” 手法の概要 サーチエンジン 小泉純一郎 パラメータ ポチ・純ちゃん・ライオンハート etc. 荒川静香 実験結果(ワインデータベース) イナバウアー・クールビューティー etc. X I Y 松井秀喜 2種類の線形関係を 個別に捉えている ゴジラ・ゴジラ松井 etc. 比率規則 坂本龍一 教授 etc. 話題構造マイニング XML-OLAP XMLデータの多次元分析 文書集合から、主要な話題の抽出や特定の話題にアクセスしたいというニーズの高まり サーチエンジンの検索結果 RSSリーダで取得した最新ニュース群 従来の解決法 クラスタリングの利用・・・以下のような問題点が挙げられる 実データには,全文書がいずれかのクラスタに属するというクラスタリングの前提が当てはまらない クラスタへの割り当て情報以外に得られる情報がない  ⇒ 上記のニーズに即した話題構造マイニングの提案 XMLデータ上での複雑な分析処理の必要性   ●多次元分析,意思決定支援,etc. 現状   ●XPath, XQueryによる問合せ処理が中心   ●XQueryには “GROUP BY” が存在しない XMLデータの多次元分析XML-OLAPの 研究・開発 研究課題   ●XMLデータ上の多次元キューブの形式的定義 多様な概念階層のサポート    -値ベースの概念階層 とXMLの階層構造の組合せ 複雑かつ多様な グルーピング操作 非数値属性の取り扱い    -(構造化)テキストデータ   ●大規模リポジトリへの適用 XML World Relational World E 35 2 /bookinfo/c F T 64 61 /bookinfo/c/c/b/t 63 /sales/area/kansai/kyoto/b/t 1 72 /bookinfo 3400 67 66 /bookinfo/c/c/b/p 74 /sales 2000 45 44 58 49 /sales/area/kansai/osaka/b 70 /sales/area/kansai/kyoto/b 1000 11 10 48 39 14 5 /sales/area/kanto/tsukuba/b value type post pre pexp did 経路 アプローチ ・主要な話題に関するクラスタのみを抽出 ・話題間の関係,クラスタの中心的な話題と各文書の関係等を抽出 ・全文書をいずれかのクラスタに割当 ・クラスタ割り当ての情報のみ 提案手法 クラスタリング アウトライア クラスタ  クラスタの主題に最も近い文書  クラスタの主題に関する文書  クラスタの主題とやや異なる内容を含む文書  特定のクラスタに属しない文書 文書 提案手法を文書集合の可視化に利用した例 Fact Path: pf: doc(“sales.xml”)//b pd: doc(“bookinfo.xml”)//b[t=pf/t]/p Dimension Path: XPath SQL Core Node of topic “AUM-MATSUMOTO-SARIN” Core Node of topic “AUM-LYNCH” 2 1 F B C D A key 3400 3000 8000 2000 1000 value did /bookinfo/c/c/b/p pexp /sales/kanto/osaka/b /sales/kanto/kyoto/b /sales/kansai/tsukuba/b Shared node Supplemental Nodes of topic “AUM-LYNCH” Web連続的モニタリングによるページ移動先探索 能動性をもつ情報統合基盤システム ストリーム等を含めた情報統合基盤:StreamSpinner データ到着やタイマーに連動し,イベント駆動で能動的に各種統合処理を実行 外部関数呼び出し機構やアプリケーション記述のためのJava APIによる拡張性 Webコンテンツ一貫性維持のための ページ移動先探索に関する研究 移動先発見 システム 監視 (3)発見 Webページの移動により生じるリンク切れの問題に着目 ロボットによりWebページ群を監視し,リンク切れを発見したときにWebページの移動先を探索  (2)リンク切れ アプリケーション プログラム 監視対象 Webページ群 情報統合基盤 システム 相関ルール マイニング モジュール 知識発見 データ クリーニング (1)移動 問合せ要求記述 問合せ結果 “ありそうな場所”に着目した探索 12万リンクを対象とした実験結果 問合せ解析器 API 外部関数 呼び出し 機構 ページの位置関係 リンクオーソリティの利用 他ページの 移動情報の利用 Web ページ Web ページ 大学Aの 研究室一覧 イベント通知 メディエータ 4倍の差 ラッパー ラッパー ラッパー ラッパー ラッパー ラッパー 更新 大学Aの 研究室 大学Aの 研究室 RDBMS XMLDB Web 移動 インデックスサーバ Google, Yahoo!, MSN全てを利用 WISHシステム センサー,タグ カメラ メール