Session 20: Statistical Methods

Session 20: Statistical Methods
【VLDB 2011勉強会】 Session 20: Statistical Methods 担当：石川佳治(名大） Some figures are copied from VLDB 2011 proceedings.

Session 20: Statistical Methods 担当：石川（名大）
Tuffy: Scaling up Statistical Inference in Markov Logic networks using an RDBMS Feng Niu, Christopher Ré, AnHai Doan, Jude Shavlik (U. Wisconsin-Madison) マルコフ論理ネットワーク（Markov logic network）における大規模推論を可能とするためRDBMS技術を活用マルコフ論理ネットワーク（P. Domingos / U. Washington) 論理型言語と確率的推論を統合：DB的に言うと，「ルールに重みを入れたDatalog」同じ論文には一般に同じカテゴリが付与ルール重み cat(p, c1), cat(p, c2) => c1 = c2 5 wrote(x, p1), wrote(x, p2), cat(p1, c) => cat(p2, c) 1 cat(p1, c), refers(p1, p2) => cat(p2, c) 2 paper(p, u) => x. wrote(x, p) + cat(p, `Networking’) -1 同じ著者が書いた論文のカテゴリは同じことが多い述語： paper(id, URL) wrote(author, paper) refers(paper, paper) cat(paper, category) 参照先論文のカテゴリは参照論文と同じことが多い論文には必ず著者がいる（ハードな制約）ネットワークに関する論文はこのDBにはない Session 20: Statistical Methods 担当：石川（名大）

マルコフ論理ネットワークの概要プログラムの評価・述語インスタンスをもとに，ルール　　に基づいてネットワーク構築：グラフ構造は　マルコフ確率場（MRF）に相当・MaxSATによる最大事後確率（MAP）推定：　ヒューリスティックを利用（WalkSAT） refers(p1, p2) cat(p1, “DB”) cat(p2, “AI”) cat(p3, DB) wrote(“Mike”, p1) wrote(“Tom”, p2) wrote(“Tom”, p3) groundingフェーズが重い! wrote refers cat paper Author Paper Mike p1 Tom p2 p3 … Paper p1 p2 … Paper Category p1 DB p2 AI p3 … PaperID URL … 2フェーズでの推論処理 1. grounding：グラフ構造を構築し，　大規模な重み付きSAT式を生成 2. search：SAT式に対する低コストの重み（解）の割り当て Session 20: Statistical Methods 担当：石川（名大）

本研究のアイデア評価戦略の変更（groundingフェーズ）トップダウン評価（Prolog の証明戦略）から RDBMS を用いたボトムアップ評価へ 7時間の grounding 処理（Alchemy）が2分（Tuffy）に例：ルール wrote(x, p1), wrote(x, p2), cat(p1, c) => cat(p2, c) に対するSQL生成 Search フェーズの効率化 ①RDBMSと分担，②グラフを分解し部分問題を並列処理プロトタイプ：機械学習の専門家より：学習法のアプローチが古いかも SELECT w1.author, w1.paper, w2.paper, c1.category, c2.category FROM wrote w1, wrote w2, cat c1, cat c2 WHERE w1.author = w2.author AND w1.paper = c1.paper AND w2.paper = c2.paper Session 20: Statistical Methods 担当：石川（名大）

Dissemination of Models over Time-Varying Data
Yongluan Zhou, Zografoula Vagena, Jonas Haustad (U. Southern Denmark / Rice U.) 時系列データ（株価，交通情報など）のネット配信受信する各ユーザの要求はさまざま：生データが必要 or 要約データでよい解決策：モデルの配信各ユーザの要求に応じて要約した時系列を送る P2P的な配信：各ユーザをノード（ピア）とする配信木（dissemination tree）を構築問題定義無限に続く時系列データを配信各ユーザは精度要求（accuracy requirement）を指定 Session 20: Statistical Methods 担当：石川（名大）

手法の概略（１）精度要求の尺度近似の範囲を指定 [v – , v + ] ．．．他にもいろいろ可能基本的には，精度要求の間に全順序 ari < arj がつけばよい配信システム受信者（data receiver）をノードとした配信木をオーバーレイネットワーク上に構築目的：時系列データに対する n 個のモデル {m1, …, mn}，各受信者 nk の精度要求 ark，および配信木が与えられたとき，nk に対して適用できるモデルの集合 Mk を選択時系列全体がカバーできるように Mk を選択ネットワーク上を配信されるモデル数を最小化 Model Producer DR1 DR2 DR3 DR4 DR5 Session 20: Statistical Methods 担当：石川（名大）

手法の概略（２）ここでいうモデルとは? 何でもよく，手法は問わないモデル mi はいくつかの時区間をカバーして近似近似精度 aij の間には全順序が存在することのみ考慮最適化のアプローチヒューリスティクスに基づく処理枝刈り + クラスタリング拡張：分散ルーティング配信処理の制御を分散して実行コメント：阪大西尾研のコメントを聞きたい [Fig 2 of VLDB 2011 paper] Session 20: Statistical Methods 担当：石川（名大）

Storing Matrices on Disk: Theory and Practice Revisited
Yi Zhang, Kamesh Munagala, Jun Yang (Duke U.) 大規模な多次元配列のディスク上での管理方式多様な応用（例：科学データベース，信号処理，数値計算）・アクセスパターンに対応更新処理に効率的に対応配列のsparsityに適応的に対応：疎行列⇔密行列の変化に対し追従 LAB-木 (Linearlized Array B-tree） B-木の構造に基づく配列データの管理適応的なノード分割処理バッチ的な更新コメント：すごくちまちました話 Session 20: Statistical Methods 担当：石川（名大）

LAB-木の概要離散データを対象線形化（linearlization）関数による格納レイアウト指定 d 次元配列のデータを1次元にどのように並べるか，ユーザが指定可能デフォルト値（通常は0を設定）：データが挿入されていないエントリにはデフォルト値が入っているように振舞う配列要素へのアクセス方式配列の添え字によるアクセス線形化関数を指定することによる繰り返し（iteration）：LAB- 木構築時に指定した線形化関数と違うものを指定してもよい矩形領域を指定してのread/write Session 20: Statistical Methods 担当：石川（名大）

効率化のための工夫ノード分割戦略複数の戦略を比較検討（正直いって細かい）空間の無駄がどの程度生じるか処理時間理論的な評価尺度オフラインの最適戦略に対する競合比を理論的に解析 No-dead-spaceの性質があるか否か：将来の挿入がどうであっても空のままの領域が生じうるときをいうバッチ的な更新処理継続的な挿入はバッファ上のページに反映どのタイミングでどのページをフラッシュするかいくつかの戦略を提案・比較 1 3 4 7 1 3 4 7 Session 20: Statistical Methods 担当：石川（名大）

Online Aggregation for Large MapReduce Jobs
Niketan Pansare, Vinayak Borker, Chris Jermaine, Tyson Condie (Rice U. / UC Irvine / Yahoo! Research) オンライン集約（Online Aggregation; OLA） Joe Heller Stein, Peter Haasら：SIGMOD 2007 Test of Time Award受賞問合せ処理とサンプリング＋統計的推定手法の組合せ問合せ結果の推定値と信頼区間を提示：問合せ処理の進行につれ精度が向上 – 満足した時点でユーザは問合せ終了可例：SELECT avg(株価) from 株価DB where 企業 = ‘X’ 1分後に，95%の確率で [0, 2000] という推定値を提示 2分後に，95%の確率で [900, 1100] という推定値を提示 … 2時間後に問合せ処理終了：結果値 1000 を出力 Session 20: Statistical Methods 担当：石川（名大）

研究の概要（１） MapReduce環境におけるオンライン集約サンプリング＋集約処理はクラウド環境に向くユーザはMapReduceのプログラムを記述：ただし，指定されたプログラミングインタフェースを利用システム側が展開して実行実行モデルの定式化オンライン集約の議論のために，MapReduceの実行処理を簡略化して整理データはブロック単位に分けられているブロックはキューに入れられ，マッパーは次に処理するブロックを GetNext() で入手ブロックのマッパーへの割り当てはスケジューラが担当スナップショット処理：現時点の処理結果を集約 Session 20: Statistical Methods 担当：石川（名大）

研究の概要（２）統計処理の立場から見た問題単一マシンの場合はランダムサンプルの取得は容易ブロック単位の処理の場合，ブロックの処理時間と集約値の間に相関が存在しうる例：SUMの計算では，データ数の少ないブロックが早く終わるため，推定値が小さくなる方にバイアスがかかる解決策：値 xi，スケジュール時刻 tisch，処理の所要時間 tiproc の3パラメタからなる統計モデルを考える例：スケジュールに5秒かかり，処理にこれまで125秒かかっているブロックに対する推定値を f(xi | tisci = 5, tiproc >= 125) と表現ベイズ推定に基づく信頼区間の計算：理論的にはここがメイン Hyracks（ICDE 2011）における実装パイプライン処理機能を活用，オンライン集約機能を入れる Session 20: Statistical Methods 担当：石川（名大）

Session 20: Statistical Methods

Similar presentations

Presentation on theme: "Session 20: Statistical Methods"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Session 20: Statistical Methods

Similar presentations

Presentation on theme: "Session 20: Statistical Methods"— Presentation transcript:

Similar presentations

About project

フィードバック