Session 20: Statistical Methods

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
紹介担当: 石尾 隆(大阪大学) Q11.  Feature Model によって定義される「プロダクトの集合」 (プロダクトライン)の振舞いを検証する手法の拡張 ◦ 通常の振舞い検証: たとえば Promela を使って,1プロダクトの 振舞いを表現したオートマトンの取りうる状態遷移を調べる ◦
到着時刻と燃料消費量を同時に最適化する船速・航路計画
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第4回 配列(2) 情報・知能工学系 山本一公
ラベル付き区間グラフを列挙するBDDとその応用
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
ファーストイヤー・セミナーⅡ 第8回 データの入力.
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
ブロック線図によるシミュレーション ブロック線図の作成と編集 ブロック線図の保存と読込み ブロック線図の印刷 グラフの印刷
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
データ構造とアルゴリズム論 第2章 配列(構造)を使った処理
(B2) 親: minami, kazuki 多様な認証機器に対応する 認証システム (B2) 親: minami, kazuki.
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
論文紹介 Query Incentive Networks
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
NTTコミュニケーション科学基礎研究所 村山 立人
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
Online Decoding of Markov Models under Latency Constraints
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
Session 18: Systems, Performance II
予測に用いる数学 2004/05/07 ide.
分子生物情報学(2) 配列のマルチプルアライメント法
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
不確実データベースからの 負の相関ルールの抽出
バイトコードを単位とするJavaスライスシステムの試作
統計解析 第1回 条件付き独立性と確率的グラフィカルモデル 本講義の全体像
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
アルゴリズムとプログラミング (Algorithms and Programming)
Session 25: Statistical Methods (一つのみ)
HMM音声合成における 変分ベイズ法に基づく線形回帰
アルゴリズムとプログラミング (Algorithms and Programming)
ETPB: Extraction of Context from Pedestrians' Behavior
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
オントロジーを利用した Webサービスの実行支援に関する研究
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
Jan 2015 Speaker: Kazuhiro Inaba
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
参考:大きい要素の処理.
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
プログラミング入門2 第5回 配列 変数宣言、初期化について
FSE/ASE勉強会 A10:Software Maintenance II
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Session 20: Statistical Methods 【VLDB 2011勉強会】 Session 20: Statistical Methods 担当: 石川佳治(名大) Some figures are copied from VLDB 2011 proceedings.

Session 20: Statistical Methods 担当:石川(名大) Tuffy: Scaling up Statistical Inference in Markov Logic networks using an RDBMS Feng Niu, Christopher Ré, AnHai Doan, Jude Shavlik (U. Wisconsin-Madison) マルコフ論理ネットワーク(Markov logic network)におけ る大規模推論を可能とするためRDBMS技術を活用 マルコフ論理ネットワーク(P. Domingos / U. Washington) 論理型言語と確率的推論を統合:DB的に言うと,「ルールに 重みを入れたDatalog」 同じ論文には一般に同じ カテゴリが付与 ルール 重み cat(p, c1), cat(p, c2) => c1 = c2 5 wrote(x, p1), wrote(x, p2), cat(p1, c) => cat(p2, c) 1 cat(p1, c), refers(p1, p2) => cat(p2, c) 2 paper(p, u) => x. wrote(x, p) + cat(p, `Networking’) -1 同じ著者が書いた論文の カテゴリは同じことが多い 述語: paper(id, URL) wrote(author, paper) refers(paper, paper) cat(paper, category) 参照先論文のカテゴリは 参照論文と同じことが多い 論文には必ず著者がいる (ハードな制約) ネットワークに関する 論文はこのDBにはない Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) マルコフ論理ネットワークの概要 プログラムの評価 ・述語インスタンスをもとに,ルール   に基づいてネットワーク構築:グラフ構造は  マルコフ確率場(MRF)に相当 ・MaxSATによる最大事後確率(MAP)推定:  ヒューリスティックを利用(WalkSAT) refers(p1, p2) cat(p1, “DB”) cat(p2, “AI”) cat(p3, DB) wrote(“Mike”, p1) wrote(“Tom”, p2) wrote(“Tom”, p3) groundingフェーズ が重い! wrote refers cat paper Author Paper Mike p1 Tom p2 p3 … Paper p1 p2 … Paper Category p1 DB p2 AI p3 … PaperID URL … 2フェーズでの推論処理 1. grounding:グラフ構造を構築し,   大規模な重み付きSAT式を生成 2. search:SAT式に対する 低コストの重み(解)の割り当て Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) 本研究のアイデア 評価戦略の変更(groundingフェーズ) トップダウン評価(Prolog の証明戦略)から RDBMS を用いた ボトムアップ評価へ 7時間の grounding 処理(Alchemy)が2分(Tuffy)に 例:ルール wrote(x, p1), wrote(x, p2), cat(p1, c) => cat(p2, c) に対するSQL生成 Search フェーズの効率化 ①RDBMSと分担,②グラフを分解し部分問題を並列処理 プロトタイプ:http://research.cs.wisc.edu/hazy/tuffy/ 機械学習の専門家より:学習法のアプローチが古いかも SELECT w1.author, w1.paper, w2.paper, c1.category, c2.category FROM wrote w1, wrote w2, cat c1, cat c2 WHERE w1.author = w2.author AND w1.paper = c1.paper AND w2.paper = c2.paper Session 20: Statistical Methods 担当:石川(名大)

Dissemination of Models over Time-Varying Data Yongluan Zhou, Zografoula Vagena, Jonas Haustad (U. Southern Denmark / Rice U.) 時系列データ(株価,交通情報など)のネット配信 受信する各ユーザの要求はさまざま:生データが必要 or 要 約データでよい 解決策:モデルの配信 各ユーザの要求に応じて要約した時系列を送る P2P的な配信:各ユーザをノード(ピア)とする配信木 (dissemination tree)を構築 問題定義 無限に続く時系列データを配信 各ユーザは精度要求(accuracy requirement)を指定 Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) 手法の概略(1) 精度要求の尺度 近似の範囲を指定 [v – , v + ] ...他にもいろいろ可能 基本的には,精度要求の間に 全順序 ari < arj がつけばよい 配信システム 受信者(data receiver)をノードとした配信木をオーバーレイネ ットワーク上に構築 目的:時系列データに対する n 個のモデル {m1, …, mn},各受 信者 nk の精度要求 ark,および配信木が与えられたとき,nk に対して適用できるモデルの集合 Mk を選択 時系列全体がカバーできるように Mk を選択 ネットワーク上を配信されるモデル数を最小化 Model Producer DR1 DR2 DR3 DR4 DR5 Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) 手法の概略(2) ここでいうモデルとは? 何でもよく,手法は問わない モデル mi はいくつかの時区間 をカバーして近似 近似精度 aij の間には全順序 が存在することのみ考慮 最適化のアプローチ ヒューリスティクスに基づく処理 枝刈り + クラスタリング 拡張:分散ルーティング 配信処理の制御を分散して実行 コメント:阪大西尾研のコメントを聞きたい [Fig 2 of VLDB 2011 paper] Session 20: Statistical Methods 担当:石川(名大)

Storing Matrices on Disk: Theory and Practice Revisited Yi Zhang, Kamesh Munagala, Jun Yang (Duke U.) 大規模な多次元配列のディスク上での管理方式 多様な応用(例:科学データベース,信号処理,数値計算)・ア クセスパターンに対応 更新処理に効率的に対応 配列のsparsityに適応的に対応:疎行列⇔密行列の変化に対 し追従 LAB-木 (Linearlized Array B-tree) B-木の構造に基づく配列データの管理 適応的なノード分割処理 バッチ的な更新 コメント:すごくちまちました話 Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) LAB-木の概要 離散データを対象 線形化(linearlization)関数による格納レイアウト指定 d 次元配列のデータを1次元にどのように並べるか,ユーザが 指定可能 デフォルト値(通常は0を設定):データが挿入されていな いエントリにはデフォルト値が入っているように振舞う 配列要素へのアクセス方式 配列の添え字によるアクセス 線形化関数を指定することによる繰り返し(iteration):LAB- 木構築時に指定した線形化関数と違うものを指定してもよい 矩形領域を指定してのread/write Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) 効率化のための工夫 ノード分割戦略 複数の戦略を比較検討(正直いって細かい) 空間の無駄がどの程度生じるか 処理時間 理論的な評価尺度 オフラインの最適戦略に対する競合比を理論的に解析 No-dead-spaceの性質があるか否か:将来の挿入がどうであっても 空のままの領域が生じうるときをいう バッチ的な更新処理 継続的な挿入はバッファ上のページに反映 どのタイミングでどのページをフラッシュするか いくつかの戦略を提案・比較 1 3 4 7 1 3 4 7 Session 20: Statistical Methods 担当:石川(名大)

Online Aggregation for Large MapReduce Jobs Niketan Pansare, Vinayak Borker, Chris Jermaine, Tyson Condie (Rice U. / UC Irvine / Yahoo! Research) オンライン集約(Online Aggregation; OLA) Joe Heller Stein, Peter Haasら:SIGMOD 2007 Test of Time Award受賞 問合せ処理とサンプリング+統計的推定手法の組合せ 問合せ結果の推定値と信頼区間を提示:問合せ処理の進行 につれ精度が向上 – 満足した時点でユーザは問合せ終了可 例:SELECT avg(株価) from 株価DB where 企業 = ‘X’ 1分後に,95%の確率で [0, 2000] という推定値を提示 2分後に,95%の確率で [900, 1100] という推定値を提示 … 2時間後に問合せ処理終了:結果値 1000 を出力 Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) 研究の概要(1) MapReduce環境におけるオンライン集約 サンプリング+集約処理はクラウド環境に向く ユーザはMapReduceのプログラムを記述:ただし,指定された プログラミングインタフェースを利用 システム側が展開して実行 実行モデルの定式化 オンライン集約の議論のために,MapReduceの実行処理を簡 略化して整理 データはブロック単位に分けられている ブロックはキューに入れられ,マッパーは次に処理するブロックを GetNext() で入手 ブロックのマッパーへの割り当てはスケジューラが担当 スナップショット処理:現時点の処理結果を集約 Session 20: Statistical Methods 担当:石川(名大)

Session 20: Statistical Methods 担当:石川(名大) 研究の概要(2) 統計処理の立場から見た問題 単一マシンの場合はランダムサンプルの取得は容易 ブロック単位の処理の場合,ブロックの処理時間と集約値の 間に相関が存在しうる 例:SUMの計算では,データ数の少ないブロックが早く終わるため, 推定値が小さくなる方にバイアスがかかる 解決策:値 xi,スケジュール時刻 tisch,処理の所要時間 tiproc の3パラメタからなる統計モデルを考える 例:スケジュールに5秒かかり,処理にこれまで125秒かかっているブ ロックに対する推定値を f(xi | tisci = 5, tiproc >= 125) と表現 ベイズ推定に基づく信頼区間の計算:理論的にはここがメイン Hyracks(ICDE 2011)における実装 パイプライン処理機能を活用,オンライン集約機能を入れる Session 20: Statistical Methods 担当:石川(名大)