SIGMOD 2013 勉強会 Research 1: Data Analytics

Slides:



Advertisements
Similar presentations
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
到着時刻と燃料消費量を同時に最適化する船速・航路計画
第2回 プロセス管理 ジョブ、プロセスとは? プロセスの状態遷移 プロセス制御ブロック スケジューリング.
計算理工学基礎 「ハイパフォーマンスコンピューティングの基礎」
最新ファイルの提供を保証する代理FTPサーバの開発
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
SaaS (Software as a Service)
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
報告 (2006/9/6) 高橋 慧.
モード付き並列機械における オンラインスケジューリング
垂直統合システム / Converged System
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
Observable modified Condition/Decision coverage
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
LogStructuredFileSystem Servey
理学部情報科学科 金田研究室 指導教官 金田 康正 工藤 誠
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
分散処理を用いた大規模ソフトウェアに対するコーディングパターン検出ツール
サーバ負荷分散におけるOpenFlowを用いた省電力法
早わかりアントコロニー最適化 (ACO: Ant Colony Optimization)
ボンドの効果 ―法と経済学による分析― 桑名謹三 法政大学政策科学研究所
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
応用社会システム計画 (第10回) ここで、学習すること 学籍番号: 氏名: ■これまでの講義内容の整理 ■計画問題の設定と手法
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
Riakデータベース on SoftLayer
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
Online Decoding of Markov Models under Latency Constraints
実行時情報に基づく OSカーネルのコンフィグ最小化
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
平成30年度高知工科大学教職科目 微分方程式特論I 11 高知大学教育学部技術教育コース 北川 晃.
訓練データとテストデータが 異なる分布に従う場合の学習
独立成分分析 (ICA:Independent Component Analysis )
トーリックイデアルの グレブナ基底を求める アルゴリズム – F4およびF5 –
Anja von Heydebreck et al. 発表:上嶋裕樹
コンポーネントランク法を用いたJavaクラス分類手法の提案
ミドルウェア”TSUNAGI”を 用いたWEBアプリケーションの構築
早わかりアントコロニー最適化 (Ant Colony Optimization)
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
業務課題の改善に向けた必要データ コンサルティング
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Nightmare at Test Time: Robust Learning by Feature Deletion
目的:高速QR分解ルーチンのGPUクラスタ実装
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
Number of random matrices
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
セカンダリ データベースを Linux に移行して 9 か月未満で投資を回収
Q3 On the value of user preferences in search-based software engineering: a case study in software product lines Abdel Salam Sayyad (West Virginia University,
メモリ使用量の少ないGCR法の提案 東京大学理学部情報科学科 工藤 誠 東京大学情報基盤センター 黒田 久泰
FPGA 株式会社アプライド・マーケティング 大越 章司
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
分枝カット法に基づいた線形符号の復号法に関する一考察
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
L4-Linux のメモリ管理における問題点とその解決策
ランダムプロジェクションを用いた音響モデルの線形変換
アップデート.
第8章 データベースシステムの発展 8.1 オブジェクトリレーショナルデータベース 8.2 分散データベース 8.3 インターネットとデータベース.
Presentation transcript:

SIGMOD 2013 勉強会 Research 1: Data Analytics Shoji Nishimura NEC, Titech

Cumulon: Optimizaing Statistical Data Analysis in the Cloud Botong Huang, Shivnath Babu, Jun Yang Duke University Summary 行列ベースのデータ分析をMapReduce上で実現 データベース的な自動実行プランニングで、物理的な実行やシステムコンフィグレーションも決定 AWS上で実行するときのコスト(金額)も最小化

行列演算の高速化 テンプレートベースの論理的な計画→物理的な計画マッピング Map-OnlyなMapReduceタスクとして行列演算を実現 既存の行列演算 on MapReduceは、Reduce演算が必要 → 中間データ生成・転送が性能ネック 本質的にBLASライブラリにおける行列演算の仕方と変わらないので、ここでは割愛

コストベースの最適化 実行完了時間の制約のもと、配備計画のコストが最小となるものを見つける タスクの完了時間の見積り ジョブの完了時間 AWSの費用モデル:使用台数×稼働時間×単価 タスクの完了時間の見積り 事前に典型的な例のベンチマークをとっておく 計算時間:タイルサイズの行列演算 ネットワークI/O時間:read/write性能 ジョブの完了時間 平均実行時間×(タスク数/スロット数) に正規分布のゆらぎを組み込んだもの

実行計画の探索戦略 クラスタサイズを決める クラスタスイッチングなしの計画を探索 クラスタスイッチングありの計画を探索 マシンタイプごと、ジョブ完了時間制約を 満たしうる最低必要なクラスタサイズを求める クラスタスイッチングなしの計画を探索 上記のサイズ制約のもと、費用が最も少なくなる構成を選ぶ クラスタスイッチングありの計画を探索 Dominateな演算ステップに絞って、クラスタスイッチしたプランを探索

性能評価 実験1:マシンタイプと計画と、その費用 【図表は論文より引用】 マシンタイプ、 プランによってコストは変わる 実験2:2種類の異なる演算ステップからなるジョブの実行 プランを途中で変えるとよい例 1448秒短縮 $2.03安い

Parallel Analytics as a Service Petrie Wong, Zhian He, Eric Lo The Hong Kong Polytechnic University Summary マルチテナント型の超並列データベースシステム(MPPDB)を提案 すべてのテナントに対して、高い性能SLAを達成

解決しようとしている問題 低いownership costで、数1000規模のテナントに対して、MPPDBを提供 稼働率を高く保ちつつ、かつ、高い性能SLA遵守率を達成 実現のための鍵は、アクティブなテナント率が10%程度という報告[20]

提案システムのモデル グループ0 全テナントが利用するデータは、 全グループに複製(冗長度A) 端数は グループ1 グループ0へ ジョブ割り当て方法 1.グループ0から空いているグループへ   テナントのジョブを割り当て   (どのグループでもサーブ可能) 2.どれも開いていなければ、   グループ0で並行実行 グループA-1 テナントの最大要求サーバ台数

このモデルの課題 どのグループでも、テナントの要求を答えられるが、テナント数が多いと、SLAを遵守できるようにするにはグループ数も多数用意する必要がある。 例:テナント数5000、平均稼働率10%なら、500に近いグループ数が必要 グループ数=データの複製数なので、多すぎるのは困り者 →テナントをグルーピングして複製数を抑制

テナントのグルーピング(1/2) 【図は論文より引用】 Largest Item Vector Bin Packing Problem with Fuzzy Capacityと等価 (NP-Hard問題) P%以上の確率でアクティブテナント数がR以下 例: P=90%, R=3 ⇒ {T1,T4,T5,T6}

テナントのグルーピング(2/2) 【図は論文より引用】 詰めやすいテナントから詰める 6 5 4 3 2

性能評価 FFDというビンパッキングアルゴリズムと比較 サーバ数の削減効果は高い 一方で、ジョブを詰め込むため、実行時間は長い 【図は論文より引用】 FFDというビンパッキングアルゴリズムと比較 サーバ数の削減効果は高い 一方で、ジョブを詰め込むため、実行時間は長い

Shark: SQL and Rich Analytics at Scale Reynold S Xin, Josh Rosen, Matei Zaharia, Michael J Franklin, Scott Shenker, Ion Stoica UC Berkeley Summary SQLと機械学習の実行を可能とするシステムを提案 Sparkに機能追加し、特にSQLの実行を高速化 Hadoopベースの実装に比べ、SQLおよび機械学習の実行が100倍くらい高速化を達成

Mr. Oyamadaによる解説音声 をお楽しみください。