HOSHINO Takashi Kitsuregawa Lab. 2007/11/15

Slides:



Advertisements
Similar presentations
G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマン ス測定用のツール 使い方: exe ファイルのパスと作業ディレクトリ指定して実 行するだけ 注意点 : GPU のコード実行後にプログラム終了前に,
Advertisements

Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
到着時刻と燃料消費量を同時に最適化する船速・航路計画
Webプロキシサーバにおける 動的資源管理方式の提案と実装
データベース構造劣化による OLTP性能低下に関する 一考察
SAP システムにおける SQL Server 運用ノウハウ
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
データベース工学 データベースとは データモデル 関係データベースとSQL 物理データベース編成とインデクス
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
SSR 論文調査 Safety and Cyber-Physical Systems
HPCA? 何それおいしいの?.
神奈川大学大学院工学研究科 電気電子情報工学専攻
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
NTFS 2004/05/24 伊原 秀明(Port139).
ファイルシステムキャッシュを 考慮した仮想マシン監視機構
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
HOSHINO Takashi Kitsuregawa Lab. 2007/12/13
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
LogStructuredFileSystem Servey
PlanetLab における 効率的な近隣サーバ選択法
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
To appear in ACM Transactions on Graphics (Proc. SIGGRAPH 2015)
SAP & SQL Server テクニカルアーキテクチャ概要 マイクロソフト株式会社 SAP/Microsoft コンピテンスセンター
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
5 テスト技術 5.1 テストとは LISのテスト 故障診断 fault diagnosis 故障解析 fault analysis
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
Java Virtual Machine 高速化のためのbyte code 解析 An analysis of byte code to improve the performance of Java Virtual Machine 鈴木タカハル 谷研究室 Feb, 2003.
データベース工学 生研 戦略情報融合研究センタ 喜連川 優.
Online Decoding of Markov Models under Latency Constraints
Andrew Brzezinski, Gil Zussman, and Eytan Modiano
ソフトウェア部品分類手法への コンポーネントランク法の応用
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
第7回 授業計画の修正 中間テストの解説・復習 前回の補足(クロックアルゴリズム・PFF) 仮想記憶方式のまとめ 特別課題について
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
Internet広域分散協調サーチロボット の研究開発
Anja von Heydebreck et al. 発表:上嶋裕樹
コンポーネントランク法を用いたJavaクラス分類手法の提案
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
予測に用いる数学 2004/05/07 ide.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
UMLモデルを対象とした リファクタリング候補検出の試み
その他 手法の組合せ.
適応的近傍を持つ シミュレーテッドアニーリングの性能
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
Session 25: Statistical Methods (一つのみ)
Data Clustering: A Review
Q3 On the value of user preferences in search-based software engineering: a case study in software product lines Abdel Salam Sayyad (West Virginia University,
Data Clustering: A Review
北大MMCセミナー 第81回 附属社会創造数学センター主催
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
ETPB: Extraction of Context from Pedestrians' Behavior
Mondriaan Memory Protection の調査
Db2 Warehouse on Cloud Db2 on Cloud フルマネージドサービス提案時の注意点
時間連続性を考慮した 動画からの人物の姿勢推定
メソッドの同時更新履歴を用いたクラスの機能別分類法
Le Lu, Rene Vidal John Hopkins University (担当:猪口)
開発作業の形式化に基づく プロセス評価 松下誠 大阪大学.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
複雑度メトリクスを用いた JAVAプログラム品質特性の実験的評価
Dynamic Function Placement for Data-intensive Cluster Computing
慶應義塾大学 政策・メディア研究科 修士課程 2年 間 博人
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
北大MMCセミナー 第100回 附属社会創造数学センター主催 Date: 2019年7月11日(木) 16:30~18:00
Presentation transcript:

HOSHINO Takashi Kitsuregawa Lab. 2007/11/15 再編成論文サーベイ2 HOSHINO Takashi Kitsuregawa Lab. 2007/11/15

内容 再編成に関連する論文overview 論文誌におけるNoveltyとEffectivenessの議論 [20071115-hoshino] 再編成論文サーベイ2 内容 再編成に関連する論文overview 論文誌におけるNoveltyとEffectivenessの議論

Optimum Data Base Reorganization Points [20071115-hoshino] 再編成論文サーベイ2 Optimum Data Base Reorganization Points Ben Chneiderman (State University of New York) Communications of the ACM 1973

概要 再編成タイミングのanalyticalな評価 我々との比較 定期的に再編成する方式を数式として導出 [20071115-hoshino] 再編成論文サーベイ2 概要 再編成タイミングのanalyticalな評価 定期的に再編成する方式を数式として導出 コスト密度(レコードあたりのサーチコスト)がある一定まで下がった場合に再編成する方式を数式として導出 上記の比較をして、概して後者の方がコストが低いので、構造劣化の進行速度が一定でないような場合には、後者を使うべきだとしている 我々との比較 サーチコストは抽象化されている。 Ex. オーバーフローレコードのサーチコストは2倍 容易に取れる統計値を判断に用いている # of records, # of overflows, rate of addition/deletion

Opportunities For Data Base Reorganization [20071115-hoshino] 再編成論文サーベイ2 Opportunities For Data Base Reorganization Ben Shneiderman (Indiana University) Sigmod Record 1974

概要 データベース再編成の実施機会について考察 我々との比較 構造で分類 [20071115-hoshino] 再編成論文サーベイ2 概要 データベース再編成の実施機会について考察 構造で分類 Access path reorganization (treeの深さ) Block overflow reorganization (充填率) Linked reorganization (充填率) Indexed sequential access method reorganization (sequentiality) 何にせよappropriate performance statisticsを得ることが重要だが、measurableでないため難しい。Best sourceは実性能データ いつ再編成をすれば良いかsolutionを出していない 我々との比較 問題提起と構造分類のみ(まともな構造分類もできていない)

Reorganization Points for File Designs with Nonlinear Processing Costs [20071115-hoshino] 再編成論文サーベイ2 Reorganization Points for File Designs with Nonlinear Processing Costs K. Sundar Das, T. J. Teorey, S. B. Yao (The University of Michigan) VLDB1975

概要 成長するファイルに対して再編成タイミングを予測する方式について実験による評価 我々との比較 [20071115-hoshino] 再編成論文サーベイ2 概要 成長するファイルに対して再編成タイミングを予測する方式について実験による評価 内部レコードにdelete flagが存在するファイルを想定 IOコスト: ファイルにアクセスするIO応答時間 (おそらくスキャン) 再編成された場合のIOコストとされない場合のIOコストの差は、過去に観測されたものと同じと見なす 再編成をするタイミングは、Cn>=C’n + Rn/nとなる最小のnth time period Cn: (1st periodの最初に再編成された場合の)n+1番目のperiodのにおけるIOコスト C’n: (nth periodの最後に再編成された場合の) n+1番目のperiodにおけるIOコス ト Rn: nth periodの最後に実施した再編成コスト n: 経過時間 何が実測値で、何が代用値なのかさっぱりわからない。。。 我々との比較 経験則による再編成タイミング予測

Optimal Reorganization of Distributed Space Disk Files [20071115-hoshino] 再編成論文サーベイ2 Optimal Reorganization of Distributed Space Disk Files K. Maruyama and S. E. Smith (IBM Thomas J. Watson Research Center) Communications of the ACM 19(11), 1976

[20071115-hoshino] 再編成論文サーベイ2 概要 Analyticalなモデルで、deterioration costとreorganizationコストを記述し、ケーススタディで最適な再編成タイミングを導出 DSDF (Distributed Space Disk File)が対象 我々との比較 Analyticであるが故にワークロード記述が単純 Cylinder splitでdeterioration costが上がることが示されており、page splitと原理的には同じ

Optimal File Designs and Reorganization Points [20071115-hoshino] 再編成論文サーベイ2 Optimal File Designs and Reorganization Points D. S. Batory (University of Tronto) TODS 1982

概要 データ構造のデザインと再編成は同時に考えるべきだとして、再編成タイミングをanalyticalモデルから導出する方式を提案 [20071115-hoshino] 再編成論文サーベイ2 概要 データ構造のデザインと再編成は同時に考えるべきだとして、再編成タイミングをanalyticalモデルから導出する方式を提案 Hash と indexed-sequential fileで評価 初期充填率と再編成タイミングには反比例の関係があると指摘 我々との比較 再編成タイミングは定期的

Optimum Reorganization Points for Arbitrary Database Costs [20071115-hoshino] 再編成論文サーベイ2 Optimum Reorganization Points for Arbitrary Database Costs Raul J. Ramirez, Frank W. Tompa, and J. Jan Munro (University of Waterloo) Acta Informatica 18, 1982

[20071115-hoshino] 再編成論文サーベイ2 概要 グラフにおける最短経路問題に帰着して、Dynamic Programming法で再編成タイミングを導出する方法を提案(formalization) 構造劣化度(deterioration)やある時点における再編成コストは導出可能である前提を置いている。 計算コストは、データベースのlifetime Tを用いて、O(T**2)の計算時間, O(T)のメモリスペースが必要 これまでの研究はlinearな振る舞いしか扱えなかったが、提案手法はdeterioration costがnon-linearでも計算できると主 例として、logarithmeticなケースを上げていたが、いちいちsearchコストやreorgコストを導出する必要があった。 我々との比較 構造劣化度の導出方法について言及していない。 未来が予測できるという前提。Offlineアルゴリズムといっても良い?

A Reorganization Model Based on the Database Entropy Concept [20071115-hoshino] 再編成論文サーベイ2 A Reorganization Model Based on the Database Entropy Concept K. T. Fung (American Bell Inc.) The Computer Journal 27(1) 1984

[20071115-hoshino] 再編成論文サーベイ2 概要 (よくわかっていない) 最大エントロピー法で、クエリセット(アクセスの確率分布)とデータベース状態セットの相互情報量を用いて再編成タイミングを決める方法を提案 データベース状態として、キャッシュヒット率を使用 時間が経つにつれてアクセス分布が変わっていくにつれ、相互情報量Cが変化し、閾値を越えたら再編成。 評価 再編成というよりは、ILM的な環境におけるmigrationを用いて評価 提案手法を用いたら、再編成頻度が減った。 我々との比較 どうやって閾値を設定するかがunknown。 構造劣化の本質をうまくエントロピーで表せたらいけるのかも。

Heuristic Reorganization of Clustered Files [20071115-hoshino] 再編成論文サーベイ2 Heuristic Reorganization of Clustered Files Pater Scheuermann, Young Chul Park (Northwestern University), Edward Omiecinski (Georgia Institute of Technology) Foundations of Data Organization and Algorithms 1989

概要 レコードとページの最適マッピングを見つけるのはNP-Hard?なので、heuristicsを用いた再編成アルゴリズムを提案 [20071115-hoshino] 再編成論文サーベイ2 概要 レコードとページの最適マッピングを見つけるのはNP-Hard?なので、heuristicsを用いた再編成アルゴリズムを提案 再編成タイミングについての記述は(おそらく)なし

[20071115-hoshino] 再編成論文サーベイ2 Performance Analysis of A Periodic Data Reorganization Algorithm for Concurrent Blink-Trees in Database Systems Ing-Ray Chen (National Cheng Kung University), Salah Hassan (Mtel Technologies) ACM Symposium on Applied Computing 1995

概要 Blink-treeに特化した、analytic modelによる最適再編成タイミングの導出 我々との比較 [20071115-hoshino] 再編成論文サーベイ2 概要 Blink-treeに特化した、analytic modelによる最適再編成タイミングの導出 Insertとdeleteのrateは一緒、updateとreadのrateも一緒(サイズは変わらない) ワークロードは固定、一様分布 再編成といっているのは、delete flagの立ったレコードを回収する操作、garbage collection。 Degradation level dを定義しているが、性能との関係は間接的。 我々との比較 論理構造における構造劣化が対象 アクセスパタンが非現実的であり、この振る舞いからはずれるとどうなるか分からない 直接性能低下を表現するための構造劣化メトリクスがない

[20071115-hoshino] 再編成論文サーベイ2 On the Cost of Monitoring and Reorganization of Object Bases for Clustering Carsten A. Gerlhof, Alfons Kemper (Lehrstuhl fur Informatik), Guido Moerkotte (University Mannheim) SIGMOD Record 1996

概要 ODBMSにおいて、クラスタリングによる再編成手法を提案し、モニタリングのコストを評価 我々との比較 モニタリング [20071115-hoshino] 再編成論文サーベイ2 概要 ODBMSにおいて、クラスタリングによる再編成手法を提案し、モニタリングのコストを評価 モニタリング Reference counts, link counts オーバーヘッドは34%以上 クラスタリング手法の評価 評価軸に、# of repetitions を利用 我々との比較 シーケンスのことは意識していない 再編成タイミングについての議論はない

[20071115-hoshino] 再編成論文サーベイ2 Probabilistic Model and Optimal Reorganization of B+-Tree with Physical Clustering June S. Park (University of Iowa) and V. Sridhar (Ohio University) TKDE 9(5), 1997

概要 VSAM KSDSの再編成タイミングを決定する方式を提案 我々との比較 [20071115-hoshino] 再編成論文サーベイ2 概要 VSAM KSDSの再編成タイミングを決定する方式を提案 構造変化は Budket split と region split があるが、region splitが起きる前に再編成すべきとの結論 Region splitが起きる時間の推定手法を構築 我々との比較 データ構造specificな手法 再編成タイミングの決定ポリシは、経験則によるもの

[20071115-hoshino] 再編成論文サーベイ2 Improving I/O Response Times Via Prefetching and Storage System Reorganization C. L. Chee, H. Lu, and H. Tang (National University of Singapore), C. V. Ramamoorthy (University of California, Berkeley) COMPSAC 1997

概要 再編成とプリフェッチでストレージ性能を上げる方式を提案 我々との比較 Statistics collector [20071115-hoshino] 再編成論文サーベイ2 概要 再編成とプリフェッチでストレージ性能を上げる方式を提案 Statistics collector 次に参照されやすいブロック 次の次に参照されやすいブロック リード回数 ライト回数 我々との比較 統計情報収集と再編成は定期的に行われる スケジュールについての議論はない

[20071115-hoshino] 再編成論文サーベイ2 Performance and Stability Analysis of Multilevel Data Structures with Deferred Reorganization I.-R. Chen (Virginia Polytechnic Institute and State University), S. A. Banawan (University of Qatar) IEEE Transactions on Software Engineering 25(3), 1999

概要 最適な再編成タイミングの導出手法を提案 [20071115-hoshino] 再編成論文サーベイ2 概要 最適な再編成タイミングの導出手法を提案 Performance Analysis of A Periodic Data Reorganization Algorithm for Concurrent Blink-Trees in Database Systems(1995)と基本的な考え方は同じ 以前のマルコフモデルを拡張 対象データ構造: two-level sorted array

Dynamic Reorganization of Object Databases [20071115-hoshino] 再編成論文サーベイ2 Dynamic Reorganization of Object Databases Vlad S. Wietrzyk, Mehmet A. Orgun (Macquarie University) IDEAS 1999

概要 ODBMSにおいて、インクリメンタル再編成手法を提案 再編成タイミングの話はとくになし クラスタリングの話 [20071115-hoshino] 再編成論文サーベイ2 概要 ODBMSにおいて、インクリメンタル再編成手法を提案 クラスタリングの話 再編成タイミングの話はとくになし

Research issues in automatic database clustering [20071115-hoshino] 再編成論文サーベイ2 Research issues in automatic database clustering Sylvain Guinepain, Le Gruenwald (The University of Oklahoma) Sigmod Record 2005

概要 データベースクラスタリング技術の問題点を整理 [20071115-hoshino] 再編成論文サーベイ2 概要 データベースクラスタリング技術の問題点を整理 What to cluster?, how to cluster?, static or dynamic?, when to trigger the process?, what statistics to collect?, how to detect bad clustering?, how to re-cluster? 参考文献を分類しながら、まだ解決されていない課題を提示 IOコストを減らすための技術:indexing, buffering, clustering, parallelismの中でのclusteringという位置付け 著者らの手法AutoClust[Pasquier1999, Durand2002]のメリットも主張 Record clustering と attribute clustering両方を考慮 クエリログを使って分析するためオンライン性能に影響しない 分析手法はグラフ理論を用いたクラスタリング ポリシベースのautomatic re-clustering (query response time) 我々との違い データベース構造における論理的なデータ配置論 ディスクの物理特性までは言及していない 最も低レベルの指標はIO数 アクセスの統計情報から分析 Transaction内での相関性、ページアクセス数、etc.

An On-Line Reorganization Framework for SAN File Systems [20071115-hoshino] 再編成論文サーベイ2 An On-Line Reorganization Framework for SAN File Systems Shahram Ghandeharizadeh, Shan Gao (University of Southern California), Chris Gahagan, Russ Krauss (BMC Software Inc.) ADBIS 2006

概要 SANスイッチのところで、フラグメント単位のマイグレーションをコスト対効果を考えて行う手法を提案 我々との比較 [20071115-hoshino] 再編成論文サーベイ2 概要 SANスイッチのところで、フラグメント単位のマイグレーションをコスト対効果を考えて行う手法を提案 MonitorPredictMigrateのステップをタイムスライス毎に実行 Monitorにおいては、request size, heart, loadなどをフラグメント毎に、ディスク毎に記録 コスト: フラグメントを移動するための時間 効果: 前タイムスライスにおいて、測定されたフラグメントの応答時間と、仮に移動先(候補)に配置されて場合の推定値の差 相関の高いフラグメントは別ディスクに配置 我々との比較 Monitorだけでなく全部やっている アクセス頻度が高いものと速いディスクに移動するという思想

Tuning File System Block Addressing for Performance [20071115-hoshino] 再編成論文サーベイ2 Tuning File System Block Addressing for Performance Harrison Caudill, Ada Gavrilovska (Georgia Tech) ACM SE2006

概要 LFSを、断片化が少なくなるような構造にする方式を提案 Flash memoryを用いて、Ext2と比較 我々との比較 [20071115-hoshino] 再編成論文サーベイ2 概要 LFSを、断片化が少なくなるような構造にする方式を提案 ファイルへのinternal pointerを連続ページ内に配置 Extentサイズをファイルサイズに応じて増大(buddy system) Flash memoryを用いて、Ext2と比較 テスト: シーケンシャルアクセス、カーネルコンパイル 128MB空間でのテスト 小さすぎる サイズ大のファイルには効くが、サイズ小のサイズには効果がない 我々との比較 再編成の話ではなく、断片化しにくいデータ構造を用いるアプローチ

[20071115-hoshino] 再編成論文サーベイ2

我々の Novelty と Effectiveness [20071115-hoshino] 再編成論文サーベイ2 我々の Novelty と Effectiveness 従来の構造劣化同定 & 再編成スケジュール 情報取得 アクセスパタン: アクセス頻度 Analytical modelの場合は、一様分布のアクセス 構造劣化の評価 間接的 (cost) 再編成タイミング 定期的に行うことを前提 我々 論理シーケンシャルアクセスを捉える オンラインで、低オーバーヘッド 細粒度、直接的(response time) 人間まかせだが、可視化

主張ポイント 論理シーケンシャルアクセスに注目 オンライン、低オーバーヘッドで細粒度の監視 ストレージ性能特性を考慮した構造劣化モデル [20071115-hoshino] 再編成論文サーベイ2 主張ポイント 論理シーケンシャルアクセスに注目 ディスクを用いたストレージで構造劣化の影響が甚大 オンライン、低オーバーヘッドで細粒度の監視 これまでと比べ、オーバーヘッド vs 情報取得量が高い(?) ストレージ性能特性を考慮した構造劣化モデル 従来はせいぜいIO数、シーケンシャル&ランダムアクセスコストまで