Presentation is loading. Please wait.

Presentation is loading. Please wait.

© 2012 Microsoft Corporation. All rights reserved SQL Server で実現する大規模データ ウェアハウス 日本マイクロソフト株式会社 1.

Similar presentations


Presentation on theme: "© 2012 Microsoft Corporation. All rights reserved SQL Server で実現する大規模データ ウェアハウス 日本マイクロソフト株式会社 1."— Presentation transcript:

1 © 2012 Microsoft Corporation. All rights reserved SQL Server で実現する大規模データ ウェアハウス 日本マイクロソフト株式会社 1

2 © 2012 Microsoft Corporation. All rights reserved 目次 SQL Server で実現する大規模データ ウェアハウス データ ウェアハウスのこれまでとこれから  SQL Server の DWH テクノロジー データ ウェアハウス構築の目的  データ活用の敷居を下げるマイクロソフト BI ソリューション の構成 DWH アプライアンス 2

3 © 2012 Microsoft Corporation. All rights reserved 目次 SQL Server で実現する大規模データ ウェアハウス データ ウェアハウスのこれまでとこれから  SQL Server の DWH テクノロジー データ ウェアハウス構築の目的  データ活用の敷居を下げるマイクロソフト BI ソリューション の構成 DWH アプライアンス 3

4 © 2012 Microsoft Corporation. All rights reserved SQL Server で実現する大規模データ ウェアハウス 4

5 © 2012 Microsoft Corporation. All rights reserved SQL Server で実現する大規模データ ウェアハウス 財務 生産、在庫、購買 CSV 形式データ 販売、顧客 業務システムのデータベース 多次元データベース プレゼンテーション層データ層 レポーティング ユーザー エンド ユーザー パワー ユーザー 経営者、 役員 ETL Integration Services データ抽出 データ ロード データ変換 データ ウェアハウス DB Engine Services 分析サーバー Analysis Services レポート サーバー Reporting Services Office、PDF 定型レポート ローカル データ Office Excel PowerPivot for Excel 2010 Pivot Table/Graph Power View ポータル サーバー SharePoint Server 2010 社外のデータ Hadoop on 5

6 © 2012 Microsoft Corporation. All rights reserved 目次 SQL Server で実現する大規模データ ウェアハウス データ ウェアハウスのこれまでとこれから  SQL Server の DWH テクノロジー データ ウェアハウス構築の目的  データ活用の敷居を下げるマイクロソフト BI ソリューション の構成 DWH アプライアンス 6

7 © 2012 Microsoft Corporation. All rights reserved データ ウェアハウスのこれまでとこれから 7

8 © 2012 Microsoft Corporation. All rights reserved データ ウェアハウスのこれまでとこれから これまでのデータ ウェアハウスに求められていたもの 夜間バッチでデータを用意して翌日以降に利用可能 IT に詳しいとは言えない経営層にいかに使いやすく直観的な I/F を提供する かという点に焦点がいくことが多かった これからのデータ ウェアハウスに求められるもの 膨大なデータを捨てずに保存し、そこから瞬時にインテリ ジェンスを抽出することが求められる 収集した膨大なデータから、高度な分析処理を通じてインテリジェンスを導き 出すという、より本質的な部分への関心が高まってきている 『データ量の増加と処理時間の短縮』という 相反する 2 つの要素に同時に対処する必要がでてきている 『データ量の増加と処理時間の短縮』という 相反する 2 つの要素に同時に対処する必要がでてきている 8

9 © 2012 Microsoft Corporation. All rights reserved SQL Server の DWH テクノロジー 9

10 © 2012 Microsoft Corporation. All rights reserved SQL Server の DWH テクノロジー 『データ量の増加と処理時間の短縮』という 相反する 2 つの要素に同時に対処する 『データ量の増加と処理時間の短縮』という 相反する 2 つの要素に同時に対処する 大量データの効率的 な取り扱い データの分割 データの圧縮 検索処理時間の短縮 複数ユーザからのアクセス要求時の効率的なデータ アクセス 大量データの範囲検索の高速化 大量データの結合処理の高速化 カラムベースのインデックスによる検索の高速化 バッチ処理時間の 短縮 バッチ処理・データロード ツール 増分データの読み込み その他リソースの動的配分 10

11 © 2012 Microsoft Corporation. All rights reserved データの分割 11

12 © 2012 Microsoft Corporation. All rights reserved データの分割 (データ パーティション概要) テーブルを複数のパーティションに分割し I/O を分散  テーブルをある列値の範囲で分割  アプリケーションから透過的(改修不要)  年次・月次集計などのパフォーマンスが向上 パーティション単位での処理が可能  インデックスの作成・保守  バックアップとリストア データのサブセットを迅速かつ効率的に 移動可能  新しいデータの追加、古いデータの削除を 定期的に行う場合に有効 2010 年受注 2009年受注 2008年受注 Disk1 Disk2 Disk3 売上明細テーブル ファイルグループ 2010/05… 2008/01… 2010/04… 2009/11… パーティション2010 パーティション2009 パーティション2008 FileGroup1 FileGroup2 FileGroup3 12

13 © 2012 Microsoft Corporation. All rights reserved データ パーティション解説 単一のテーブルをある列値の範囲で分割(論理的な小さな複数のテーブルに分割)して管 理する機能  クエリパフォーマンスにおけるメリット  各種管理操作におけるメリット  データ/ストレージ配置上のメリット  耐障害性におけるメリット アプリケーションはパーティションが分割されていることを意識しない(アプリケーショ ンから透過的) ・・ 売上明細テーブル 大規模なデータを論理的なパーティションで分割 パーティション 1 パーティション 2 パーティション 3 パーティション 4 2008 年 SQL Server 2007 年 2006 年 2005 年・・ ・・ ・・ ファイルグループ データファイル 13

14 © 2012 Microsoft Corporation. All rights reserved クエリパフォーマンスにおけるメリット 必要なパーティションにのみアクセス(アクセス範囲を限 定)することにより、クエリパフォーマンスの向上を実現 SQL Server 2008 以降、パーティションレベルでのロック 制御が可能になり、同時実行制御における柔軟性向上 売上明細テーブル 2008 年 SQL Server 2007 年 2006 年 2005 年 パーティションレベルのロック エスカレーション制御により同 時実行性を向上 複数パーティションに対する 高速なクエリの実行 2008 年 1月15 日のデータを挿入 INSERT INTO 売上明細テーブル ・・・ 2008 年 1月15 日のデータを挿入 INSERT INTO 売上明細テーブル ・・・ 2006 年 3月10日 ~ 2007年4月25日のデータを検索 SELECT ~ FROM 売上明細テーブル ・・・ SQL Server 2008 よりパーティションをまたが るケースでもマルチスレッド スキャンが可能に 2006 年 3月10日 ~ 2007年4月25日のデータを検索 SELECT ~ FROM 売上明細テーブル ・・・ SQL Server 2008 よりパーティションをまたが るケースでもマルチスレッド スキャンが可能に どのパーティションにアクセス すべきかは SQL Server が自動 的に判断 14

15 © 2012 Microsoft Corporation. All rights reserved 各種管理操作におけるメリット 大規模データの管理効率を向上  データ量の増大とともに時間のかかる処理 大量データのローディング インデックスの作成と維持管理 バックアップ/リストア 大量データの削除 売上明細テーブル 削除パーティション 2008 年 2007 年 2006 年 2005 年 2009年度のデータを ローディング 2009 年 新規パーティション 15

16 © 2012 Microsoft Corporation. All rights reserved データ/ストレージ配置上のメリット ILM(Information Lifecycle Management):情報のライフサイクル管 理を実現  データ圧縮と組み合わせて使用することで『目的に応じた効率的な』データの 配置を実現 パーティション毎にストレージの配置先を設定可能 パーティション毎に圧縮/非圧縮を設定可能 (Ex) 参照頻度の高いデータ:非圧縮 参照頻度の低いデータ:圧縮 売上明細テーブル 2008 年 SQL Server 2007 年 2006 年 2005 年 2007 年 2006 年 2005 年 当年度の参照頻度が高く更新も発生する データは圧縮せずに高速ストレージに格納 前年度実績データは圧縮を行い 高速ストレージに格納 参照頻度の低くなったデータは圧縮 して中低速ストレージに格納 高速ストレージ 中低速ストレージ 16

17 © 2012 Microsoft Corporation. All rights reserved 耐障害性におけるメリット ダウンタイムの削減  パーティション単位でのバックアップ/リストアが可能  障害の局所化を実現 障害発生パーティション以外は通常通り使用可能 売上明細テーブル 2008 年 SQL Server 2007 年 2006 年 2005 年 障害 OK 障害が発生した 2008 年パー ティションだけをバックアップ からリストア 2007 年パーティションは アクセス可能 2005 年パーティションは アクセス可能 2006 年パーティションは アクセス可能 17

18 © 2012 Microsoft Corporation. All rights reserved データ パーティション x データ圧縮検証結果 18

19 © 2012 Microsoft Corporation. All rights reserved データ パーティション x データ圧縮による効果 1 パーティション(2,000万件)を選択するクエリを実 行し、データ パーティションとデータ圧縮によるパ フォーマンスを検証 売上明細テーブル パーティション 1 パーティション 2 パーティション 3 パーティション 4 2008年/1月 SQL Server 2008年/2月 2008年/3月 2008年/4月 select 売上数量 from 売上明細 where 年月日 >= '2008/01/01 0:00:00' and 年月日 < '2008/02/01 0:00:00‘ select 売上数量 from 売上明細where 年月日 >= '2008/03/01 0:00:00' and 年月日 < '2008/04/01 0:00:00 ... select 売上数量 from 売上明細 where 年月日 >= '2008/01/01 0:00:00' and 年月日 < '2008/02/01 0:00:00‘ select 売上数量 from 売上明細where 年月日 >= '2008/03/01 0:00:00' and 年月日 < '2008/04/01 0:00:00 ... 以降、SQL Server 2008 での検証結果を記載 今回の検証ではパーティション vs 非パーティションのパフォーマンス比較は実施していない 19

20 © 2012 Microsoft Corporation. All rights reserved パーティション x データ圧縮 ~ 検索性能 ~ ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx 20

21 © 2012 Microsoft Corporation. All rights reserved パーティション x データ圧縮 ~ CPU 使用率 ~ ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx 21

22 © 2012 Microsoft Corporation. All rights reserved パーティション x データ圧縮 ~ Average Disk Queue Length ~ ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx 22

23 © 2012 Microsoft Corporation. All rights reserved パーティション x データ圧縮 ~ 検証サマリ ~ 行圧縮、ページ圧縮のいずれも非圧縮と比較すると CPU リソースの消費量は多くなるが、それ以上の割合 で検索性能が向上していることが確認できる。 ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx いずれもキャッシュなしの結果を比較 23

24 © 2012 Microsoft Corporation. All rights reserved データの圧縮 24

25 © 2012 Microsoft Corporation. All rights reserved データ圧縮 運用データベース全体のサイズを縮小  ストレージの使用領域を節約して、より多くのデータを格納  ディスク I/O の削減とデータ サイズの減少で、クエリ パフォーマンスが 向上  通常のデータと同様に操作が可能、アプリケーションへの変更が不要 データ圧縮 複数レベルのデータ圧縮を提供し、 ストレージの節約とパフォーマンスの向上を実現 データ パーティションで分割したパーティション 単位でも、圧縮レベルを変えられるため、更新頻度 などの特性に合わせた利用が可能 行 (ROW) 圧縮 固定長カラムを可変長として格納 ページ圧縮 列ごとに重複している情報を圧縮 さらに詳細レベルで 重複している情報を圧縮可能 日付購入番号区分価格 20100601 20100602 20100603 1-BB-2A01 1-BB-1288 1-BB-25F1 1-BB-2500 1-BB-25F8 3-BB-31AB 99550 88500 99500 31800 99555 99200 8883000 110200550 110200500 110000 28550 11200 日付購入番号区分価格 20100601 20100602 20100603 1-BB-2A01 1-BB-1288 1-BB-25F1 1-BB-2500 1-BB-25F8 3-BB-31AB 99550 88500 99500 31800 99555 99200 8883000 110200550 110200500 110000 28550 11200 日付購入番号区分価格 1 00 31800 5 200 7 3 A01 1288 00 8 3-BB-31AB 20100602 1-BB-25F1 99550 110200550 88500 8883000 28550 200 00 000 60 7 50 3 7 7 03 820 0 42 Null 日付購入番号区分価格 1 00 31800 5 7 3 A01 1288 8 3-BB-31AB 201006021-BB-25F1 99550110200550 88500 8883000 28550 000 60 7 50 3 03 80 04 Null 7002200 0 0 1 1 0 0 0 0 1 1 1 1 25

26 © 2012 Microsoft Corporation. All rights reserved データ圧縮による効果(データサイズ) *1:8KB / 1page *2:圧縮なしを1とした時の割合 データサイズの比較 ~ 圧縮なし vs. 行圧縮 vs. ページ圧縮 ~ データサイズの比較 ~ 圧縮なし vs. 行圧縮 vs. ページ圧縮 ~ 圧縮処理時間 圧縮処理時の平均 CPU 使用率 ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx 26

27 © 2012 Microsoft Corporation. All rights reserved バックアップ圧縮で管理時間を短縮 運用データを圧縮しながら高速にバックアップ  ディスク I/O の減少により、大規模データをより短時間でバッ クアップ/復元  1 つのメディアに保存できるデータ量が増加  メディアの購入や保管スペースなど、バックアップ コストの節 約を実現 SQL Server バックアップ時間を短縮 データを圧縮しながら 高速にバックアップ 完全バックアップと差分バックアップに対応 日々の業務で変更されたデータも 圧縮してバックアップ可能 簡単なバックアップ圧縮の利用 管理ツール: バックアップ圧縮を有効化 Transact-SQL : WITH COMPRESSION を付加 バックアップコストの削減 メディアの購入コストや保管スペースなどを削減 バックアップ機器 高速な復元でダウンタイムを削減 データコピーの時間短縮で迅速な復旧を実現 バックアップ 圧縮 より少ないメディアに バックアップを保管 27

28 © 2012 Microsoft Corporation. All rights reserved バックアップ圧縮による効果 ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx Backup ファイルサイズ Backup 処理時間 Backup 圧縮処理時の平均 CPU 使用率 *1:圧縮なしを1とした時の割合 28

29 © 2012 Microsoft Corporation. All rights reserved バックアップ圧縮 x データ圧縮検証結果 29

30 © 2012 Microsoft Corporation. All rights reserved バックアップ圧縮 x データ圧縮 による相乗効果 データ圧縮との組み合わせによる比較 30 ※ 大規模データ ウェアハウス実践ガイド(運用管理編) http://www.microsoft.com/japan/sql/bible/cqi.mspx より抜粋http://www.microsoft.com/japan/sql/bible/cqi.mspx Backup 圧縮処理時間 Backup ファイルサイズ

31 © 2012 Microsoft Corporation. All rights reserved 複数ユーザからのアクセス要求時の効率的なデータ アクセス 31

32 © 2012 Microsoft Corporation. All rights reserved メリーゴーランド スキャン  複数ユーザから、同一のテーブルに対してスキャン要求が発行された際に有効 に働く機能  この機能により、同時実行のクエリに対してもシーケンシャル READ を続ける 事が可能。またReadしたデータの有効活用も行い、多重度が上がる処理に対し て安定したパフォーマンスを提供する事が可能 複数ユーザからのアクセス要求時の効率的なデータ アクセス 32 User 2: スキャンスタート (User1の IO 結果を共有。SQL Server からの IO命令はUser1 の要求のみ。StorageはシーケンシャルREADを続ける) User 1: 25% スキャン済 User 1: スキャン完了 User 2: 75% スキャン済 User1 が25%スキャン した時にUser2 から スキャン要求があった場合 User 2: 残り25% スキャン 2つの同時クエリに対して、 ・一番効率の良いシーケンシャル READ ・読み取り量は 1.25 で処理しています

33 © 2012 Microsoft Corporation. All rights reserved 大量データの範囲検索の高速化 33

34 © 2012 Microsoft Corporation. All rights reserved 大量データの範囲検索の高速化 クラスター化インデックススキャン  クラスター化インデックスを作成すると、インデックスとテーブル が合体した構造となる インデックスに合わせてテーブルのデータがソートされた状態 34 ①インデックスをシーク ②インデックスシークで範囲の起点を決定 ③データはソートされているので必要な範囲 を超えたら読み取り完了 必要なデータだけを読む事ができる データはソートされている クラスター化インデックス スキャンの動作 ① ② ③ 通常、大量の明細データのテーブルには範囲指定検索が行われる クラスター化インデックス スキャンを利用する事により 大量データの範囲検索でも必要なデータ範囲だけを読む事が可能 検索パフォーマンスの向上を実現

35 © 2012 Microsoft Corporation. All rights reserved 大量データの結合処理の高速化 35

36 © 2012 Microsoft Corporation. All rights reserved 大量データの結合処理の高速化 ビットマップ フィルター  ファクト テーブルのデータのうち、ディメンション テーブルと 結合するのに適した行だけを処理 Date, product, store, customer のようなディメンションテーブ ルと sales のようなファクトテーブルを明確に区別 36 ディメンション ファクト ファクトのスキャン 1.ディメンション テーブル に検索条件を指定して検索 2.検索条件に合致したディメン ションの対象行を読み取る 3.ファクトテーブルは、ビットマップフィルターによりディメンション テーブルと結合す るのに適した行だけを処理 ディメンションテーブルとファクトテーブルを結合してディメンションテーブルに検索条件を指定する

37 © 2012 Microsoft Corporation. All rights reserved ビットマップ フィルターを使った時の動作 37 ①対象ディメンションの情報を元に Bitmap Filterが作成される ②Bitmap Filterを条件にして スキャン対象行を制限する ③この部分を通過する行数が減る ④ ハッシュジョインの 対象行数が減る Table Scan with Bitmap Filter Opt_Bitmap1008 ⇒ Bitmap Filterの使用を意味する

38 © 2012 Microsoft Corporation. All rights reserved ビットマップ フィルターを使わない時の動作 38 全行スキャンする

39 © 2012 Microsoft Corporation. All rights reserved ビットマップ フィルターの利用 Fact Table Scan Dimension 2 Dimension 1 Hash Join Bitmap Filter 1 Bitmap Filter 2 Bitmap Filterの移動、 並び替えが可能 39 より効果が高い (選択率が高い) Filterを最初に適用する 39

40 © 2012 Microsoft Corporation. All rights reserved 複数のビットマップ フィルターの作成と利用 40 複数のビットマップ フィルターを作成 Opt_Bitmap1008 / Opt_Bitmap 1009 の 2つのビットマップ フィルターをテーブルスキャン 時に利用している

41 © 2012 Microsoft Corporation. All rights reserved ビットマップ フィルター特長 メモリ上に展開される読み取り専用の構造体  ディメンションテーブルを読み、選択される列値に1を立ててい く  ハッシュジョイン用のハッシュインデックスよりもメモリ使用 量が少ない 選択性が高いと効果が少ない  単なるハッシュジョインの方が高速 DMLに対するオーバヘッドなし 41

42 © 2012 Microsoft Corporation. All rights reserved ビットマップ フィルターが作られる要件 / 要素 ファクトテーブルのページ数が100以上 ファクトテーブルとディメンションテーブル間の内部結合の み考慮される ファクトテーブルとディメンションテーブル間の結合が単一 列であること  整数ベースの列の方がビットマップ フィルターが作られやすい ⇒サロゲートキーを使用した方が作られやすい  主キーと外部キーの関係である必要はない ディメンションの入力基数 < ファクトテーブルの入力基数  統計情報から情報取得 メモリが不足している場合は作成されない 並列クエリプランでないと作成されない  パラレルクエリ高速化のための機能 ハッシュ結合 / マージ結合の場合のみ作成される  ループ結合では作成されない 42

43 © 2012 Microsoft Corporation. All rights reserved カラムベースのインデックスによる検索の高速化 43

44 © 2012 Microsoft Corporation. All rights reserved 日付購入番号区分価格 2011100111-AAA-112001000 2011100111-AAA-121002000 2011100212-BBB-213001800 2011100312-BBB-223006000 2011100313-CCC-312004500 列やデータの 量が増えると パフォーマン スへの影響が 拡大 20111001 20111002 20111003 11-AAA-11 11-AAA-12 12-BBB-21 12-BBB-22 13-CCC-31 200 100 300 200 DISTINCTGROUP BY フル テーブル スキャン 非クラスター化インデックス カラム ストア インデックス 12,000 10,000 8,000 6,000 4,000 2,000 0 102 倍 10,244 5,970 100 4,693 2,496 100 ※エスキューエル・クオリティ社の検証結果 カラム ストア インデックスのパフォーマンスを 100 とした場合のパ フォーマンス を相対で比較 1 億 2000 万件で 約 100 倍の性能向上 カラム ストア インデックスでは 列単位にまとめてページに格納することで参照時の不要な I/O を削減 カラム ストア インデックスによるパフォーマンスの向上 いままでは... 59 倍 47 倍 25 倍 カラムベースのインデックスによる DWH ワークロードの高速化 カラムストア 一般的な RDBMS のデータ格納形式(行方式)とは対照的に、1 つの列の値が連続的に格納される形 式 カラムストア インデックス 上記格納形式を実装した新たなインデックス 日次集計や月次集計など、参照処理を行うデータ ウェアハウスのパフォーマンスを劇的に向上 列単位でインデックスを格納し、同一データ型を高度に圧縮 PowerPivot for Excel ® 2010 のインメモリのカラム ベース エンジンを応用 44

45 © 2012 Microsoft Corporation. All rights reserved 行ベースの場合 Select 商品名, 梱包単位 from 商品テーブル 45 ※商品コードにクラスタ化インデックスが構築されている場合 バッファ キャッシュ 行ベースの場合、SELECT 文の結果 を返すに際し、必要のない列もバッ ファキャッシュに載ってしまう

46 © 2012 Microsoft Corporation. All rights reserved 列ベース(カラムストア インデックス)の場合 Select 商品名, 梱包単位 from 商品テーブル 46 ※商品コードにクラスタ化インデックス バッファ キャッシュ バッファキャッシュには必要な列だけがのる ディスクからの読み出し量が減る → I/O 量の削減 バッファ キャッシュに余計なものを載せない → メモリの有効活用 バッファキャッシュには必要な列だけがのる ディスクからの読み出し量が減る → I/O 量の削減 バッファ キャッシュに余計なものを載せない → メモリの有効活用

47 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックスとは 日付商品 ID 注文 ID 売上 101 102 103 104 52 76 92 23 201105 201106 201109 201112 100 200 150 300 100 200 150 300 ・・・ 日付商品 ID 注文 ID 売上 101 102 103 104 52 76 92 23 201105 201106 201109 201112 100 200 150 300 102 103 104 76 92 23 201106 201109 201112 200 150 300 Select SUM(売上) ・・・ ・・ ・ 47

48 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックス アーキテクチャ Segment  特定の列のデータの塊をさ す。よって、Segment には 他の列のデータは含まれな い  PowerPivot で使用されてい るのと同様の xVelocity in- memory technologies を 使って圧縮  Segment 毎に Segment 内 の Min/Max 値をメタデータ として保持する Row group  同一の行のデータが含まれ る Segment は同一の Row Group として管理される。 48 Segment Row group Min:1 Max:10 Min:アメリカンクラッカー Max:メロンミルクキャンディー Min:オタル白ラベル Max:果汁100% レモン Min:140g × 50個 Max:5個× 25袋 Min:50 Max:2800

49 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックスについて メリット  列方式は行方式と比較すると、値の冗長性(redundancy)が高く なる可能性がある為、結果として圧縮がよりかかる可能性がある。  圧縮が進むことにより、I/O が減り、メモリの中に保持されるデー タが多くなることでクエリのレスポンス タイムが向上し得る。  列方式は、列個別にアクセスすることができるので、一部の列だけ を必要するクエリの場合には I/O 量を削減可能。  検索に利用される列を複数含んだインデックスを1つ作成する事で 設定完了。列の組み合わせ、順番等は考慮する必要がないので、設 定は非常に容易。 デメリット  幾つかの列ではなく、行としてデータが必要な場合には、列方式は 不向き。個別に列毎に格納されている値を結合し直す必要がある 為。  選択性の高いクエリ、1 行または少量のレンジ幅の行を Lookup す るようなクエリの場合には、行方式の B-Tree の方が適している。 49

50 © 2012 Microsoft Corporation. All rights reserved Batch 実行モードによる処理高速化 Batch 実行モード  SQL Server 2012 からの新機能  Row 実行モードの場合、一度に処理できるのは 1 行のみなのに対して、Batch 実行モードは一度に大 量の列データ(一般的には 1,000 行分)を効率的な方 法で処理することができる  1 つの Batch の中でそれぞれの列は別々のメモリ領 域にベクター データとして確保されることから、 Batch 実行モードはベクター方式の処理方式といえ る。 50

51 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックス利用時のクエリの動作 51 Min 2011-01-01 Max 2011-01-25 CREATE TABLE T2 (TxDate DATE, CustId INT, ProdId INT, Amt FLOAT); CREATE CLUSTERED INDEX ci ON T2 (TxDate, CustId); CREATE NONCLUSTERED COLUMNSTORE INDEX ncci ON T2 (TxDate, CustId, ProdId, Amt); SELECT CustId, sum(Amt) FROM T2 WHERE TxDate < '2011-01-15' GROUP BY CustId; CREATE TABLE T2 (TxDate DATE, CustId INT, ProdId INT, Amt FLOAT); CREATE CLUSTERED INDEX ci ON T2 (TxDate, CustId); CREATE NONCLUSTERED COLUMNSTORE INDEX ncci ON T2 (TxDate, CustId, ProdId, Amt); SELECT CustId, sum(Amt) FROM T2 WHERE TxDate < '2011-01-15' GROUP BY CustId; Min 2011-01-26 Max 2011-02-14 Min 2011-02-14 Max 2011-03-02 Min 1 Max 415 Min 5 Max 378 Min 19 Max 392 Min 18 Max 230 Min 10.65 Max 88.62 Min 165 Max 400 Min 8 Max 258 Min 22.63 Max 120.41 Min 5.95 Max 96.25

52 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックス利用時のクエリの動作 52 Min 2011-01-01 Max 2011-01-25 Min 2011-01-26 Max 2011-02-14 Min 2011-02-14 Max 2011-03-02 Min 1 Max 415 Min 5 Max 378 Min 19 Max 392 Min 18 Max 230 Min 10.65 Max 88.62 Min 165 Max 400 Min 8 Max 258 Min 22.63 Max 120.41 Min 5.95 Max 96.25 CREATE TABLE T2 (TxDate DATE, CustId INT, ProdId INT, Amt FLOAT); CREATE CLUSTERED INDEX ci ON T2 (TxDate, CustId); CREATE NONCLUSTERED COLUMNSTORE INDEX ncci ON T2 (TxDate, CustId, ProdId, Amt); SELECT CustId, sum(Amt) FROM T2 WHERE TxDate < '2011-01-15' GROUP BY CustId; CREATE TABLE T2 (TxDate DATE, CustId INT, ProdId INT, Amt FLOAT); CREATE CLUSTERED INDEX ci ON T2 (TxDate, CustId); CREATE NONCLUSTERED COLUMNSTORE INDEX ncci ON T2 (TxDate, CustId, ProdId, Amt); SELECT CustId, sum(Amt) FROM T2 WHERE TxDate < '2011-01-15' GROUP BY CustId; 読み込みが必要なのは 3 つの Segment だけ

53 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックスの作成 53 CREATE NONCLUSTERED COLUMNSTORE INDEX ncci ON myTable(OrderDate, ProductID, SaleAmount) <SSMS から> <T-SQL から>

54 © 2012 Microsoft Corporation. All rights reserved カラムストア インデックスについて その他のポイント  カラムストア インデックスは DWH クエリを強化するようにデザインされ ている。(OLTP には全く適さない)  大量データのスキャン、集計、スター型 Join のような複数テーブル Join に最適化されている。  カラムストア インデックスは大規模なファクトやディメンションテーブル に対して適しており、小さなテーブルにはこれを作成してもパフォーマン ス上のメリットはないばかりかメンテナンスコストがかかる。  インデックス作成時は並列処理が可能。  インデックスは、作成時に xVelocity in-memory technologies のアルゴ リズムを利用した圧縮が行われる為、行やページの圧縮機能はカラムスト ア インデックスには使用できない。  一般的には、同じ列数の B-Tree インデックス作成と比較して 1.5 倍程度 の時間がかかる。  使用するメモリ量は、列数、文字列型の列数、並列度、データの特性に よって変わってくる。  見積もり計算式 Memory grant request in MB = [(4.2 * カラムストア インデックスに含まれる列 数) + 68] * DOP + (文字列カラム数 * 34) 54

55 © 2012 Microsoft Corporation. All rights reserved パフォーマンス結果の一例 環境  TPC-DS データベースの 1 TB 版を使用 catalog_sales ファクト テーブル 14.4 億件 32 コア / 256 GB メモリ 実行クエリ 結果 55 SELECT w_city, w_state, d_year, SUM(cs_sales_price) AS cs_sales_price FROM warehouse, catalog_sales, date_dim WHERE w_warehouse_sk = cs_warehouse_sk and cs_sold_date_sk = d_date_sk and w_state in ('SD','OH') and d_year in (2001,2002,2003) GROUP BY w_city, w_state, d_year ORDER BY d_year, w_state, w_city; SELECT w_city, w_state, d_year, SUM(cs_sales_price) AS cs_sales_price FROM warehouse, catalog_sales, date_dim WHERE w_warehouse_sk = cs_warehouse_sk and cs_sold_date_sk = d_date_sk and w_state in ('SD','OH') and d_year in (2001,2002,2003) GROUP BY w_city, w_state, d_year ORDER BY d_year, w_state, w_city;

56 © 2012 Microsoft Corporation. All rights reserved 制限事項 カラムストア インデックスをフィルター選択されたイ ンデックスとして作成できない カラムストア インデックスに以下の列を使用すること はできない  計算列  スパース列 インデックス付きビューに対して、カラムストア イン デックスは作成できない カラムストア インデックスに含めることができない データ型 56

57 © 2012 Microsoft Corporation. All rights reserved データの更新に対して カラムストア インデックスが作成されたテーブルには DML 文 (Insert/Update/Delete/Merge)が使用できなくなる。 運用方法として考えられる 3 つの方法  インデックスの無効化と再構築 1.カラムストア インデックスを無効化(Disable) ALTER INDEX my_index ON T DISABLE 2.データの更新 3.カラムストア インデックスの再構築(Rebuild) ALTER INDEX my_index ON T REBUILD  パーティショニングの使用 1.ステージング テーブルでデータの更新 2.ステージング テーブルでカラムストア インデックスの構築 CREATE NONCLUSTERED COLUMNSTORE INDEX my_index ON StagingT(OrderDate, ProductID, SaleAmount) 3.ステージング テーブルからターゲット テーブルにパーティション切替 ALTER TABLE StagingT SWITCH TO TargetT PARTITION N  Union の使用 1.更新がかからないデータはカラムストア インデックスがあるテーブルに格納 2.更新がかかるデータはカラムストア インデックスのないテーブルに格納 3.参照時はこれらを Union する。もしくは、Union したビューを作成し、これを 参照させる。 57

58 © 2012 Microsoft Corporation. All rights reserved バッチ処理・データロードツール 58

59 © 2012 Microsoft Corporation. All rights reserved バッチ処理・データロード ツール 迅速なデータ ウェアハウスの構築を実現する Integration Services  エンタープライズ ETL (Extract/Transform/Load) 機能を提供 さまざまなシステムやファイルに含まれるデータを抽出、変換、ロード パフォーマンスのさらなる向上で、迅速なデータ ウェアハウスの構築と 運用を支援 メンテナンスタスクを活用することにより日々のメンテナンスを自動化 59 Integration Services さまざまなデータソースから データを統合 データウェアハウスの管理と保守を軽減 複雑なデータ統合タスクやバッチ処理を 自動化し、最新のデータを使った集計や 分析を支援 データクレンジングによる標準化 データクレンジング機能により、各種 データを標準化してデータウェアハウス に統合 ETL データの抽出 データの変換 データのロード データ ウェアハウスの構築を支援するツールを提供 インポートおよびエクスポート ウィザード SQL Server Data Tools データソースからの簡単なコピーデータ統合タスクの開発生産性を向上 SQL Server 他データベース Office Access、 Office Excel レガシ システム データ ウェアハウス SQL Server 分散したシステムや ファイル内のデータを データウェアハウスに統合 さまざまな業務、 意思決定に活用 SQL Server Reporting Services データ分析や集計 データマート OLAP キューブ

60 © 2012 Microsoft Corporation. All rights reserved Integration Servicesの特徴 データソースとの接続性 グラフィカルな処理定義インタフェース 多数のビルトインタスクによる生産性向上 容易な移行とバッチ実行 ETL : Extract, Transformation, Loading 分析用 データベース Main Frame SAP ERP RDBMS Excel、 Access CSV、 XML… タスク パッケージ データ フロー タスク タスク コンテナ 60

61 © 2012 Microsoft Corporation. All rights reserved データソースとの接続性 入力側、出力側ともに多数のデータと接続可能 データベース  RDBMS.Net Provider、OLE DB provider、ODBC接続など SQL Server、Oracle、DB2、Teradataなど ファイル  テキストファイル 固定長テキストファイル、CSV形式ファイル  Officeファイル Excelブック、Accessファイル(.mdb) ERP  SAP BizTalk Server のSAP Adapter Packの利用 メインフレームデータ  BizTalk Server のBizTalk Adapter for Host Systemsの利用 DB/DCとの接続 IMS、CICS ファイルアクセス メインフレームデータセット(VSAM) AS400の物理ファイル 61

62 © 2012 Microsoft Corporation. All rights reserved グラフィカルな処理定義インタフェース 2つのツールが利用可能 インポートおよびエクスポートウィザードSQL Server Data Tools ウィザードを使って、データソースに含まれるデータを 簡単にデータウェアハウスにコピー可能 Visual Studio 2010 と統合されたユーザー インターフェイスと Integration Services 用のプロジェクトにより、複雑な変換処理を 伴うデータ統合タスクの開発生産性を向上 62

63 © 2012 Microsoft Corporation. All rights reserved SQL Server Data Tools Visual Studio シェル ベースのデザイナ  グラフィカルな処理の実装  ビルトインタスクの利用による生産性の向上  スクリプトによる詳細な処理への対応  ビジュアルなデバック機能 データフローと制御フローの分離  制御フローでループや分岐  データフローで 様々なクレンジングタスクを実行 詳細なワークフロー定義 63

64 © 2012 Microsoft Corporation. All rights reserved 制御フロー画面サンプル 64

65 © 2012 Microsoft Corporation. All rights reserved データフロー画面サンプル 65

66 © 2012 Microsoft Corporation. All rights reserved 既存タスク利用による生産性向上 制御フローのタスク  SQL Server メンテナンスタスク  コンテナタスク  外部プログラム実行タスク  外部リソース接続タスク  Analysis Services機能実行タスク データフローのタスク  変換元/変換先 アダプタ  変換コンポーネント 66

67 © 2012 Microsoft Corporation. All rights reserved 制御フロータスク一覧 お気に入り SQL 実行タスクデータフロータスク 共通 Analysis Services 処理タスクFTPタスク Web サービスタスクXML タスク スクリプトタスクデータプロファイルタスク パッケージ実行タスクファイルシステムタスク プロセス実行タスクメール送信タスク 一括挿入タスク式のタスク コンテナー For ループコンテナーForeach ループコンテナー シーケンスコンテナー 67

68 © 2012 Microsoft Corporation. All rights reserved 制御フロータスク一覧 その他のタスク Analysis Services DDL 実行タスクCDC 制御タスク Master ストアドプロシージャ転送タス ク SQL Server エージェントジョブの実 行タスク SQL Server オブジェクトの転送タス ク T-SQL ステートメントの実行タスク WMI イベント監視タスクWMI データリーダータスク インデックスの再構成タスクインデックスの再構築タスク エラーメッセージ転送タスクオペレーターへの通知タスク ジョブ転送タスクデータマイニングクエリタスク データベースのバックアップタスクデータベースの圧縮タスク データベースの整合性確認タスクデータベース転送タスク メッセージキュータスクメンテナンスクリーンアップタスク ログイン転送タスク履歴クリーンアップタスク 統計の更新タスク 68

69 © 2012 Microsoft Corporation. All rights reserved データフロータスク一覧 お気に入り 変換元アシスタント変換先アシスタント 共通 OLE DB コマンドスクリプトコンポーネント データ変換マージ マージ結合マルチキャスト 並べ替え全体結合 参照条件分割 派生列穏やかに変化するディメンション 行数集計 69

70 © 2012 Microsoft Corporation. All rights reserved データフロータスク一覧 その他の変換 CDC スプリッターDQS クレンジング あいまいグループ化あいまい参照 キャッシュの変換データマイニングクエリ ピボットピボット解除 列インポート列エクスポート 列コピー文字マップ 比率サンプリング用語参照 用語抽出監査 行サンプリング その他変換元 ADO.NET 変換元CDC 変換元 Excel ソースODBC入力元 OLE DB ソースRAW ファイルソース XML ソースフラットファイルソース 70

71 © 2012 Microsoft Corporation. All rights reserved データフロータスク一覧 その他変換先 ADO.NET 変換先DataReader 変換先 Excel 変換先ODBC 変換先 OLE DB 変換先RAW ファイル変換先 SQL Server Compact 変換先SQL Server 変換先 ディメンション処理データマイニングモデルのトレーニン グ パーティション処理フラットファイル変換先 レコードセット変換先 71

72 © 2012 Microsoft Corporation. All rights reserved 会話型のデバック環境 SQL Server Data Tools を利用したデバック  デバックツールの利用が可能 データビューア 変数値のスナップショット ブレイクポイントの設定 ステップ実行 など 72

73 © 2012 Microsoft Corporation. All rights reserved 増分データの読み込み 73

74 © 2012 Microsoft Corporation. All rights reserved 増分データの読み込み データ ウェアハウスのデータ メンテナンスを支援 変更データ キャプチャ機能 :データベースに加えられた 変更をログから追跡 データソース データ ウェアハウス Change Data Capture 変更されたデータ をログに記録 SSIS を使用して、変更され たデータだけを効率よくデー タ ウェアハウスに統合可能 統合範囲を最小限に抑え、 データ統合タスクの パフォーマンスが向上 74 SQL Server

75 © 2012 Microsoft Corporation. All rights reserved Data Quality Services 75

76 © 2012 Microsoft Corporation. All rights reserved DQS (Data Quality Services) データの品質を向上させるツール データ クレンジングや名寄せなどの処理サービスを提供 散在するマスター データから DWH に統合したデータの品質を 改善 Integration Services の部品として利用可能 76 整合性が欠けた各システムの 取引先マスターの例 社名 XXXX 株式会社 日本マイクロソフト ○○○株式会社 社名 XXXX 株式会社 日本マイクロソフト(株) ○○○株式会社 社名 XXXX 株式会社 マイクロソフト株式会社 ○○○株式会社 データ ウェアハウス 社名 XXXX 株式会社 日本マイクロソフト株式会社 ○○○株式会社 データ フローの 変換コンポーネントとして、 DQS クレンジング タスクを利用 A B C DQS でデータを正しく修正 データを容易に修正できるツー ルを提供 名前や文字列の長さなどを チェックし、正規表現に修正す るためのルールを定義 定義したルールをパブリッシュ して、Integration Services の タスクとして利用

77 © 2012 Microsoft Corporation. All rights reserved リソースの動的配分 77

78 © 2012 Microsoft Corporation. All rights reserved リソースの動的配分 (リソース ガバナ) 大規模データ ウェアハウス環境で見受けられる問題  膨大なリソースを消費するプロセスによるシステム パフォーマンスの 劣化  高優先度なプロセスに影響をおよぼす低優先度なプロセス  複雑化するシステム リソース管理 リソース ガバナによるソリューション  個別のワークロードごとにリソース制限と優先順位付けが可能に ユーザー、アプリケーション、データベースに基づくワークロード定義 リソースを大量消費するタスクの制御が可能 ミッション クリティカルなプロセスを低優先度プロセスから分離できる 定期的に実行される保守タスクからの影響を最小化できる リソース ガバナ の制約  データベースエンジン内部の制御のみが可能  SQL Server インスタンス間の調整、制御は行わない  CPU とメモリの管理に制限される 78

79 © 2012 Microsoft Corporation. All rights reserved リソース ガバナ適用イメージ ワークロード  データベースに対して行われる同様の要求をユーザーの観点からまとめたもの OLTP 処理 バッチ処理 Backup タスク … リソースプール  SQL Server インスタンスが使用できるリソースを仮想的にまとめたもの 管理系 ワークロード Min Memory 10% Max Memory 20% Max CPU 20% 管理用 Pool OLTP ワークロード バッチ/リポート ワークロード BackupタスクBackupタスク 管理タスク管理タスク OLTP処理OLTP処理 バッチ処理バッチ処理 非定型レポート非定型レポート Max CPU 90% アプリケーション用 Pool CPU, Memory, Threads … BackupタスクBackupタスク 管理タスク管理タスク OLTP処理OLTP処理 バッチ処理バッチ処理 非定型レポート非定型レポート ワークロード リソース リソースプール 79

80 © 2012 Microsoft Corporation. All rights reserved リソースガバナの構成要素 分類(ユーザー定義関数)  SQL Server への新規接続の度に実行され、該当する ワークロード名を返すスカラ値型関数  関数の格納先は master データベース  判別の為に使用できる関数 HOST_NAME() APP_NAME() SUSER_NAME() SUSER_SNAME() … 分類(ユーザー定義関数)  SQL Server への新規接続の度に実行され、該当する ワークロード名を返すスカラ値型関数  関数の格納先は master データベース  判別の為に使用できる関数 HOST_NAME() APP_NAME() SUSER_NAME() SUSER_SNAME() … リソースプール  2 つの事前定義されたリソース プール 内部プール 内部グループによって使用される 既定のプール 既定のグループによって使用される  既定のグループ / 既定のプールだけの状態 ≒ SQL Server 2005  プール数の上限:20 個まで(内部プールと既定の プールを除くと、実質 18個 まで)  Min/Max CPU % 設定は個々の CPU スケジューラ毎 に適用される リソースプール  2 つの事前定義されたリソース プール 内部プール 内部グループによって使用される 既定のプール 既定のグループによって使用される  既定のグループ / 既定のプールだけの状態 ≒ SQL Server 2005  プール数の上限:20 個まで(内部プールと既定の プールを除くと、実質 18個 まで)  Min/Max CPU % 設定は個々の CPU スケジューラ毎 に適用される ワークロード  2 つの事前定義されたワークロード 内部グループ エンジン内部の処理で使用される(e.g. Lazy Writer, Checkpoint,...) 既定のグループ 該当するワークロードが存在しなかった時に使用 される  重要度 複数のワークロードで1 つのリソース プールを共有 する場合に調整要素として働く LOW/MEDIUM/HIGH = 1 : 3 : 9 の重みを使っ て内部的な計算が行われる MEDIUM が既定 ワークロード  2 つの事前定義されたワークロード 内部グループ エンジン内部の処理で使用される(e.g. Lazy Writer, Checkpoint,...) 既定のグループ 該当するワークロードが存在しなかった時に使用 される  重要度 複数のワークロードで1 つのリソース プールを共有 する場合に調整要素として働く LOW/MEDIUM/HIGH = 1 : 3 : 9 の重みを使っ て内部的な計算が行われる MEDIUM が既定 リソース ガ バナの構成 要素 分類(ユー ザー定義関 数) リソース プール ワークロード 80

81 © 2012 Microsoft Corporation. All rights reserved リソース ガバナの動作概要 管理系ワークロード管理系ワークロード Min Memory 10% Max Memory 20% Max CPU 20% Min Memory 10% Max Memory 20% Max CPU 20% 管理用 Pool ユーザー定義関数に よる ワークロードの判別 ワークロードの判別 OLTPワークロードOLTPワークロード バッチ / リポート ワークロード ワークロード Max CPU 90% アプリケーション用 Pool User3 User1User1 User2 81

82 © 2012 Microsoft Corporation. All rights reserved きめ細かなリソース配分および制御の実現(1) ハードウェア リソースの柔軟な制御を実現  単一のインスタンスに統合した複数のワークロードに対するリソース配分  より重要なアプリケーション処理や管理タスクにリソースを優先的に配分  リソースの競合や占有によるパフォーマンスの低下を防止 配分の設定  GUI / コマンドのいずれにも対応しているので、状況に応じて最適な方を使用可能 複数のリソース プールを作成して、 物理サーバーのリソース配分を制御 リソース プール Aリソース プール B CPU 最大 : 20% メモリ最大 : 40% CPU 最小 : 20% CPU 最大 : 80% メモリ最大 : 60% メモリや CPU の最小値や最大値を指定して使用量を配分 各リソース プールに割り当てた ワークロードごとに優先度などを指定 リソース プール Aリソース プール B 管理タスク : High バックアップ : Medium 重要度やタイムアウト時間などで優先順位を制御 OLTP 処理 : High バッチ処理 : Medium レポート処理 : Low リソースガバナで 効率的にリソースを制御 単一のインスタンスで 複数のワークロードを実行 人事データ 販売管理データ 経理データ ビジネス分析データ 82

83 © 2012 Microsoft Corporation. All rights reserved きめ細かなリソース配分および制御の実現(2) ワークロードとリソー スプールの関係  N:1 の関係 (複数のワークロードと 1 つのリソースプールを 共有することが可能) ワークロードに対して は重要度(優先度)の 設定も可能  Low  Medium(既定)  High 83 管理系 ワークロード Min Memory 10% Max Memory 20% Max CPU 20% 管理用 Pool OLTP ワークロード バッチ/リポート ワークロード BackupタスクBackupタスク 管理タスク管理タスク OLTP処理OLTP処理 バッチ処理バッチ処理 非定型レポート非定型レポート Max CPU 90% アプリケーション用 Pool ワークロード リソースプール High 83

84 © 2012 Microsoft Corporation. All rights reserved 適用シナリオ ワークロードの特性に合わせた動的な配分が可能 リソースの配分例 基幹業務の OLTP 処理を最優先にして、 データ処理を高速化することで、業務効率をアップ バッチ処理やバックアップにリソースを配分して、 最新データの反映や管理タスクのパフォーマンスを向上 業務時間中夜間 業務処理や管理タスクを優先して実行バッチ処理やバックアップにリソースを配分 リソース 配分 OLTP 処理 管理タスク レポート作成 バックアップ バッチ処理 バックアップ バッチ処理 各ワークロードの違いを自動的に判別 ホスト名 アプリケーション名 ユーザー名 など 特定のワークロードによるリソースの占有、リソースの競合によるパフォーマンスの低下を防ぎ、 より重要なアプリケーションにリソースを優先的に配分することが可能 リソース 配分 84

85 © 2012 Microsoft Corporation. All rights reserved リソースガバナの適用例 夜間 リソースが空いている限り バッチ処理がリソースを使う 業務中 オンラインとバッチが重なった場合は、 オンライン処理に優先的にリソースを割り当てる 時間 85

86 © 2012 Microsoft Corporation. All rights reserved 目次 SQL Server で実現する大規模データ ウェアハウス データ ウェアハウスのこれまでとこれから  SQL Server の DWH テクノロジー データ ウェアハウス構築の目的  データ活用の敷居を下げるマイクロソフト BI ソリューション の構成 DWH アプライアンス 86

87 © 2012 Microsoft Corporation. All rights reserved データ ウェアハウス構築の目的 87

88 © 2012 Microsoft Corporation. All rights reserved データ ウェアハウス構築の目的 最終的に人が利活用し、意思決定に役立てることが目的 88

89 © 2012 Microsoft Corporation. All rights reserved データ活用の成熟度 Source: ITR 調査 (2011 年 9 月) BI ツールを利用している、従業員数が 500 名以上 の国内企業の従業員 500 名を対象とした調査 BI ツールの利用用途 BI ツール導入済国内企業ユーザー 500 名の調査 データ マイニングまで実現できている企業は 2 割 程度 定型レポーティング/帳票作成 非定型レポーティング/帳票作成 定型パターンによるデータ分析 独自視点によるデータ分析 データ マイニング/統計分析 経営ダッシュボード 経営パフォーマンス管理 89

90 © 2012 Microsoft Corporation. All rights reserved 現場におけるデータ活用の課題 Source: ITR 調査 (2011 年 9 月) BI ツールを利用している、従業員数が 500 名以上 の国内企業の従業員 500 名を対象とした調査 BI ツールに対する課題 BI ツール導入済国内企業ユーザー 500 名の調査 BI ツールは高くて使い方が悪いという課題に直面 利用者のスキル不足 使い方の教育が不十分 結局 Excel が必要になる 操作性が悪い 非定型分析で処理時間がかかる 自由分析が簡単にできない 高価なため利用者を増やせない 90

91 © 2012 Microsoft Corporation. All rights reserved BI ツールの利用形態 Excel にデータを直接入力して分析する BIツールを利用して独自の分析を行う BIツールで抽出したデータをExcel で分析 BIツールを利用してダウンロードしたデー タを Excel で分析 BIツールで提供されている定型分析を利用 システム部門にデータ作成を依頼し、入手 したデータを Excel で分析 独自開発のツールを利用して分析を行う データ分析はほとんど行わない ERPに付属する分析機能を利用する その他の方法で分析する BIツールの利用形態 出典:ITmedia リサーチインタラクティブ/ITR(2009年11月) BIツールの利用範囲の広がりとともに、 ユーザーの多くは分析や加工にExcelを利用している Excelとシームレスに連携するBIツールが利活用を促進する BIツールの利用範囲の広がりとともに、 ユーザーの多くは分析や加工にExcelを利用している Excelとシームレスに連携するBIツールが利活用を促進する BIツールの主な利用者と利用ツール 現場のマネージャーや営業スタッフなど 専門スタッフ以外の利用が増えている 各部門の社員スタッフ 21.9% 役員、執行役員、本部長 などの経営層 15.1% 部長、課長などの 現場のマネジメント 24.7% 企画部門など ビジネス分析を行う 専門スタッフ 35.6% POIN T

92 © 2012 Microsoft Corporation. All rights reserved データ活用の敷居を下げる Excel と Web ブラウザを BI ツールとして活用 定型レポーティング 独自視点による データ分析 (OLAP) 非定型レポーティング データ マイニング 92

93 © 2012 Microsoft Corporation. All rights reserved Microsoft Business Intelligence ビジョンと戦略 93

94 © 2012 Microsoft Corporation. All rights reserved すべての従業員に対して 意思決定のスピードと質を高めるための ビジネスの洞察力を提供することで 組織をよりよいものに高めていく すべての従業員に対して 意思決定のスピードと質を高めるための ビジネスの洞察力を提供することで 組織をよりよいものに高めていく 包括的かつ統合された BI とパフォーマンス管理の提供 Microsoft Office を使用した広範なインテリジェンスの展開 企業レベルの低コストなソリューションの提供 Microsoft Business Intelligence ビジョンと戦略 94

95 © 2012 Microsoft Corporation. All rights reserved Microsoft BI ソリューションの構成 95

96 © 2012 Microsoft Corporation. All rights reserved Power View Microsoft BI ソリューションの構成 財務 生産、在庫、購買 CSV 形式データ 販売、顧客 業務システムの データベース リレーショナル データベース 多次元データベース プレゼンテーション層データ層 レポーティング ユーザー エンド ユーザー パワー ユーザー 経営者、 役員 ETL Integration Services データ抽出 データ ロード データ変換 分析用データベース DB Engine Services 分析サーバー Analysis Services レポート サーバー Reporting Services Office、PDF 定型レポート ローカル データ Office Excel PowerPivot for Excel 2010 Pivot Table/Graph ポータル サーバー SharePoint Server 2010 96

97 © 2012 Microsoft Corporation. All rights reserved SQL Server 2012 で強化された BI 機能 財務 生産、在庫、購買 CSV 形式データ 販売、顧客 業務システムの データベース リレーショナル データベース 多次元データベース プレゼンテーション層データ層 レポーティング ユーザー エンド ユーザー パワー ユーザー 経営者、 役員 分析用データベース DB Engine Services Office、PDF 定型レポート ローカル データ Pivot Table/Graph ポータル サーバー SharePoint Server 2010 ETL Integration Services データ抽出 データ ロード データ変換 分析サーバー Analysis Services レポート サーバー Reporting Services Office Excel PowerPivot for Excel 2010 Power View ユーザー インターフェイ スの変更(操作性の向上) 新しい変換コンポーネント (DQS)の追加 Tabular Model のサポート (xVelocity) データ警告 (Alert/通知) 機能の追加 Excel エクスポート時のフォーマット の変更 (xlsx 形式対応) バージョン2.0へ進化 UPDATE ! 97

98 © 2012 Microsoft Corporation. All rights reserved 98 Web レポーティング Office、PDF レンダリング DB 連携、OLAP 連携 Access レポートインポート キューブからのレポート作成 メール、Webへのスケジュール配信 制御構造とデータフロー 高度なデバック機能 強力プロジェクトとして管理 制御構造とデータフローの分離 高度なデバック機能 強力なエラーハンドラ 実行の監査 ジョブとしてのスケジュール プロジェクトとして管理 複数データソースからキューブ構築 難解なソーステーブルの隠蔽 自動キューブ作成機能 柔軟なキャッシュ方法 KPIフレームワーク 柔軟なセキュリティ設定 7つのデータマイニングモデル 動的な自己管理.NET 統合 ネィティブ Web サービス 64 CPU 以上 / 2TB 以上 メモリ フェイル オーバークラスタ AlwaysOn AG / データ ミラーリング オンラインインデックス操作 カラムストア インデックス データ圧縮 データ パーティション インデックス付ビュー 並列クエリ サービス ブローカー Relational Engine Analysis Services Reporting Services Integration Services 管理ツール: Management Studio 開発ツール: SQL Server Data Tools RDB機能 多次元DB Web帳票 ETL機能 All-In-One パッケージ RDBエンジンだけでなく全ての BI プラットフォーム機能も SQL Server 1製品に同梱

99 © 2012 Microsoft Corporation. All rights reserved 目次 SQL Server で実現する大規模データ ウェアハウス データ ウェアハウスのこれまでとこれから  SQL Server の DWH テクノロジー データ ウェアハウス構築の目的  データ活用の敷居を下げるマイクロソフト BI ソリューション の構成 DWH アプライアンス 99

100 © 2012 Microsoft Corporation. All rights reserved DWH アプライアンス 100

101 © 2012 Microsoft Corporation. All rights reserved DWH アプライアンス 出典:テクノシステムリサーチ 2010 年 8 月 国内 RDB/DWH 市場規模 (容量別金額) 64 TB 以 上 32 TB 以 上 8 TB 以上 8 TB 未満 データ容量別市場規模 Fast Track Data Warehouse Parallel Data Warehouse HP Enterprise Data Warehouse あらゆる規模に対応する 2 つのアプライアンス 101

102 © 2012 Microsoft Corporation. All rights reserved マイクロソフトの DWH アプライアンス特性 102

103 © 2012 Microsoft Corporation. All rights reserved マイクロソフトの DWH アプライアンス特性 データベース サーバー ストレージ 共通のリソースで 並列処理 スケール アップ による拡張 データベース ノード ─ 処理の実行 ─ コントロール ノード ─ クエリ プランの作成 ─ ストレージ ノード 各ノードの リソースで 実行 スケール アウト による拡張 各ノードで 並列処理 大規模データ ウェアハウス リファレンスアーキテクチャにより 汎用データベースとアプライアンスのメリット を統合し、 迅速な導入と低価格を実現 超大規模データ ウェアハウス 超大規模並列処理 (MPP) を採用し、 数百テラバイト級データウェアハウスにも対応 ノード追加によるスケールアウト拡張が可能 アプライアンスのため導入後すぐに利用可能 103

104 © 2012 Microsoft Corporation. All rights reserved Fast Track Data Warehouse 104

105 © 2012 Microsoft Corporation. All rights reserved ・事前検証済みのハードウェア構成で導入 ・ベスト プラクティスに基づく構築 ・DWH 構築の不確定要素を可能な限り排除 大規模 DWH 構成 ~ Fast Track Data Warehouse ~ データ ウェアハウスの迅速な構築と予測可能な性能を実現する DWH ソリューション  パッケージ製品とアプライアンス製品の中間的な製品体系  用途とハードウェア構成を特化することで最適なパフォーマンスを実現 DWH では、データをシーケンシャルに読み取る操作が主体 CPU の構成 I/O チャネルの構成 ストレージの設計 データベースのデータ 構造 など DWH 用途で最大限の性能を発揮できるように 事前にチューニング、および検証したシステム構成 読み取り操作で最大の性能を発揮する構成を検証 さらに ミラー ドライブでデータの読み込み速度を高速化 シーケンシャル リードに最適なデータベースの構築の ガイダンス、最適なメンテナンス方法などの ベスト プラクティス CPU の処理能力を基準に、I/O チャネル、ストレージの 各コンポーネントのスループットが最大となるバランスに 調整 CPU、IO チャネル、ストレージのバランスが悪い場合、 一番低いコンポーネントのスループットが上限に!! CPU の処理性能が 上限 ストレージのシーケ ンシャル IO が上限 I/O チャネルが上限 検証済みのリファレンス アーキテクチャ http://www.microsoft.com/japan/sqlserver/2008/r2/prodinfo/fasttrack.mspx 105 ・標準的なハードウェアを使用 ・オールインワンの SQL Server ・リーズナブルな価格と容易な導入 TCO 削減迅速な導入 ・シーケンシャル リードに最適化 ・事前検証により、予測可能な性能を提供 ・最大 48 TB まで、スケール アップに対応 安定したパフォーマンス

106 © 2012 Microsoft Corporation. All rights reserved SQL Server Fast Track Data Warehouse (FT) データベースのデータ構造CPU や I/O チャネルなどの構成ストレージの設計、構成 検 証 済 み 事前にチューニングと検証を行った SMP サーバー ハードウェア、 ストレージ、データベースなどで構成 リファレンス アーキテクチャ 要件に合わせたモデルの選択 データベースサイズなどに合わせた 4 TB 未満 ~ 最大 80 TB のモデル TCO 削減 標準的なハードウェアを使用し リーズナブルな価格と容易な導入を実現 迅速な導入 事前検証済みの標準的なハードウェアを 使用してDWH 用途で最大限の性能を発揮 106

107 © 2012 Microsoft Corporation. All rights reserved 圧倒的なコストパフォーマンス 低 TCO 迅速な導入迅速な導入 よりよいパフォーマンスよりよいパフォーマンス最小限の管理時間最小限の管理時間 利点 107

108 © 2012 Microsoft Corporation. All rights reserved SQL Server Fast Track モデル (*1) Open Business ライセンス、25 クライアント アクセス ライセンスの場合 V3.0 (参考として最大容量 80 TB モデルのみ記載) コア数 検証済 容量 最大 容量 参考価格 (ハードウェア) ・HP ProLiant DL 980 G7 (8 Core× 8CPU)6440 TB80 TB約 58,000,000 円 旧情報しかないため、詳細は BG にお問い合わせください 108 Internal Use Only

109 © 2012 Microsoft Corporation. All rights reserved Parallel Data Warehouse 109

110 © 2012 Microsoft Corporation. All rights reserved データ ラック 単位で追加により、処 処理能力を リニアに向上 SQL Server Parallel Data Warehouse (PDW) コントロール ラック データ ラック クライアント クライアントとの接続 クエリの分析とクエリ プランの作成 クエリのソート、集計などの実行 コンピュート ノードストレージ ノード クエリの処理 ユーザー データを保持 低コストな標準ハードウェアを使用したアプライアンスとして提供 Parallel Data Warehouse は、並列処理のバランスが調整された事前検証済みのアプライアンス製品として提供 導入とメンテナンスの手間を軽減し、展開から運用中までのコストを削減 標準的なハードウェア ベースのアプライアンスにより、ハイパフォーマンスと低コストを同時に実現 高い拡張性により、データ量が増大してもシステム全体のリプレースが不要、ビジネスの成長に伴う投資を節約可能 110

111 © 2012 Microsoft Corporation. All rights reserved PDW 全体像 MPP アーキテクチャ コントロール ノード マネージメントサーバー ランディング ゾーン バックアップ ノード データ ラック ( 要件に応じて追加可能 ) コントロール ラック (1 PDW につき 1 つ) モニタリング クライアント ドライバー バックアップ ソリュー ション ETL ロード インター フェース コンピュート ノード スペア データベース サーバー デュアル インフィニバンドデュアル ファイバー チャネル 111

112 © 2012 Microsoft Corporation. All rights reserved PDW 全体像 MPP アーキテクチャ コントロール ノード マネージメントサーバー ランディング ゾーン バックアップ ノード データ ラック ( 要件に応じて追加可能 ) コントロール ラック (1 PDW につき 1 つ) モニタリング クライアント ドライバー バックアップ ソリュー ション ETL ロード インター フェース コンピュート ノード デュアル インフィニバンドデュアル ファイバー チャネル 112 ユーザデータが格納 112

113 © 2012 Microsoft Corporation. All rights reserved PDW 処理の流れ ~ スキャン ~ コントロール ノード クライアント ドライバー コンピュート ノード ①クエリ発行 ②クエリの解析 各ノード用のクエリ ( 分散クエリ ) 作成 作成した分散クエリを 各コンピュートノード に転送 ③各々のノード上で 分散クエリ発行 ④コンピュートノードの全サーバ (10台) による並列クエリの実行 (並列度 120 ) ⑤最終結果の演算 ⑥クエリ応答 113

114 © 2012 Microsoft Corporation. All rights reserved PDW 全体像 処理の流れ ~ データロード ~ コントロール ノードコンピュート ノード ①ランディングゾーン にロードデータ配置 114 ランディング ゾーン ロード用 データ ② DWLoader により 並列ローディング 処理性能参考値 1TB/時間 (初期ロード) DWLoader は SSIS (SQL Server 標準実装の ETLツール) と連携させる事も可能。検索用のサーバとサーバを分け ている事により 検索パフォーマンス の影響はわずか 114

115 © 2012 Microsoft Corporation. All rights reserved PDW 全体像 処理の流れ ~ バックアップ ~ コントロール ノードコンピュート ノード 115 バックアップ ノード Corporate バックアップ ソリューション 処理性能参考値 バックアップは5TB/1hr リストアは6TB/1Hr 差分バックアップも可能 バックアップ 容量は要件により 選択可能 115

116 © 2012 Microsoft Corporation. All rights reserved PDW パフォーマンス向上のためのテクノロジー DISK IO 量の削減  データ圧縮テクノロジー (前述) CPU パワーの最大限活用  120 コアを利用したパラレルクエリ ノード間データ転送量の削減  ストレージレイヤによる 行・列のフィルタリング & 集計処理  ウルトラ シェアード ナッシング結合 116

117 © 2012 Microsoft Corporation. All rights reserved 120 コアをフルに活用できる パラレル クエリ 事前検証でCPU 1コアあたりで 処理できる量を計測 その処理量に見合った IO チャネル / ストレージ構成でブロックを作成 このブロックが 120セット構築されている 搭載した CPU ( 120 コア )をフルに活用した パラレル クエリ を実現 大量の明細データの高速スキャンを実現 データは分散キー の指定による 自動分散 117

118 © 2012 Microsoft Corporation. All rights reserved ストレージレイヤによるフィルタリング・集計処理 118 コントロール ノード ストレージレイヤ ( コンピュート ノード) ×10セット ① クエリ発行 Select Sum (Sales),・・・ Where ・・・ Infini Band ③ 必要な列データ・行データのフィルタリング ④ノード内で可能な集計の実施 ② 各コンピュート ノードにクエリ発行 ⑤集計データ転送 ×10ノード分 ⑥コンピュートノードから 転送されてきたデータの集計 コンピュートノードで 「必要な列データ/行データのフィルタリング」「集計処理」 を行う事により、コントロールノードへのデータ転送を極小化 ネットワーク量を極小化させる事によりパフォーマンスを向上させる ネットワーク 転送量を極小化

119 © 2012 Microsoft Corporation. All rights reserved MPP アーキテクチャにおける結合処理の得意・不得意 Node 1 ss_keyColorQty 1Red5 3Blue10 5Yellow12 7Green7 Store Sales Node 2 ss_keyColorQty 2Red3 4Blue11 6Yellow17 8Green1 Store Sales ws_ke y ColorQty 1Red15 3Blue20 5Yellow22 7Green17 Web Sales ws_ke y ColorQty 2Red13 4Blue21 6Yellow27 8Green11 Web Sales アーキテクチャ上 得意な結合処理 分散キー = 結合キー Web Sales の分散キーは WS_Key Store Sales の分散キーは SS_Key 結合キー WS_KEY, SS_KEY ノード内に同一結合キーのデータが集約 ⇒ ノード内で結合が可能 ⇒ 非常に高速 アーキテクチャ上 不得意な結合処理 分散キー ≒ 結合キー Node 1 ColorCost Red10 Green15 Item Dim ss_keyColorQty 1Red5 3Blue10 5Yellow12 7Green7 Store Sales Node 2 ColorCost Blue26 Yellow6 Item Dim ss_keyColorQty 2Red3 4Blue11 6Yellow17 8Green1 Store Sales Item Dim の分散キーは color Store Sales の分散キーは SS_Key 結合キー Color, Color 同一結合キーが1ノードに集約されない ⇒ ノード内で結合が不可能 ⇒ ノード間でデータ転送が発生 ⇒ 上記のパターンよりもパフォーマンスダウン 119

120 © 2012 Microsoft Corporation. All rights reserved PDW におけるパフォーマンス向上手法 Node 1 ColorCost Red10 Green15 Blue25 Yellow5 Item Dim ss_keyColorQty 1Red5 3Blue10 5Yellow12 7Green7 Store Sales Node 2 ColorCost Red10 Green15 Blue25 Yellow5 Item Dim ss_keyColorQty 2Red3 4Blue11 6Yellow17 8Green1 Store Sales 片方のテーブルをレプリカテーブルとして定義 全てのノードに同じテーブルが格納 ⇒ 各ノードで結合が終了するため非常に高速 ( ウルトラ シェアードナッシング結合 ) レプリカテーブル Date Dim Date Dim ID Calendar Year Calendar Qtr Calendar Mo Calendar Day Date Dim ID Calendar Year Calendar Qtr Calendar Mo Calendar Day Store Dim Store Dim ID Store Name Store Mgr Store Size Store Dim ID Store Name Store Mgr Store Size Item Dim Prod Dim ID Prod Category Prod Sub Cat Prod Desc Prod Dim ID Prod Category Prod Sub Cat Prod Desc Promo Dim Mktg Camp ID Camp Name Camp Mgr Camp Start Camp End Sales Fact Date Dim ID Store Dim ID Prod Dim ID Mktg Camp Id Qty Sold Dollars Sold Date Dim ID Store Dim ID Prod Dim ID Mktg Camp Id Qty Sold Dollars Sold スタースキーマ構成においては ファクトテーブルは分散テーブル ディメンジョンテーブルはレプリカテーブル と定義するのがベストプラクティス PDW のテーブルは全てのノードにデータが 分散される分散テーブルとレプリカテーブル の2種類存在 分散テーブル レプリカテーブル 120

121 © 2012 Microsoft Corporation. All rights reserved 可用性 ~ 冗長化されたシステム ~ 121 コンピュートノード  コンピュートノードの障害時には スペアノードが処理を引き継実行 ディスク  ミラーリング  ホットスペアを装備 ディスク障害へ対応します 2重化  ネットワーク  ファン  電源 コントロール ノード コンピュート ノード データノードスペア デュアル・インフィニバンド ノード障害発生時 にはスペアノードが 処理を継続 X

122 © 2012 Microsoft Corporation. All rights reserved PDW への接続 接続インターフェース  ODBC / OLE-DB / ADO.NET / JDBC SQL Server BI コンポーネント  Integration Services  Reporting Services  Analysis Services PowerPivot for Excel 「データ ソースへの接続」画面 122

123 © 2012 Microsoft Corporation. All rights reserved 管理ツール PDW 専用の管理ツールを提供 Web ベース 分散クエリの処理内容 CPU 使用率概略 123

124 © 2012 Microsoft Corporation. All rights reserved 拡張性と構成の選択肢 要件に合わせた DISK とデータラックの数を選択可能 選択可能な DISK 論理データ容量 1 データ ラック 2 データ ラック 3 データ ラック 4 データ ラック 300 GB 15k rpm 38 TB76 TB114 TB152 TB 300 GB 10k rpm 76 TB152 TB228 TB304 TB 1 TB 7.2k rpm 127 TB254 TB304 TB508 TB コントロール ラックデータ ラック スケールアウト (圧縮率は2.5で計算した論理容量) デュアル インフィニバンド 124

125 © 2012 Microsoft Corporation. All rights reserved パフォーマンス データ データの移行工数を差し引いても コスト、パフォーマンス共にメリットが出る データの移行工数を差し引いても コスト、パフォーマンス共にメリットが出る 125

126 © 2012 Microsoft Corporation. All rights reserved パフォーマンス データ データの移行工数を差し引いても コスト、パフォーマンス共にメリットが出る データの移行工数を差し引いても コスト、パフォーマンス共にメリットが出る 126

127 © 2012 Microsoft Corporation. All rights reserved 超大規模データ ウェアハウス用途 MPP アーキテクチャ 業界標準のハードウェアを使用した アプライアンス 圧倒的なパフォーマンス 高い拡張性 (スケールアウト) 数十 TB ~ 数百 TB 24 GB/秒 以上のパフォーマンス 超大規模データ ウェアハウス用途 MPP アーキテクチャ 業界標準のハードウェアを使用した アプライアンス 圧倒的なパフォーマンス 高い拡張性 (スケールアウト) 数十 TB ~ 数百 TB 24 GB/秒 以上のパフォーマンス 2 種の DWH アプライアンスの棲み分けと共存シナリオ 大規模データ ウェアハウス用途 汎用的なハードウェアを使用した リファレンスアーキテクチャ 圧倒的なコストパフォーマンス 最大 80 TB、12,800 MB/秒 最大容量 4 TB 未満800 4 TB800~1,600 8 TB800~1,600 16 TB1,600 20 TB2,400~4,800 32 TB6,400 40 TB6,400~9,600 80 TB12,800 共存シナリオ ハブ & スポーク構成 (次項) 棲み分け 127

128 © 2012 Microsoft Corporation. All rights reserved PDW と Fast Track の共存 (ハブ & スポーク) SQL Server 付属 ETL ツール (Integration Services) スポーク 高速なデータの配布 (パラレル データコピー) ハブ (統合 DWH の中央) ハブ (統合 DWH の中央) スポーク (グループ企業群での活用) スポーク (グループ企業群での活用) スポーク (拠点単位での活用) スポーク (拠点単位での活用) スポーク (部門単位での活用) スポーク (部門単位での活用) ハブ:データ管理の集中化などを利用可能に スポーク:ビジネスの変化に伴うシステムの 変更を局所化 ビジネスニーズに対する素早い対応 現実的な予算に合わせる 128

129 © 2012 Microsoft Corporation. All rights reserved 参考:OLTP アプライアンス 129

130 © 2012 Microsoft Corporation. All rights reserved 参考:Premium OLTP Appliance HP社 DL980 (80コア) とメモリアレイ (15TB) を採用したミッションクリティカル ハイパフォーマンスモデル ハイパフォーマンスな OLTP 処理をターゲットにしたモデルだが、OLTP / DWH / 混在システム / サーバ統合など適用範囲が広い HA も考慮した構成 SQL Server でパフォーマンスが出る設定を検証済み  データ圧縮、TempDBの設定、 Hyper-Thread、有効なパラメータ、、、 80 コア 8 CPU 80 コア 8 CPU 15TB Flash Memory Array 800,000 IOPs 15TB Flash Memory Array 800,000 IOPs SQL Server の NUMA 対応機能を利用することで 8CPU (80コア) を有効に使うことができ、 リニアにパフォーマンスが向上 4CPU vs. 8CPU パフォーマンス比較 個々のCPU の使用率は 75%でほぼ一定 (オーバヘッドなし) 個々のCPU の使用率は 75%でほぼ一定 (オーバヘッドなし) パフォーマンスは リニアに向上 パフォーマンスは リニアに向上 130

131 © 2012 Microsoft Corporation. All rights reserved 参考:Premium OLTP Appliance のエントリーモデル ・DL980 + メモリアレイ 5TB のセット ( 10TBモデルもあり ) ・全てのRDBMS ワークロード (OLTP / 1ケタTB のDWH (圧縮で8TB程度までO.K.) / 混在システム / サーバ統合) を低コストで別次元のパフォーマンスをご提供 http://h50146.www5.hp.com/products/servers/options/vma/campaign/ 131

132 © 2012 Microsoft Corporation. All rights reserved Hadoop への対応 マイクロソフトは Apache Hadoop™ をベースとした Windows Server 及び Windows Azure 向けのディストリビューションを提供することで、Hadoop の Enterprise 領域にお ける利用を推進します マイクロソフトの Big Data に対してのオファーは下記のとおり エンドユーザー、IT Pro 及び開発者に Hadoop に対しての幅広いアクセスを提供 容易な管理性、パフォーマンス及びセキュリティを備えた Enterprise 向けの Hadoop ディストリビューションの提供 PowerPivot for Excel や PowerView による使いやすさの提供 1.SQL Server 及び SQL Server Parallel Data Warehouse 用の Hadoop connector を 提供中。 Hadoop connector は無償 2.Hadoop をベースとした Windows Server 及び Windows Azure 向けのディストリ ビューションを CY2012 年中に提供 132

133 © 2012 Microsoft Corporation. All rights reserved まとめ SQL Server は、データ量の増加と処理時間の短縮 を実現するための種々機能を搭載し、 最適なデータ ウェアハウスを利用可能 マイクロソフト製品群ですべての社員が実ビジネス シーンで利活用できる環境を構築可能 133

134 © 2012 Microsoft Corporation. All rights reserved 134 本書に記載した情報は、本書各項目に関する発行日現在の Microsoft の見解を表明するものです。Microsoftは絶えず変化する市場に対 応しなければならないため、ここに記載した情報に対していかなる責務を負うものではなく、提示された情報の信憑性については保証 できません。 本書は情報提供のみを目的としています。 Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありま せん。 すべての当該著作権法を遵守することはお客様の責務です。Microsoftの書面による明確な許可なく、本書の如何なる部分についても、 転載や検索システムへの格納または挿入を行うことは、どのような形式または手段(電子的、機械的、複写、レコーディング、その 他)、および目的であっても禁じられています。これらは著作権保護された権利を制限するものではありません。 Microsoftは、本書の内容を保護する特許、特許出願書、商標、著作権、またはその他の知的財産権を保有する場合があります。 Microsoftから書面によるライセンス契約が明確に供給される場合を除いて、本書の提供はこれらの特許、商標、著作権、またはその他 の知的財産へのライセンスを与えるものではありません。 © 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, SQL Server は、Microsoft Corporation の米国およびその他の国における登録商標または商標です。 その他、記載されている会社名および製品名は、一般に各社の商標です。

135 © 2012 Microsoft Corporation. All rights reserved 135 © 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.


Download ppt "© 2012 Microsoft Corporation. All rights reserved SQL Server で実現する大規模データ ウェアハウス 日本マイクロソフト株式会社 1."

Similar presentations


Ads by Google