6. Workload characterization techniques

6. Workload characterization techniques
move! B4 hiko

Workloadの特徴付け実際のユーザ環境のworkloadを知る実際のユーザ環境は継続的でない

モデル化に必要なこといくつかの統計的な手法を知ってないと・・・確率論(probability theory)
統計学(statistics)など →ともかく詳しくはPartⅢを見てね

6.1 専門用語(1) User SUT（SystemUnderTest）でサービス要求する
人間である場合・ない場合両方ある ex)SUTがprocessorだった場合、userはプログラムやバッチジョブ SUT is used to denote the complete set of components that are being purchased or being designed by the organization.

6.1 専門用語(2) Workload component / Workload unit Userの代わりに用いられる
日本語に直訳すると Workload = 作業負荷・仕事量 Component = 成分・要素・部品・構成材　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・ださい →Workloadの特徴付けとは一般的なuserやWorkload componentsを特徴づけること

Workload componentsの例
Applications 多様なアプリケーションの振る舞いをモデル化する場合、それぞれのアプリケーション Ex) mail, text editor, program development Sites（場所）組織のいくつかの場所ごとのworkloadを識別する場合 User Sessions ログインからログアウトまでmonitoringされていて

専門用語(3) Workload parameters / Workload features 具体例）
ワークロードのモデル化や特徴付けに使われる計測量やサービス要求、資源需要など具体例） Transaction types Instructions packet sizes Source destinations of a packet Page reference pattern

パラメータの選択システムに依存したパラメータよりワークロードに依存したパラメータを使うパフォーマンスに大きな影響を与えるかどうか
トランザクションにとって応答時間はworkload parameterとして適切でないトランザクションが処理されるシステムにとても依存するのでパフォーマンスに大きな影響を与えるかどうか与えないなら使わないサービス要求数が資源需要の量よりもワークロードパラメータとして適切ネットワークメールセッションの特徴付けでは CPU timeやネットワークメッセージの数よりもメッセージサイズや受信者数が適切

７つのテクニック 1 平均(averaging) 2 分散(specifying dispersin)
3 Single-parameter histograms 4 Multiparameter histograms 5 主要コンポーネント分析 6 マルコフモデル 7 クラスタリング（分類）

6.2 平均複数のパラメータの値を要約して一つの数字で表したもの P73の真ん中あたりの式 x1,x2, … xnはパラメータの値
もっとも単純な方法

6.3 ばらつきの特定ばらつきを「分散」によって特定する標準偏差の比率を
データにばらつきがある場合、平均では不十分 s^2 = 1 / (n-1) Σ(Xi - ￢X)^2 Σはi=1 ~ n s = 標準偏差標準偏差の比率を Coefficient Of Variation(C.O.V)と呼ぶ

6.4 single-parameter histogram
連続した値のパラメータに関して、バケツに入る値の数をカウントしたものバケツ：全体をある一定の小さな範囲に分割したもの他のパラメータとの関係を考慮しないのは問題次のmulti-parameter histogramを使う Histogramとは柱状図

6.5 multi-parameter histograms
２つ以上のパラメータのグラフ異なるworkload parameter間に重要な相関関係がある場合図6.2を参照 Singleよりも詳しい詳しすぎる(?)ので、今ではめったに使われない

6.6 主要コンポーネントの分析重み付けされたパラメータ値の総計による分類主要ファクタ（Principal factor）を作り出す
( = Principal component ) P77の真ん中(y1, y2, … yn) ワークロードコンポーネントの分類として使われる Principal component = Principal factor

6.7 マルコフモデル前のリクエストとその次のリクエストの間に依存関係があると仮定するとき
サービスリクエストの数だけタイプがあるだけでなく、順番もあるとき Transition probability matrix P81-82参照

6.8 クラスタリング近似したコンポーネントをそれぞれ少数のクラス（タ）に分類する
計測されるworkloadは多くのコンポーネントからなる（のでやってらんね）

クラスタリングの手順サンプルを取るワークロードパラメータを選択する必要なら、パラメータを変換する外れ値を取り除く
全ての観察結果を計量する距離指標を選択するクラスタリングする結果を読み取るパラメータやクラスタの数を変えて3~7のステップを繰り返すそれぞれのクラスタから代表的なコンポーネントを選ぶ

6.8.1 サンプリング小さなサブセットを抽出する一つの手法としてランダム選択もある
一般的には、測定するコンポーネントが多すぎてクラスタリング分析できないので一つの手法としてランダム選択もある問題もあるけど

6.8.2 パラメータ選択選択には２つの基準があるパフォーマンスにおける影響パラメータの変化
システムの性能に影響を与えないパラメータは省略パラメータの変化一つずつパラメータを減らしていって変化を見る変化が少なければ不必要それぞれのコンポーネントが多くのパラメータ（資源需要）を持っているその内のいくつかは以下に属しているので重要ボトルネックとなっている資源高コストな資源重要でないパラメータは省く楽しないとね:-P 主要コンポーネント分析が強く変化するファクタ（従ってパラメータにも）の識別にも使われる

6.8.3 変換あるパラメータの分布がとても偏っている場合、パラメータを変換して置き換える変換法や適切な条件についてはSec15.4
必要なければやらない変換法や適切な条件についてはSec15.4 logarithmic transformation必要なら行う例）CPU時間の対数変換 ~~~~~~~~~~~~~~~~~

6.8.4 外れ値の除去最大値や最小値に重大な影響をもたらす上記の値は正規化に必要な値含めるか否かでクラスタリングの結果が変わる例）
次で説明含めるか否かでクラスタリングの結果が変わる例）１日数回行われるバックアッププログラムではディスクI/Oの回数が非常に多くなるので外れ値に含めた方がいい逆に１ヶ月に数回なら含めない方がいい

6.8.5 データのスケーリングパラメータ間での相対値や範囲を同じにする４つのスケーリングテクニックがある
クラスタリングの最終結果は、パラメータ間における相対値や範囲に左右される４つのスケーリングテクニックがある Normalize to Zero Mean and Unit Variance(正規化) Weights(重み付け) Range Normalization(範囲正規化) Percentile Normalization(パーセンタイル正規化）スケーリング＝一定の基準に従って拡大・縮小すること Normalize to Zero Mean and Unit Variance Percentile normalization 値の95%を0から1に正規化する(2.5%~97.5%の値の間)

6.8.6 距離指標２つのコンポーネント間の近似性を表す指標３つのテクニックユークリッド距離重み付けユークリッド距離カイ二乗距離
もっとも一般的に使われる重み付けユークリッド距離パラメータがスケールしないときパラメータの重要度が極端に違うときカイ二乗距離 Is generally used In distribution fitting? クラスタリング分析は、N次元の空間にコンポーネントをマッピングし、似たようなコンポーネントを特定すること

6.8.7 クラスタリング技術クラスタリングの基本的なねらいはコンポーネントをグループに分配すること似たコンポーネントは同じグループへ
グループ内分散(intragroup variance)の値は小さく違うコンポーネントは違うグループへグループ間分散(intergroup variance)の値は大きく →どちらか達成すればいい全分散 = グループ内分散 + グループ間分散全分散は常に一定

6.8.7 クラスタリング技術(2) クラスタリング技術は２つのクラスに分かれる非階層的階層的
自由なK個のクラスタから始めグループ内分散が最小であればクラスタのメンバを移動する階層的集積的 N個のクラスタからはじめ希望の個数になるまでマージし続ける分割的一つのクラスタからはじめ希望の個数になるまで分割し続ける

6.8.8 最小全域木法集積的で階層的なクラスタリングいわゆるデンドログラム例のあれ

手順 N個のクラスタから始める i番目のクラスタの重心を見つける(I = 1,2…k) 。重心はパラメータの値と全てのポイントの平均と等しい。クラスタ間の座標距離を計算する。(i, j)番目の要素6.8.6で記述したとおり。座標距離が、最も小さく０でない要素を見つける。全てのコンポーネントが一つのクラスタに属すまで、2から4のステップを繰り返す

Example6.3 5つのコンポーネント 2つのパラメータ図6.6はScale済み図6.7をデンドログラムと呼ぶ
Program A～E 2つのパラメータ CPU Time Disk I/O 図6.6はScale済み図6.7をデンドログラムと呼ぶ

6.8.9 クラスタの解釈全ての測定コンポーネントをクラスタに割り当てるクラスターの重要性は全体的な資源需要によって決まる
所属コンポーネントが少ないクラスタは廃止すべきクラスターの重要性は全体的な資源需要によって決まるクラスタごとのコンポーネント数は関係ない

6.8.10 クラスタリングの問題点同じデータでも矛盾した結果がでる可能性ゴールの定義に関連する
intracluster分散値を最小にする場合 Intercluster分散値を最大にする場合 ex)図6.8の場合、分散値の最小化をすると目に見えるグループと異なるクラスタリングが行われる。

クラスタリングの問題点(2) クラスタリングはプログラムのランダム選択よりはよいでも結果がとても変わりやすい
selection of parameters distance measure scaling …

6. Workload characterization techniques

Similar presentations

Presentation on theme: "6. Workload characterization techniques"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

6. Workload characterization techniques

Similar presentations

Presentation on theme: "6. Workload characterization techniques"— Presentation transcript:

Similar presentations

About project

フィードバック