6. Workload characterization techniques

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
の範囲に、 “ 真の値 ” が入っている可能性が約 60% 以上ある事を意味する。 (測定回数 n が増せばこの可能性は増 す。) 平均値 偶然誤差によ るばらつき v i は 測定値と平均値の差 で残差、 また、 σ は、標準誤差( Standard Error, SE ) もしくは、平均値の標準偏差、平均値の平均二乗.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
経済統計学 第2回 4/24 Business Statistics
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
マーケティング戦略の決定.
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
生物統計学・第3回 全体を眺める(2) 主成分分析
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
第2章補足Ⅱ 2項分布と正規分布についての補足
 Combinations(2)        古川 勇輔.
統計学 12/13(木).
EMアルゴリズム クラスタリングへの応用と最近の発展
3章 Analysing averages and frequencies (前半 p )
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計学 11/08(木) 鈴木智也.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
Fuzzy c-Means法による クラスター分析に関する研究
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
正規分布確率密度関数.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
IIR輪講復習 #17 Hierarchical clustering
第1日目第1時限の学習目標 平成22年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
中澤 港 統計学第4回 中澤 港
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
主成分分析 Principal Component Analysis PCA
計測工学 -誤差、演習問題 計測工学(第6回) 2009年5月26日 Ⅱ限目.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
Data Clustering: A Review
部分的最小二乗回帰 Partial Least Squares Regression PLS
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
確率と統計2009 第12日目(A).
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
ベイズ最適化 Bayesian Optimization BO
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Data Clustering: A Review
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
第1日目第1時限の学習目標 平成21年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

6. Workload characterization techniques move! B4 hiko

Workloadの特徴付け 実際のユーザ環境のworkloadを知る 実際のユーザ環境は継続的でない

モデル化に必要なこと いくつかの統計的な手法を知ってないと・・・ 確率論(probability theory) 統計学(statistics)など →ともかく詳しくはPartⅢを見てね

6.1 専門用語(1) User SUT(SystemUnderTest)でサービス要求する 人間である場合・ない場合両方ある ex)SUTがprocessorだった場合、userはプログラムやバッチジョブ SUT is used to denote the complete set of components that are being purchased or being designed by the organization.

6.1 専門用語(2) Workload component / Workload unit Userの代わりに用いられる 日本語に直訳すると Workload = 作業負荷・仕事量 Component = 成分・要素・部品・構成材                            ・・・ださい →Workloadの特徴付けとは一般的なuserやWorkload componentsを特徴づけること

Workload componentsの例 Applications 多様なアプリケーションの振る舞いをモデル化する場合、それぞれのアプリケーション Ex) mail, text editor, program development Sites(場所) 組織のいくつかの場所ごとのworkloadを識別する場合 User Sessions ログインからログアウトまでmonitoringされていて

専門用語(3) Workload parameters / Workload features 具体例) ワークロードのモデル化や特徴付けに使われる 計測量やサービス要求、資源需要など 具体例) Transaction types Instructions packet sizes Source destinations of a packet Page reference pattern

パラメータの選択 システムに依存したパラメータよりワークロードに依存したパラメータを使う パフォーマンスに大きな影響を与えるかどうか トランザクションにとって応答時間はworkload parameterとして適切でない トランザクションが処理されるシステムにとても依存するので パフォーマンスに大きな影響を与えるかどうか 与えないなら使わない サービス要求数が資源需要の量よりもワークロードパラメータとして適切 ネットワークメールセッションの特徴付けでは CPU timeやネットワークメッセージの数よりもメッセージサイズや受信者数が適切

7つのテクニック 1 平均(averaging) 2 分散(specifying dispersin) 3 Single-parameter histograms 4 Multiparameter histograms 5 主要コンポーネント分析 6 マルコフモデル 7 クラスタリング(分類)

6.2 平均 複数のパラメータの値を要約して一つの数字で表したもの P73の真ん中あたりの式 x1,x2, … xnはパラメータの値 もっとも単純な方法

6.3 ばらつきの特定 ばらつきを「分散」によって特定する 標準偏差の比率を データにばらつきがある場合、平均では不十分 s^2 = 1 / (n-1) Σ(Xi - ¬X)^2 Σはi=1 ~ n s = 標準偏差 標準偏差の比率を Coefficient Of Variation(C.O.V)と呼ぶ

6.4 single-parameter histogram 連続した値のパラメータに関して、バケツに入る値の数をカウントしたもの バケツ:全体をある一定の小さな範囲に分割したもの 他のパラメータとの関係を考慮しないのは問題 次のmulti-parameter histogramを使う Histogramとは柱状図

6.5 multi-parameter histograms 2つ以上のパラメータのグラフ 異なるworkload parameter間に重要な相関関係がある場合 図6.2を参照 Singleよりも詳しい 詳しすぎる(?)ので、今ではめったに使われない

6.6 主要コンポーネントの分析 重み付けされたパラメータ値の総計による分類 主要ファクタ(Principal factor)を作り出す ( = Principal component ) P77の真ん中(y1, y2, … yn) ワークロードコンポーネントの分類として使われる Principal component = Principal factor

6.7 マルコフモデル 前のリクエストとその次のリクエストの間に依存関係があると仮定するとき サービスリクエストの数だけタイプがあるだけでなく、順番もあるとき Transition probability matrix P81-82参照

6.8 クラスタリング 近似したコンポーネントをそれぞれ少数のクラス(タ)に分類する 計測されるworkloadは多くのコンポーネントからなる(のでやってらんね)

クラスタリングの手順 サンプルを取る ワークロードパラメータを選択する 必要なら、パラメータを変換する 外れ値を取り除く 全ての観察結果を計量する 距離指標を選択する クラスタリングする 結果を読み取る パラメータやクラスタの数を変えて3~7のステップを繰り返す それぞれのクラスタから代表的なコンポーネントを選ぶ

6.8.1 サンプリング 小さなサブセットを抽出する 一つの手法としてランダム選択もある 一般的には、測定するコンポーネントが多すぎてクラスタリング分析できないので 一つの手法としてランダム選択もある 問題もあるけど

6.8.2 パラメータ選択 選択には2つの基準がある パフォーマンスにおける影響 パラメータの変化 システムの性能に影響を与えないパラメータは省略 パラメータの変化 一つずつパラメータを減らしていって変化を見る 変化が少なければ不必要 それぞれのコンポーネントが多くのパラメータ(資源需要)を持っている その内のいくつかは以下に属しているので重要 ボトルネックとなっている資源 高コストな資源 重要でないパラメータは省く 楽しないとね:-P 主要コンポーネント分析が強く変化するファクタ(従ってパラメータにも)の識別にも使われる

6.8.3 変換 あるパラメータの分布がとても偏っている場合、パラメータを変換して置き換える 変換法や適切な条件についてはSec15.4 必要なければやらない 変換法や適切な条件についてはSec15.4 logarithmic transformation必要なら行う 例)CPU時間の対数変換 ~~~~~~~~~~~~~~~~~

6.8.4 外れ値の除去 最大値や最小値に重大な影響をもたらす 上記の値は正規化に必要な値 含めるか否かでクラスタリングの結果が変わる 例) 次で説明 含めるか否かでクラスタリングの結果が変わる 例) 1日数回行われるバックアッププログラムではディスクI/Oの回数が非常に多くなるので外れ値に含めた方がいい 逆に1ヶ月に数回なら含めない方がいい

6.8.5 データのスケーリング パラメータ間での相対値や範囲を同じにする 4つのスケーリングテクニックがある クラスタリングの最終結果は、パラメータ間における相対値や範囲に左右される 4つのスケーリングテクニックがある Normalize to Zero Mean and Unit Variance(正規化) Weights(重み付け) Range Normalization(範囲正規化) Percentile Normalization(パーセンタイル正規化) スケーリング=一定の基準に従って拡大・縮小すること Normalize to Zero Mean and Unit Variance Percentile normalization 値の95%を0から1に正規化する(2.5%~97.5%の値の間)

6.8.6 距離指標 2つのコンポーネント間の近似性を表す指標 3つのテクニック ユークリッド距離 重み付けユークリッド距離 カイ二乗距離 もっとも一般的に使われる 重み付けユークリッド距離 パラメータがスケールしないとき パラメータの重要度が極端に違うとき カイ二乗距離 Is generally used In distribution fitting? クラスタリング分析は、N次元の空間にコンポーネントをマッピングし、似たようなコンポーネントを特定すること

6.8.7 クラスタリング技術 クラスタリングの基本的なねらいはコンポーネントをグループに分配すること 似たコンポーネントは同じグループへ グループ内分散(intragroup variance)の値は小さく 違うコンポーネントは違うグループへ グループ間分散(intergroup variance)の値は大きく →どちらか達成すればいい 全分散 = グループ内分散 + グループ間分散 全分散は常に一定

6.8.7 クラスタリング技術(2) クラスタリング技術は2つのクラスに分かれる 非階層的 階層的 自由なK個のクラスタから始めグループ内分散が最小であればクラスタのメンバを移動する 階層的 集積的 N個のクラスタからはじめ希望の個数になるまでマージし続ける 分割的 一つのクラスタからはじめ希望の個数になるまで分割し続ける

6.8.8 最小全域木法 集積的で階層的なクラスタリング いわゆるデンドログラム 例のあれ

手順 N個のクラスタから始める i番目のクラスタの重心を見つける(I = 1,2…k) 。重心はパラメータの値と全てのポイントの平均と等しい。 クラスタ間の座標距離を計算する。(i, j)番目の要素6.8.6で記述したとおり。 座標距離が、最も小さく0でない要素を見つける。 全てのコンポーネントが一つのクラスタに属すまで、2から4のステップを繰り返す

Example6.3 5つのコンポーネント 2つのパラメータ 図6.6はScale済み 図6.7をデンドログラムと呼ぶ Program A~E 2つのパラメータ CPU Time Disk I/O 図6.6はScale済み 図6.7をデンドログラムと呼ぶ

6.8.9 クラスタの解釈 全ての測定コンポーネントをクラスタに割り当てる クラスターの重要性は全体的な資源需要によって決まる 所属コンポーネントが少ないクラスタは廃止すべき クラスターの重要性は全体的な資源需要によって決まる クラスタごとのコンポーネント数は関係ない

6.8.10 クラスタリングの問題点 同じデータでも矛盾した結果がでる可能性 ゴールの定義に関連する intracluster分散値を最小にする場合 Intercluster分散値を最大にする場合 ex)図6.8の場合、分散値の最小化をすると目に見えるグループと異なるクラスタリングが行われる。

クラスタリングの問題点(2) クラスタリングはプログラムのランダム選択よりはよい でも結果がとても変わりやすい selection of parameters distance measure scaling …