クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法

Slides:



Advertisements
Similar presentations
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
Advertisements

1 EASE プロジェクトにおける EPM ( Empirical Project Monitor) を用いたプロジェクト管理デモ 奈良先端科学技術大学院大学 産学官連携研究員 松村 知子 2005 年 9 月 30 日 JISA 経営者セミナー.
OWL-Sを用いたWebアプリケーションの検査と生成
顔表情クラスタリングによる 映像コンテンツへのタギング
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
Webプロキシサーバにおける 動的資源管理方式の提案と実装
動画像品質調整機能を組み込んだ プロキシキャッシングシステムの 実装と評価
状況に応じたサービスを 提供するための人や物に 共通の情報管理
最新ファイルの提供を保証する代理FTPサーバの開発
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
クラスタ分析手法を用いた新しい 侵入検知システムの構築
クラウドにおける ネストした仮想化を用いた 安全な帯域外リモート管理
Deep learningによる 読唇システム
機能実現期間の測定による プログラマ能力の実験的評価
分散コンピューティング環境上の Webリンク収集システムの実装
神奈川大学大学院工学研究科 電気電子情報工学専攻
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
分散処理を用いた大規模ソフトウェアに対するコーディングパターン検出ツール
小標本検査データを元にした 疲労破損率のベイズ推定
プログラム実行履歴を用いたトランザクションファンクション抽出手法
プログラム実行時情報を用いたトランザクションファンクション抽出手法
Astro-E2衛星搭載 XISの データ処理方法の最適化
過負荷時の分散ソフトウェアの 性能劣化を改善する スケジューリングの提案
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
セキュリティ(6) 05A2013 大川内 斉.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
動的依存グラフの3-gramを用いた 実行トレースの比較手法
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
仮想メモリを用いた VMマイグレーションの高速化
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
通信機構合わせた最適化をおこなう並列化ンパイラ
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
Data Clustering: A Review
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
VMMのソフトウェア若化を考慮した クラスタ性能の比較
Number of random matrices
コーディングパターンの あいまい検索の提案と実装
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
秘匿リストマッチングプロトコルとその応用
C9 石橋を叩いて渡るか? ~システムに対する信頼度評価~
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
保守請負時を対象とした 労力見積のためのメトリクスの提案
ETPB: Extraction of Context from Pedestrians' Behavior
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
VMリダイレクト攻撃を防ぐための 安全なリモート管理機構
オープンソースソフトウェアに対する コーディングパターン分析の適用
メソッドの同時更新履歴を用いたクラスの機能別分類法
開発作業の形式化に基づく プロセス評価 松下誠 大阪大学.
ユビキタスコンピューティングの ための ハンドオーバー機能付きRMIの実装
ソフトウェア理解支援を目的とした 辞書の作成法
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
オブジェクト指向メトリクスを用いた 開発支援に関する研究 --- VC++とMFCを用いた開発を対象として ---
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
B2 – ruu B1 – yasukata 親 - amanoma
強制パススルー機構を用いた VMの安全な帯域外リモート管理
Presentation transcript:

クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法 大阪大学大学院情報科学研究科 コンピュータサイエンス専攻 ソフトウェア工学講座 爲岡 啓

背景 大規模システムの長期安定稼働のために,信頼度の高い障害検知が必要とされている ソフトウェアによる障害検知の問題点 システム管理者の扱う情報の増加 複雑な因果関係を持つ膨大なデータを扱うには限界がある 機械学習を用いた解析技術で処理する

クラスタリング(CL) 観測対象の過去の状態をグループ化し,クラスタとして分割する解析技術 正常時の点が集まる位置をクラスタとして認識し,現在の状態とクラスタとの距離を計算する →正常時と異常時の差を距離として検出できる 正常時クラスタ 現在の状態 メトリクスA メトリクスC メトリクスB

ベイズ学習モデル(BN) 注目事象の因果関係を,条件付き確率で表すモデル 観測対象の過去の状態を学習 →注目事象の発生確率を算出できる 事象A 事象C P(B) P(C) P(A|B, C)

障害検知の現状 適切に学習データを選定しなければならない 2つの解析技術を組み合わせて, 少量で,多種の状態を含む学習データを用いた Webシステム運用中のほとんどの時間は安定した正常状態の範囲内にとどまっている 2つの解析技術を組み合わせて, 少量で,多種の状態を含む学習データを用いた 障害検知手法を提案する

過去の研究成果 研究グループでの開発,実験 診断サイクルを自動化し,逐次診断を行う CL,BNを用いたデータ選定効果の実証実験により,有効性を確認 CLによる選定データを用いた場合と,全学習区間を用いた場合の結果が,高い相関値を示した BNの学習データとして重要な部分をCLが選定した 診断サイクルを自動化し,逐次診断を行う

研究概要 逐次障害検知システムの開発 入出力 データ選定 出力結果の評価 入出力手順を1分毎に行い,動的に学習データを更新する 入力:ウェブシステムから取得したデータセット 出力:BNによる診断確率 データ選定 入力されたデータセットの学習必要性を自動判断する 必要であればデータを蓄積し,学習に用いる 出力結果の評価 実時間に即した評価を行い,システムの実用性を確認する

システムの入出力手順 Webシステム 確率の 系列 実時間 データ データセット 分類器 CLによる 判断プログラム データセット 蓄積 BN モデル no 再学習が 必要か yes 学習器

各コンポーネントについて データセット CLによる判断プログラム 学習器,分類器 Webシステムから取得したメトリクスの時間変化の系列 10秒毎に取得できるメトリクスを1要素として,計6要素 CLによる判断プログラム 判断基準 入力データセットのCLの出力距離がある閾値を超える回数が一定数を上回るかどうか 閾値500,要素全体の50%を上回ったときと設定 学習器,分類器 研究グループで開発したツールを用いる 蓄積データを入力とした,BNモデルの出力 実時間データとBNモデルを入力とした,診断結果の出力

障害の定義 最大応答時間が3秒を超えたとき,クライアントからのリクエスト処理能力が著しく低下する BNにおける注目事象 →この区間を障害と定義 BNにおける注目事象 最大応答時間が3秒を超える確率を算出

Apache mod_proxy_balancer 実験環境 メトリクス収集対象 Load Balancer Apache mod_proxy_balancer Web Server Web : Apache Coyote AP : Tomcat System : JPetStore Client Apache JMeter Database MySQL データセット 収集 負荷 収集 実時間データ

取得するメトリクスの種類 CPU(データベースのみ2つ) 利用率(%) メモリ 利用量(byte) Disk(ロードバランサ以外) I/Oのオペレーション数(ops/sec) ネットワーク 送受信量(byte/sec) Web Access(ロードバランサのみ) リクエスト数,最大応答時間,平均応答時間

負荷のかけ方 (負荷量) 負荷注入区間(Database server) 負荷注入区間(Web server B) 負荷注入区間(Web server A) (分)

実際にかかった負荷 障害発生 全11回

提案手法を用いたBN診断結果

診断結果の評価 10回の実験に対する,全学習データを用いた場合と提案手法を用いた場合の結果の比較を行う 比較方法 比較項目 一定時間継続する障害に対して,どちらが正しく検知を行えているか 比較項目 検知された障害数に対する,障害発生回数の割合 アラート回数に対する正解数の割合

比較方法 BNの出力確率に対して閾値を設け,閾値を超えた時,その時刻から1分間をアラート区間とする 1分後に閾値を超えている場合,アラート区間を1分延長 閾値は1分毎に,それまでの確率6要素の平均に0.2を加えたものとする 障害についても,最大応答時間が3秒を上回ったとき,その時刻から1分間を障害発生区間とする 1分後に最大応答時間が3秒を上回っている場合,1分延長 アラート区間と障害発生区間に重なりが見られれば,検知成功とする

比較項目 障害発生回数 検知された障害数 アラート回数 正解数 最大応答時間が3秒を超えた回数 障害発生区間がアラート区間と重なった回数 BNによる診断確率が閾値を超えた回数 正解数 アラート区間が障害発生区間と重なった回数

比較方法の例 1回の障害発生 最大応答時間 閾値 最大応答時間 正解 アラート アラート 正解 確率閾値 出力確率 (分)

評価結果 107 60 90 0.561 0.841 64 102 57 0.891 0.882 \ 全学習データ 提案手法 障害発生回数 検知された障害数 60 90 検知障害数/発生回数 0.561 0.841 アラート回数 64 102 正解数 57 正解数/アラート回数 0.891 0.882

まとめと今後の課題 まとめ 今後の課題 提案手法を用いて,逐次的障害検知を行えることを示した 手法の評価を行い,出力結果の有効性を示した 負荷パターンや評価回数を増やして実験,評価 ユーザインタフェースの実装