不完全な定点観測から 真の不正ホストの分布が分かるか?

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
ファイアウォール 基礎教育 (4日目).
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
時間・空間補間した 基準局網観測値による キネマティックGPS性能の評価
CCC DATAset における マルウェアの変遷
秘匿積集合プロトコルの 推薦システムへの応用
Pattern Recognition and Machine Learning 1.5 決定理論
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
ベイズ的ロジスティックモデル に関する研究
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
脳活動に関するデータ データの種類 データの特徴 脳波・脳磁図・fMRI画像 脳活動とパフォーマンスの関係はきわめて冗長。
ガウス過程による回帰 Gaussian Process Regression GPR
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
相関分析.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
パケットキャプチャーから感染種類を判定する発見的手法について
分散IDSの実行環境の分離 による安全性の向上
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
多重ベータ分布を用いた音色形状の数理モデリングによる
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
複数の相関のある情報源に対するベイズ符号化について
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
Internet広域分散協調サーチロボット の研究開発
予測に用いる数学 2004/05/07 ide.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
A18 スパムサーバの調査 ~ボットを見抜けるか?~
DNSクエリーパターンを用いたOSの推定
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
C11: 不正アクセスパケットの可視化 シャボン
マルウェアの通信履歴と 定点観測の相関について
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
ICMPを用いた侵入検知システムの負荷軽減
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
ボットネットはいくつあるか?ダウンロードログからの線形独立な基底数
第3章 線形回帰モデル 修士1年 山田 孝太郎.
秘匿リストマッチングプロトコルとその応用
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
高次元データにおける2次形式の近似について
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ポッツスピン型隠れ変数による画像領域分割
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
PI補償器の出力を時変係数とする 定常発振制御系の安定性解析
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
回帰分析入門 経済データ解析 2011年度.
ボットネットの国別マルウェア活動時間 なぜインドからの攻撃は日本時間で行われるか?
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

不完全な定点観測から 真の不正ホストの分布が分かるか? ◎小堀 智弘,菊池 浩明(東海大学) 寺田 真敏(日立製作所)

不正パケット:送信元アドレスの分布 どちらの観測値が正しいのか? 218.*.*.* 222.*. *.*

モデル 基本定義 条件付確率 P(A|B = b1) 定点センサ a1 a2 観測地b1での分布 P(A|B = b2) B = b1 ワーム P(A) a1 a2 B = b2 発信元 A = a1 観測地b2での分布 a1 a2 B = b3 発信元の真の分布 A = a2 A: 発信元の確率変数 B: 宛先の確率変数

定点観測の問題点 ポートスキャンの局所性 センサの非一様性 不完全な観測データ 多くのワームは感染元のサブネットを狙う. 観測データはセンサのアドレスに依存 センサの非一様性 センサの設置アドレスの制約(未使用アドレス). センサはアドレス空間上に偏る 不完全な観測データ 局所性とセンサアドレスの偏りから生じる 観測データの歪み

約半分のパケットは観測地から8ビット以内のアドレスから届く スキャンの局所性[石黒2005] 約半分のパケットは観測地から8ビット以内のアドレスから届く 観測アドレスと発信元アドレス間のビット差(MSBから)

本研究の目的 入力:不完全な観測データ 出力: S = {s1,…,sn}のn台のセンサで観測した 宛先がsiの時の発信元Aの確率分布 P(A|B = si) 出力: 不正パケット発信元の真の分布 P(A) 任意の宛先アドレスbにおける,発信元の観測値 P(A|B = b)

従来研究 センサの平均 空間補間 時系列分析 ISDAS定点観測,センサの平均値 センサアドレスの偏りに依存して歪む.国内のみ. [田村2005] アドレス距離から空間近似モデル IPアドレス間の距離とパケット数は比例? 時系列分析 [Zou2003] カルマンフィルタを用いた予測モデル 時間軸上の近似.

新規性 提案方式のアイデア 1. ワームブラックボックス解析 2. ベイズ推定 3. 逐次的学習

1. ブラックボックス解析 任意の発信元Aにおける宛先Bの分布 宛先の分布 P(B|A=a1) B = b1 ワーム 感染実験 b1 b2

感染実験 実験PC 仮想OSを構築するソフト 感染させたOS 観測期間 – 60[s] ウィルスの入手元 - Pentium4 3.0GHz - 1.0GB RAM - Windows XP SP2 仮想OSを構築するソフト - VMware 感染させたOS - Windows 2000 SP2 観測期間 – 60[s] ウィルスの入手元 - http://vx.netlux.org/ ベースのOS   仮想OS ログをキャプチャー 10

実験結果:宛先の分布 P(B|A=b) W32.Sasser.F (発信元b=100.100.100.1)

モデル化した宛先分布 宛先分布P(A|B=60) 実際の観測値に近くなるように作った ピークを0.54とした確率分布

2. ベイズの定理 宛先分布P(B|A)から,センサアドレスsiにおける発信元分布P(A|B)を推定 宛先分布は 感染実験から既知 事前確率(ワーム分布) は未知

3. 逐次的学習 第0次近似 第k次近似 終了条件 P(A)* = P(A)k if P(A)k = P(A)k+1

数値例 真の分布 P(AB) 宛先分布 P(B|A) B A 1 2 3 0.2 0.1 0.05 0.15 0.25 B A 1 2 3 B A 1 2 3 0.5 0.3 0.2 0.37 0.7 0.13 0.8 観測値 P(A|B) B A 1 2 3 0.57 0.3 0.13 0.6 0.2 0.8 ←わざと抜いて推定する

数値例 P(A)の収束 真の値 0次近似 (センサ平均)

実観測値による評価 JPCERT/CC ISDAS 定点観測システム 定常的に不正アクセスを観察 センサ数11台 観測期間2006年5月 (1ヶ月間) 学習: S = {s1,…,s10} 10台 評価: s11 1台 

実験結果1: 不正者分布P(A)*

実験結果2: 未知観測値 P(A|B=s11)* 1 9

考察 誤差の原因 宛先分布P(B|A)が不正確: Aに依存しない一様な分布の仮定に問題 アドレスブロックの粒度: /8のブロックの大きさ

結論 不完全な観測データから真の分布を推定する方式を提案した 提案方式の妥当性を,人工的な数値例と実観測データに適用して評価した. 不正ホストの分布 P(A)* 任意のアドレスにおける不正パケットの観測値分布 P(A|B)* 提案方式の妥当性を,人工的な数値例と実観測データに適用して評価した.

実測値と予測値の散布図 A=61の宛先アドレスの確率

SasserFの宛先分布 Frequency IP/8

問題点 ウィルスやワームの探索パケットには大きな局所性が存在する

実験結果3: 誤差 宛先分布P(A|B=60) A P(B=b)1 P(B=b) 58 0.14 0.11 59 0.05 0.01 61 0.09 … 222 0.19