不完全な定点観測から真の不正ホストの分布が分かるか？

Slides:

Advertisements

Similar presentations

北海道大学 Hokkaido University 1 情報理論講義資料 2016/06/22 情報エレクトロニクス学科共通科目・２年次・第 1 学期〔必修科目〕講義「情報理論」第 5 回第 3 章情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

潜在クラス分析入門山口和範. 内容条件付独立シンプソンのパラドックス対数線形モデルにおける表現局所独立潜在変数モデル Lem 入門.

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

MPIを用いたグラフの並列計算情報論理工学研究室藤本　涼一.

ファイアウォール　基礎教育（4日目）.

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

時間・空間補間した基準局網観測値によるキネマティックGPS性能の評価

CCC DATAset におけるマルウェアの変遷

秘匿積集合プロトコルの推薦システムへの応用

Pattern Recognition and Machine Learning 1.5 決定理論

ISDASインターネット分散観測：ワームの平均寿命はいくらか？

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

時空間データからのオブジェクトベース知識発見

ベイズ的ロジスティックモデルに関する研究

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

秘匿積集合プロトコルを利用したプライバシ協調フィルタリングの提案

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

ベイジアンネットワーク概説第3章　ベイジアンネットワークモデルの　　　　　数学的基礎 3.5 情報量基準を用いた構造学習岩崎唯史.

【小暮研究会２】「ベイズのアルゴリズム」：序章【１，２：計量経済分析と統計分析】【３：ベイズ定理】

脳活動に関するデータデータの種類データの特徴脳波・脳磁図・fMRI画像脳活動とパフォーマンスの関係はきわめて冗長。

ガウス過程による回帰 Gaussian Process Regression GPR

パターン認識とニューラルネットワーク栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

パケットキャプチャーから感染種類を判定する発見的手法について

分散IDSの実行環境の分離による安全性の向上

第５章：特徴の評価とベイズ誤り確率５・３：ベイズ誤り確率とは

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

確率論の基礎「ロジスティクス工学」第3章鞭効果第4章確率的在庫モデル補助資料

多重ベータ分布を用いた音色形状の数理モデリングによる

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

複数の相関のある情報源に対するベイズ符号化について

第7章　疎な解を持つカーネルマシン修士２年山川佳洋.

１.標本平均の特性値２.母分散既知の標本平均の分布 3.大数法則と中心極限定理

Internet広域分散協調サーチロボットの研究開発

予測に用いる数学 2004/05/07 ide.

2009年12月4日 ○ 前田康成（北見工業大学）吉田秀樹（北見工業大学）鈴木正清（北見工業大学）松嶋敏泰（早稲田大学）

ロボットの協調動作の研究：マップ作成とマップ情報を利用した行動計画

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

A18 スパムサーバの調査～ボットを見抜けるか？～

DNSクエリーパターンを用いたOSの推定

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

C11: 不正アクセスパケットの可視化シャボン

マルウェアの通信履歴と定点観測の相関について

早稲田大学大学院商学研究科２０１４年１２月１０日大塚忠義

ウィルスってどの位感染しているのかな？菊池研究室　　小堀智弘.

ＩＣＭＰを用いた侵入検知システムの負荷軽減

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

ボットネットはいくつあるか？ダウンロードログからの線形独立な基底数

第3章　線形回帰モデル修士1年山田　孝太郎.

秘匿リストマッチングプロトコルとその応用

クロスバリデーションを用いたベイズ基準によるHMM音声合成

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

高次元データにおける2次形式の近似について

ベイズ音声合成における事前分布とモデル構造の話者間共有

ポッツスピン型隠れ変数による画像領域分割

◎小堀智弘，菊池浩明(東海大学大学院) 寺田真敏(日立製作所)

PI補償器の出力を時変係数とする定常発振制御系の安定性解析

分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出

ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

回帰分析入門経済データ解析　2011年度.

ボットネットの国別マルウェア活動時間なぜインドからの攻撃は日本時間で行われるか？

分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出

実都市を対象とした初期マイクロデータの推定手法の適用と検証

Presentation transcript:

不完全な定点観測から真の不正ホストの分布が分かるか？ ◎小堀　智弘，菊池　浩明(東海大学) 寺田　真敏(日立製作所)

不正パケット：送信元アドレスの分布どちらの観測値が正しいのか？ 218.＊.＊.＊ 222.＊. ＊.＊

モデル基本定義条件付確率 P(A|B = b1) 定点センサ a1 a2 観測地b1での分布 P(A|B = b2) B = b1 ワーム P(A) a1 a2 B = b2 発信元 A = a1 観測地b2での分布 a1 a2 B = b3 発信元の真の分布 A = a2 A: 発信元の確率変数 B: 宛先の確率変数

定点観測の問題点ポートスキャンの局所性センサの非一様性不完全な観測データ多くのワームは感染元のサブネットを狙う．観測データはセンサのアドレスに依存センサの非一様性センサの設置アドレスの制約（未使用アドレス）．センサはアドレス空間上に偏る不完全な観測データ局所性とセンサアドレスの偏りから生じる観測データの歪み

約半分のパケットは観測地から8ビット以内のアドレスから届くスキャンの局所性[石黒2005] 約半分のパケットは観測地から8ビット以内のアドレスから届く観測アドレスと発信元アドレス間のビット差（MSBから）

本研究の目的入力：不完全な観測データ出力： S = {s1,…,sn}のn台のセンサで観測した宛先がsiの時の発信元Aの確率分布 P(A|B = si) 出力：不正パケット発信元の真の分布 P(A) 任意の宛先アドレスbにおける，発信元の観測値 P(A|B = b)

従来研究センサの平均空間補間時系列分析 ISDAS定点観測，センサの平均値センサアドレスの偏りに依存して歪む．国内のみ． [田村2005]　アドレス距離から空間近似モデル IPアドレス間の距離とパケット数は比例？時系列分析 [Zou2003]　カルマンフィルタを用いた予測モデル時間軸上の近似．

新規性提案方式のアイデア 1. ワームブラックボックス解析 2. ベイズ推定 3. 逐次的学習

1. ブラックボックス解析任意の発信元Aにおける宛先Bの分布宛先の分布 P(B|A=a1) B = b1 ワーム感染実験 b1 b2

感染実験実験PC 仮想OSを構築するソフト感染させたOS 観測期間 – 60[s] ウィルスの入手元 - Pentium4 3.0GHz - 1.0GB RAM - Windows XP SP2 仮想OSを構築するソフト - VMware 感染させたOS - Windows 2000 SP2 観測期間 – 60[s] ウィルスの入手元 - http://vx.netlux.org/ ベースのOS　　仮想OS ログをキャプチャー 10

実験結果：宛先の分布 P(B|A=b) W32.Sasser.F (発信元b=100.100.100.1)

モデル化した宛先分布宛先分布P(A|B=60) 実際の観測値に近くなるように作ったピークを0.54とした確率分布

2. ベイズの定理宛先分布P(B|A)から，センサアドレスsiにおける発信元分布P(A|B)を推定宛先分布は感染実験から既知事前確率（ワーム分布）は未知

3. 逐次的学習第0次近似第k次近似終了条件 P(A)* = P(A)k if P(A)k = P(A)k+1

数値例真の分布 P(AB) 宛先分布 P(B|A) B A 1 2 3 0.2 0.1 0.05 0.15 0.25 B A 1 2 3 B A 1 2 3 0.5 0.3 0.2 0.37 0.7 0.13 0.8 観測値 P(A|B) B A 1 2 3 0.57 0.3 0.13 0.6 0.2 0.8 ←わざと抜いて推定する

数値例 P(A)の収束真の値 0次近似 (センサ平均）

実観測値による評価 JPCERT/CC ISDAS 定点観測システム定常的に不正アクセスを観察センサ数11台観測期間2006年5月　(1ヶ月間) 学習： S = {s1,…,s10} 10台評価： s11 1台　

実験結果1: 不正者分布P(A)*

実験結果2: 未知観測値 P(A|B=s11)* 1 9

考察誤差の原因宛先分布P(B|A)が不正確：　Aに依存しない一様な分布の仮定に問題アドレスブロックの粒度：　/8のブロックの大きさ

結論不完全な観測データから真の分布を推定する方式を提案した提案方式の妥当性を，人工的な数値例と実観測データに適用して評価した．不正ホストの分布 P（A）* 任意のアドレスにおける不正パケットの観測値分布 P(A|B)* 提案方式の妥当性を，人工的な数値例と実観測データに適用して評価した．

実測値と予測値の散布図 A=61の宛先アドレスの確率

SasserFの宛先分布 Frequency IP/8

問題点ウィルスやワームの探索パケットには大きな局所性が存在する

実験結果3: 誤差宛先分布P(A|B=60) A P(B=b)1 P(B=b) 58 0.14 0.11 59 0.05 0.01 61 0.09 … 222 0.19