マルウェアの通信履歴と 定点観測の相関について

Slides:



Advertisements
Similar presentations
第 7 章 ネットワークセキュリティ 大久保 恭太. 7.3 ネットワークスキャン 攻撃者はネットワークを攻撃するにあたって 、 攻撃対象のネットワークの 様々な情報を取得していく 。 ・ドメイン情報の取得 ・ホストに関する情報の取得 ・パスワードの奪取.
Advertisements

N チャンネル通信のための 経路制御 小川 真人 木下研究室. Nチャンネル通信 N本の経路を用いて、ファイルを分散させて通信を行う方式である。 分散されたファイルが、すべて違う経路を通り相手に届くことが理想である。
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
パスシーケンスに基づく Drive-by- Download 攻撃の分類 東海大学 桑原和也 菊池浩明 中央大学 安藤槙悟 趙晋輝 日立製作所 藤原将志 寺田真敏.
イーサアドレスとはなにか? 情報塾( ) IPアドレスとの関係は? ARP,DHCP?
Step.5 パケットダンプ Wiresharkでパケットをキャプチャする PC 1 PC 2 PC 3 PC 4 ネットワーク
コンピュータプラクティス I 再現性 水野嘉明
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
CCC DATAset における マルウェアの変遷
秘匿積集合プロトコルの 推薦システムへの応用
IPアドレス、IPパケットとはなにか? 情報塾( ) URLとの関係は? コンピュータ同士はどう繋がっているか?
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
アンサンブルハインドキャスト実験結果を用いたイネ葉いもち病の発生確率予報の精度検証
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
Zeusの動作解析 S08a1053 橋本 寛史.
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
ネットワーク層.
ネット時代のセキュリティ2(脅威の例) 2SK 情報機器工学.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
TCP (Transmission Control Protocol)
NEC-早大技術交流会 OpenFlowスイッチによる広域通信の効率的集約法
i-Pathルータのフロー情報を用いたDoS攻撃検知法
OSのシグネチャを用いた 悪意のある通信の検出法
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
PlanetLab における 効率的な近隣サーバ選択法
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
サーバ負荷分散におけるOpenFlowを用いた省電力法
ネットワークセキュリティ 肖 云上.
セキュリティ(5) 05A2013 大川内 斉.
第11章 UDPユーザ・データグラム・プロトコル
DNSトラフィックに着目したボット検出手法の検討
7. セキュリティネットワーク (ファイアウォール)
パケットキャプチャーから感染種類を判定する発見的手法について
i-Pathルータのフロー情報を用いたDoS攻撃検知法
セキュリティ(6) 05A2013 大川内 斉.
分散IDSの実行環境の分離 による安全性の向上
音高による音色変化に着目した音源同定に関する研究
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
セキュリティ(2) 05A2013 大川内 斉.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Internet広域分散協調サーチロボット の研究開発
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
R12 マルウェアの連携感染パターンの自動検出方式
A18 スパムサーバの調査 ~ボットを見抜けるか?~
DNSクエリーパターンを用いたOSの推定
TCP制御フラグの解析による ネットワーク負荷の推測
C11: 不正アクセスパケットの可視化 シャボン
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
Number of random matrices
不完全な定点観測から 真の不正ホストの分布が分かるか?
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
ICMPを用いた侵入検知システムの負荷軽減
不正アクセスパケットの地図上での可視化 菊池研究室 畠山俊樹.
ボットネットはいくつあるか?ダウンロードログからの線形独立な基底数
福岡工業大学 情報工学部 情報工学科 種田研究室 于 聡
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
データマイニングアルゴリズム「アプリオリ」と「ID3」の比較
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
Ibaraki Univ. Dept of Electrical & Electronic Eng.
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発
迷惑メールは発信時刻を偽るか? 菊池研究室 鈴木 孝彰 水沼 暁.
ボットネットの国別マルウェア活動時間 なぜインドからの攻撃は日本時間で行われるか?
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
確率と統計 年1月7日(木) Version 3.
TCP/IPの通信手順 (tcpdump)
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

マルウェアの通信履歴と 定点観測の相関について ○小堀 智弘、 菊池 浩明(東海大) 寺田 真敏(日立製作所)

背景 ネットワーク上に蔓延するコンピュータウィルスの80%はボットである 仮説1. ポートスキャンはすべてボットが行っている http://www.blackhat.com/presentations/bh-jp-05/bh-jp-05-koyama.pdf 仮説1. ポートスキャンはすべてボットが行っている

ボットとワームの違い ボット ワーム C&C C&Cに依存 ワームによって異なる 仮説2. スキャンパターン ≠ MW(依存しない)

スキャンパターン /16 ブロック s2 → t 全ブロック s4 → t rnd ランダム → t

研究目的 研究方法 仮説1. ポートスキャンはすべてボット 仮説2. スキャンパターン≠MW は本当だろうか? 実験的に検証する 解析 仮説1. ポートスキャンはすべてボット 仮説2. スキャンパターン≠MW は本当だろうか? 実験的に検証する 研究方法 解析 CCC攻撃元通信データ(3)と攻撃通信データ(2)の比較 攻撃通信データとISDASの比較 解析

ボットネットのしくみ LD B.O s1 DL s2 MW スキャン CCC攻撃元データ s3 CCC攻撃通信データ C&C ISDAS 観測データ 命令 解析b 解析a

実際の通信 問題1. MWの多重感染(DL) 問題2. 多重コマンドとスキャンの一意性 07:18:40 PE_BOBAX.AK 07:18:47 TROJ_PACK.DT 07:18:46 ipscan s.s.s.s dcom2 -s 07:20:00 ipscan s.s.s.s dcom2 -s 問題1. MWの多重感染(DL) 問題2. 多重コマンドとスキャンの一意性

提案方法:仮説2の検証 1 2 3 146 1. リセット リセット CCC攻撃通信データ タイムスロット 未完 n0 = 58 2. a. b. 一意のダウンロード n2 = 29 決定木学習 c. 一意のコマンド n1 = 53 未知(多重感染) m = 32(54) 自動分類

決定木 機械学習アルゴリズムC4.5 情報量利得に基づいた識別 決定木を作成 連続値に対応

スキャンパターンの特徴量  1/2 Co:累積送信パケット数 Co Uo:送信ユニークアドレス数 Uo SR:スキャンレート s4 s2

スキャンパターンの特徴量 2/2 CI:総入力パケット数[pkt] MWを決定 UI:ユニーク発信元アドレス数 IN スキャンパターンの特徴量  2/2 CI:総入力パケット数[pkt] MWを決定 UI:ユニーク発信元アドレス数 IN VPS:dSP の標準偏差 MW:マルウェア名 DL:ダウンロードの有無(0,1) CO:総出力パケット数[pkt] スキャンパターンを決定 OUT UO:ユニーク宛先 アドレス数 DP:宛先ポート(135, 445, ICMP) SR:スキャンレート[pkt/s]

提案方法:仮説1の検証 ISDASとの比較 ハニーポットのスキャンをISDASで観測しているかを調査 確認できず ポートの比率 スキャンレートの比率

実験方法 実験 スキャンパターンの識別 MWの識別 ISDASとの比較 実験 実験

実験1:C4.5による スキャンパターンの決定木 Co u (63/0) D_port(135) Uo S4 (34/0) Ci rnd (2/0) > 2,065 <= 2,065 > 1,487 <= 1,487 <= 73,762 1 > 73,762

実験1:スキャンパターンの散布図 S4 S2

実験1:スキャンパターンの 決定木の精度 ST/評価値 rnd s2 s4 u total 未分類 m 2 5 24 1 32 7 4 11 38 41 57 58 14 62 63 144 適合率 PST 0.67 0.78 1.0 0.92 0.93 再現率  0.93、平均適合率  0.94

実験1:マルウェアとスキャンタイプの相関 結論:仮説2成立 マルウェアとスキャンタイプ MW/ST s2 s3 s4 rnd total BOBAX 17 2 28 3 35 KOLABC 7 14 5 18 VANBOT 30 4 42 58 VIRUT 20 1 25 OTHER 8 32 結論:仮説2成立

実験3:定点観測との比較 宛先ポートの分布の比較 21% 20% 7% 96% 9% 96% 41% 41% CCC 1 0.968886 0.009088 0.022026 2 0.968886 0.977974 1 ISDAS 3 0.409482 0.09312 0.203393 0.294005 4 0.409482 0.502603 0.705995 1 96% 41% 41%

3つの観測データによる スキャンレート SR 結論:仮説1不成立

まとめ 仮説1 「ポートスキャンは全てボットによって行われている」は成立しない 仮説2 「ポートスキャンのタイプはマルウェアに依存しない」は成立する 決定木学習により、ペイロードを見ることなくスキャンパターンを同定することは可能である

ご清聴ありがとうございました

問題点 マルウェア同定の困難さ C&Cサーバの命令と攻撃の相関の不明確さ Ipscan s.s. dcom2 Ipscan s.s.s.s dcom2

マルウェア名 (PE,WORM,BKDR,TROJ,BOBAX,KOLABC,VIRUT,VANBOT,OTHER) 特徴量の抽出 基本定義 MWの ダウンロードの有無(有 1, 無 0) 宛先ポート (135,445,ICMP) ソースポートの増分の標準偏差 1ホスト当たりの平均通信量 I CI CO DL ST PD SR VPS UI UO HI HO MW [pkt] [pkt/s] [addr] [pkt/addr] 28.1 1 25 0000 000 3 8.3 000000000 28.9 239 11201 0010 100 130.3 33 5410 7.2 2.1 000100001 28.29 3971 518940 1010 304.4 0.04 58 99915 68.5 5.2 100010100 スキャンタイプ (s2,s3,s4,rnd) 通信先の ユニークホスト数 マルウェア名 (PE,WORM,BKDR,TROJ,BOBAX,KOLABC,VIRUT,VANBOT,OTHER) 1秒間当たりの スキャンパケット数

スキャンタイプについての統計値 各スキャンタイプの平均の特徴量 ST CI SR [pkt/s] Vps Ho [pkt/addr] S2 μ 3401.9 194.5 0.025 10.7 σ 2051.9 59.9 0.033 17.9 S3 6014.5 250.9 0.013 2.8 1011.8 112.8 0.009 0.7 S4 1850.0 167.6 0.017 3.7 1850.1 63.0 0.044 5.3 rnd 1635.6 140.0 0.125 1271.6 97.0 0.167 1.1

決定木学習 特徴量に顕在する不確定性 学習データ スキャンパターンの不確定性 マルウェア識別名の不確定性 n=146のデータから確実に判定可能なデータ n0=58(未感染) n1=53(スキャンタイプが一意) n2=29(MW,スキャンタイプが一意)

C4.5によるMWの決定木 C_in Host_out Uniq_in Host_in VIRUT (11/3) KOLABC (1/0) VANBOT (8/1) VIRUT (5/0) VIRUT (2/0) VANBOT (2/0) > 589 <= 589 <= 2 > 2 <= 21.6 <= 11 <= 30.7 > 21.6 > 11 > 30.7

C4.5によるMWの散布図 VIRUT VANBOT

MW決定木の精度 MW/評価値 u KO. VB. VR. total UNKNOWN 6 1 47 54 53 4 58 BOBAX 2 KOLABC 3 VANBOT 5 9 VIRUT 15 19 適合率 PMWE 0.91 1.0 0.75 0.2 0.69 再現率RSTE=0.79、平均適合率PSTE=0.69

マルウェアとスキャンタイプの相関 マルウェアとのスキャンタイプの比率 MW/ST s2 s3 s4 rnd total BOBAX 0.49 0.06 0.8 0.09 1 KOLABC 0.39 0.1 0.78 0.28 VANBOT 0.52 0.07 0.72 VIRUT 0.04 OTHER 0.25 0.63

累積パケット数 あ

過去半年間における VIRUTのスキャンタイプ数

ポートスキャンパケットの 平均到着間隔 PD ISDAS CCC 2008 u 50 sensor 76 slot μ(T) 157.67 140.25 σ(T) 0.0465 183.38

MWについての統計量 各MWの平均の特徴量 MW名 HI [pkt/addr] Ho [pkt/addr] PD SR [pkt/s] DPS μ σ Bobax 58.72 26.8 135,445 89.23 0.022 0.031 Kolabc 34.01 14.85 97.78 0.036 0.08 Virut 43.09 28.08 149.16 0.016 0.029 Vanbot 33.01 7.5 135 124.78 0.027 0.07

宛先IPの推移 (シーケンシャル、ST=s2、i=29.58)

宛先IPの推移 (ランダム、ST=rnd、i=28.46)

ソースポートの推移 (インクリメント)

ソースポートの推移 (デクリメント)

ソースポートの推移 (ランダム)

定点観測との比較 宛先ポートの分布の比較 PD [%] ISDAS [pkt] CCC 2008 135 41 697488 82 76 445 9 158616 14 13 ICMP 20 346447 3 OTHER 29 500791

3つの観測データによる スキャンレート SR Dataset ID SR [addr/s] CCC2008 ST = rnd ST = S2 ST = S4 28.78 148.44 167.96 ISDAS 12/29/07 06:28:34 2/21/08 02:45:09 2/25/08 13:33:54 29.09 9.13 42.09 ワーム Blaster Dasher 11.08 4968.61