ウィルスって どの位感染しているのかな? 菊池研究室 小堀智弘
背景 インターネットの普及により、ウィルスに感染するコンピュータは飛躍的に増えました。 (http://www.ipa.go.jp/security/txt/2006/documents/2005all-vir.pdf
定点観測 定点観測とは 定常的に不正アクセスを観察 センサとは アドレス空間上に独立になるように分散 パケットを観測するホスト 世界中に設置
代表的な不正ホストの動き 期間1 期間2 無観測期間 Sensor ID 12/01/04 02/01/05 07/01/05 09/01/05 Time [day]
研究の目的 ウイルスなどに感染した不正ホストの活動期間を推定する
研究の問題点 期間判別の困難さ 多量な観測データ ウィルス毎の違い 1000台以上の不正ホストのデータ 2004/10/24 2005/12/3 2005/12/14 2005/1/14 2005/2/14 2004/12/30 2005/3/2 2005/4/27 2005/8/18 2005/9/24
平均寿命の推定方法 期間判別の困難さ 多量な観測データ (1) サンプリング ○(人手) ×(部分的、誤差) (2) 固定閾値 ×(ホスト毎の違い) ○(すべてのデータ) (3) 適応閾値 ○(ホスト毎の違いを解決)
基本定義 ラウンド1 ラウンド2 無観測期間t S1 S2 S3 感染期間d1(9日) 感染期間d2(7日) ラウンド数: r = 2 2月2日 2月8日 S2 1月1日 1月9日 S3 感染期間d1(9日) 感染期間d2(7日) ラウンド数: r = 2 期間における感染日数: d1 = 9、d2 = 7 センサS: 不正パケットを観測する装置
ポアソン分布の利点 利点 活動期間やパケットの量などの各ホストの特徴を見ることができる すべてのデータを対象にデータ解析が行える
ポアソン分布 一定期間における事象の発生する確率 10月1日 3通 10月2日 5通 ・・・ 10月31日 4通 1通以上 80% 2通以上 例 1日にメールを受信する件数 10月の1日毎に届くメール数 1日にメールが届く確率 10月1日 3通 10月2日 5通 ・・・ 10月31日 4通 1通以上 80% 2通以上 50% ・・・ 10通以上 3%
(3) スキャン到着間隔の分布 187
(3) 適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A B d1 d2 d3 d1 d2 d1 d3 d4 d2 d5 (3) 適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A TA* TA* d1 d2 d3 B TB* TB* TB* d1 d2 d1 d3 d4 d2 d5 d6 d3 d7 TB* TB* TB*
(3) 適応閾値による平均感染期間
まとめ:固定閾値と適応閾値の違い ラウンドr [ラウンド/ホスト] 感染期間d [日/ラウンド] μr μd (1)サンプリング(人手) 1.49 24.6 (2)固定閾値 1.67 18.2 (3)適応閾値 1.57 32.3
結論 今後の課題 感染期間は各ホストによって異なり、固定での算出はできない。 年間平均で32日間の寿命があり、平均で1.5回の感染をしている 最適な信頼区間を求める
ご静聴ありがとうございました
kの推移とcの関係
(1) ランダムサンプリング 目的 方法 平均的な振る舞いのホストの特徴を調べる (1) ランダムサンプリング 目的 平均的な振る舞いのホストの特徴を調べる 方法 ビジット数k=6となる不正ホストの集合(K6)の中からランダムに100個の不正ホストを抽出 手動でデータを解析
(1) K6の解析結果(100個) ラウンド数r カウント数c ビジットk 期間d 1.49 8.72 4.36 24.6 0.81 [ラウンド /ホスト] カウント数c [パケット /ラウンド] ビジットk [センサ 期間d [日 平均 1.49 8.72 4.36 24.6 標準偏差 0.81 11.57 1.99 40.8
(1) k6のIPアドレスの分布
(1) K6でのポートの使用頻度 ポート1433 ポート4899 ポート137
(2)ポートによる平均観測期間の違い (K6:1,586) T*=30
(2) 固定閾値についての感染期間 (K6:1,586) T*=30 μr=1.67 μd=18.6
(2) 固定閾値による期間の 評価方法 同一の閾値Tによって、活動期間を区切る A T T T d1 t t d2 t
(2) 固定閾値の問題点 同一のTを定めることの困難さ A B d1 d2 d2 d3 d1 d2 d3 d4 d5 d6 d7 T T T (2) 固定閾値の問題点 同一のTを定めることの困難さ A T d1 d2 d2 d3 B T T T d1 d2 d3 d4 d5 d6 d7
(3) ポアソン分布とは 単位時間中に平均で λ 回発生する事象がちょうど k 回 発生する確率を表す 例 さらにホストあたりの年間平均で (3) ポアソン分布とは 単位時間中に平均で λ 回発生する事象がちょうど k 回 発生する確率を表す 例 交差点を通過する車の台数 1日のメールの受信数 N:パケット数を取る確率変数 λ:平均パケット到着率 さらにホストあたりの年間平均で c:年間総カウント数 d0:年間の最初と最後のパケットの時間 を定義する
(3)ポアソン分布 式(1)で定義したλが、1%の確率でパケットが到達しない事象が起きる確率は T*:連続してパケットが到達しない間隔
(3) 適応閾値による期間の 評価方法 単位時間(x)あたりの事象の起こる確率 x x x x x 時間軸の流れ ランダムに生起する事象
(3) 各不正ホストの振る舞いの違い 到着率λの分布
(3) 適応閾値の平均ラウンド数
(3) スキャン数cの分布 20
(3) 適応閾値で解決する問題 判別による困難さ ワームによる振る舞いの多様性 主観の不確定さ 多量な観測データ K6すべてのデータが対象