ISDASインターネット分散観測: ワームの平均寿命はいくらか?

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
シミュレーション論Ⅰ 第6回 待ち行列のシミュレーション.
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
CCC DATAset における マルウェアの変遷
秘匿積集合プロトコルの 推薦システムへの応用
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
統計学 11/13(月) 担当:鈴木智也.
シミュレーション論Ⅰ 第9回 様々なシミュレーション:販売と在庫管理.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
神奈川大学大学院工学研究科 電気電子情報工学専攻
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
第2章補足Ⅱ 2項分布と正規分布についての補足
統計学 11/19(月) 担当:鈴木智也.
3章 Analysing averages and frequencies (前半 p )
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ネットワーク性能評価.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
相関分析.
アーランの即時式モデル.
パケットキャプチャーから感染種類を判定する発見的手法について
第9章 混合モデルとEM 修士2年 北川直樹.
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
A18 スパムサーバの調査 ~ボットを見抜けるか?~
部分的最小二乗回帰 Partial Least Squares Regression PLS
C11: 不正アクセスパケットの可視化 シャボン
マルウェアの通信履歴と 定点観測の相関について
不完全な定点観測から 真の不正ホストの分布が分かるか?
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
ICMPを用いた侵入検知システムの負荷軽減
不正アクセスパケットの地図上での可視化 菊池研究室 畠山俊樹.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
統計学  第9回 西 山.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
待ち行列シミュレーション.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
Presentation transcript:

ISDASインターネット分散観測: ワームの平均寿命はいくらか? ○小堀智弘(4年),福野直弥,菊池浩明(東海大学) 寺田真敏(日立製作所) ,土居範久(中央大学)

[1] 菊池ら,ネットには何台の不正ホストが存在するのか 背景 Wittyワームは75分間で12,000台に感染した Nimdaワームは6時間で150,000台に感染した 「http://www2.nsknet.or.jp/~azuma/menu.htm」 ポートスキャンは平均18分に1回行われている [1] 菊池ら,ネットには何台の不正ホストが存在するのか

ポートスキャンと感染期間 期間1 期間2 無観測期間 Sensor ID 12/01/04 02/01/05 07/01/05 09/01/05 Time [day]

研究の目的 ウイルスやワームなどに感染した不正ホストの活動期間を推定する

研究の問題点 期間判別の困難さ 多量な観測データ ワームによる振る舞いの多様性 主観のあいまいさ 2004/10/24 2004/12/3 2004/12/14 2004/1/14 2004/2/14 2004/12/30 2005/3/2 2005/4/27 2005/8/18 2005/9/24

平均寿命の推定方法 期間判別の困難さ 多量な観測データ (1) サンプリング ○(人手) ×(部分的、誤差) (2) 固定閾値 ×(ホスト毎の違い) ○(すべてのデータ) (3) 適応閾値 ○(ホスト毎の違いを解決)

基本定義 ビジットk ラウンド1 ラウンド2 無観測期間t S1 S2 S3 感染期間d1(9日) 感染期間d2(7日) カウントc 2月2日 2月8日 S2 1月1日 1月9日 S3 感染期間d1(9日) 感染期間d2(7日) カウントc ラウンド数: r = 2 総カウント数(被スキャン数): c = 7 観測したセンサ数(ビジット): k = 3 期間における感染日数: d1 = 9、d2 = 7

(1) ランダムサンプリング 目的 方法 平均的な振る舞いのホストの特徴を調べる (1) ランダムサンプリング 目的 平均的な振る舞いのホストの特徴を調べる 方法 ビジット数k=6となる不正ホストの集合(K6)の中からランダムに100個の不正ホストを抽出 手動でデータを解析

kの推移とcの関係

(1) K6の解析結果(100個) ラウンド数r カウント数c ビジットk 期間d 1.49 8.72 4.36 24.6 0.81 [ラウンド /ホスト] カウント数c [パケット /ラウンド] ビジットk [センサ 期間d [日 平均 1.49 8.72 4.36 24.6 標準偏差 0.81 11.57 1.99 40.8

(2) 固定閾値による期間の 評価方法 同一の閾値Tによって、活動期間を区切る A T T T d1 t t d2 t

(2) 固定閾値についての感染期間 (K6:1,586) T*=30 μr=1.67 μd=18.6

(2) 固定閾値の問題点 同一のTを定めることの困難さ A B d1 d2 d2 d3 d1 d2 d3 d4 d5 d6 d7 T T T (2) 固定閾値の問題点 同一のTを定めることの困難さ A T d1 d2 d2 d3 B T T T d1 d2 d3 d4 d5 d6 d7

(3)ポアソン分布とは 単位時間中に平均で λ 回発生する事象がちょうど k 回 発生する確率を表す 例 さらにホストあたりの年間平均で 交差点を通過する車の台数 1日のメールの受信数 N:パケット数を取る確率変数 λ:平均パケット到着率 さらにホストあたりの年間平均で c:年間総カウント数 d0:年間の最初と最後のパケットの時間 を定義する

(3) スキャン到着間隔の分布 32% 1% 120 187

(3) 適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A B d1 d2 d3 d1 d2 d1 d3 d4 d2 d5 (3) 適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A TA* TA* d1 d2 d3 B TB* TB* TB* d1 d2 d1 d3 d4 d2 d5 d6 d3 d7 TB* TB* TB*

(3) 適応閾値で解決する問題 判別による困難さ ワームによる振る舞いの多様性 主観の不確定さ 多量な観測データ K6すべてのデータが対象

(3) 各不正ホストの振る舞いの違い 到着率λの分布

(3) 適応閾値による平均感染期間

(3) 適応閾値の平均ラウンド数

まとめ:固定閾値と適応閾値の違い ラウンドr カウントc ビジットk 感染期間d μr μc μk μd (1)サンプリング (人手) 1.49 8.72 4.36 24.6 (2)固定閾値 1.67 9.15 3.13 18.2 (3)適応閾値 1.57 9.75 4.32 32.3 (4)最小二乗法 43

結論 今後の課題 感染期間はユニークホストによって異なり、固定での算出はできない。 年間平均で32日間の寿命があり、平均で1.5回の感染をしている 今後の課題 K6以外の場合についても、ポアソン分布による仮定を試し、活動期間の推定をする

研究の新規性 ポアソン分布が当てはまると仮定し、それぞれの不正ホストについて適応した

分散観測 JPCERT/CC ISDAS 定点観測システム 定常的に不正アクセスを観察 センサ数12台 観測期間2004/9/1-2005/9/30(13ヶ月)

(1) k6のIPアドレスの分布

(1) K6でのポートの使用頻度 ポート1433 ポート4899 ポート137

(2)ポートによる平均観測期間の違い (K6:1,586) T*=30

(3)ポアソン分布 式(1)で定義したλが、1%の確率でパケットが到達しない事象が起きる確率は T*:連続してパケットが到達しない間隔

(3) スキャン数cの分布 20

(4) ポートによる違い  135 445 all w n S00 90 361,734 60 257,235 730,781 S01 60  59,240 52,986 110,728 S09 80  1,850 30 1,569 66,239

(4) ユニークホスト数の    最小二乗近似 [1] 菊池ら,一様分布による確率モデル

(4) フィッティングによる分散 観測期間86日 観測期間63日 観測期間43日 (4) フィッティングによる分散 Estimotied value of unique host addresses 観測期間86日 観測期間63日 観測期間43日 Duration for fitting [day]