ISDASインターネット分散観測：ワームの平均寿命はいくらか？

Slides:

Advertisements

Similar presentations

5 章標本と統計量の分布湯浅直弘. 5-1 母集団と標本 ■ 母集合今までは確率的なことこれからは，確率や割合がわかっていないときに，推定することが目標．個体：実験や観測を行う 1 つの対象母集団：個体全部の集合  ・有限な場合：有限母集合 → １つの箱に入っているねじ．  ・無限な場合：無限母集合.

Advertisements

生物統計学・第 5 回比べる準備をする標準偏差、標準誤差、標準化 2013 年 11 月 7 日生命環境科学域応用生命科学類尾形善之.

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布釣り鐘形の曲線－∽から＋ ∽までの値を取る平均 mean ＝中央値 median ＝最頻値 mode 曲線より下の面積は１に等しい.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

統計学西山. 標本分布と推定標準誤差【例題】 ○○ 率の推定ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体では、何％程度の人がこのドラマを見ただろうか。信頼係数は９５％で答えてください。

統計学西山. 平均と分散の標本分布指定した値は μ ＝ 170 、 σ 2 ＝ 10 2 、データ数は 5 個で反復不偏性母分散に対してバイアスを含む正規分布カイ二乗分布.

統計学第３回西山. 第２回のまとめ確率分布＝決まっている分布の形期待値とは平均計算平均＝合計 ÷ 個数から卒業！平均＝割合 × 値の合計同じ平均値でも同じ分散や標準偏差でも.

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

看護学部中澤港統計学第５回看護学部　中澤　港

疫学概論ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

静止背景における動物体の検出と追跡陳　謙 2004年10月19日.

シミュレーション論Ⅰ 第6回待ち行列のシミュレーション.

統計解析第7回第6章離散確率分布.

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

CCC DATAset におけるマルウェアの変遷

秘匿積集合プロトコルの推薦システムへの応用

得点と打率・長打率・出塁率らの関係政治経済学部経済学科 ●年●組 ●●　●●.

統計学 11/13（月）担当：鈴木智也.

シミュレーション論Ⅰ 第９回様々なシミュレーション：販売と在庫管理.

第４回 (10/16) 授業の学習目標先輩の卒論の調査に協力する。２つの定量的変数間の関係を調べる最も簡単な方法は？

統計解析第9回第9章正規分布、第11章理論分布.

Bassモデルにおける最尤法を用いたパラメータ推定

統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える

疫学概論母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.

Effect　sizeの計算方法標準偏差が正確に求められるほど症例数が十分ないときは､測定しえた症例の中で､最大値と最小値の値の差を4で割り算した値を代用することが出来る｡この場合には正規分布に従うことを仮定することになる｡

神奈川大学大学院工学研究科電気電子情報工学専攻

放射線の計算や測定における統計誤差「平均の誤差」とその応用（1H) 2項分布、ポアソン分布、ガウス分布（1H）最小二乗法（1H）

第2章補足Ⅱ 2項分布と正規分布についての補足

統計学 11/19（月）担当：鈴木智也.

３章 Analysing averages and frequencies （前半 p ）

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

統計解析第10回１２章標本抽出、１３章標本分布.

統計学 11/08（木）鈴木智也.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

ネットワーク性能評価.

【小暮研究会２】「ベイズのアルゴリズム」：序章【１，２：計量経済分析と統計分析】【３：ベイズ定理】

アーランの即時式モデル.

パケットキャプチャーから感染種類を判定する発見的手法について

第9章　混合モデルとEM 修士２年北川直樹.

第８回授業（5/29日）の学習目標検定と推定は、１つの関係式の見方の違いであることを学ぶ。第３章のWEB宿題の説明

確率論の基礎「ロジスティクス工学」第3章鞭効果第4章確率的在庫モデル補助資料

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

A18 スパムサーバの調査～ボットを見抜けるか？～

部分的最小二乗回帰 Partial Least Squares Regression PLS

C11: 不正アクセスパケットの可視化シャボン

マルウェアの通信履歴と定点観測の相関について

不完全な定点観測から真の不正ホストの分布が分かるか？

ウィルスってどの位感染しているのかな？菊池研究室　　小堀智弘.

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

ＩＣＭＰを用いた侵入検知システムの負荷軽減

不正アクセスパケットの地図上での可視化菊池研究室畠山俊樹.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

第3章　線形回帰モデル修士1年山田　孝太郎.

母集団と標本抽出の関係母集団標本母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p ：

統計学　　第９回西　山.

疫学概論ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

待ち行列シミュレーション.

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

確率と統計2007（最終回）平成20年1月17日(木) 東京工科大学亀田弘之.

◎小堀智弘，菊池浩明(東海大学大学院) 寺田真敏(日立製作所)

分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出

ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発

分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出

Presentation transcript:

ISDASインターネット分散観測：ワームの平均寿命はいくらか？ ○小堀智弘（4年），福野直弥，菊池浩明(東海大学) 寺田真敏(日立製作所) ，土居範久(中央大学)

[1] 菊池ら，ネットには何台の不正ホストが存在するのか背景 Wittyワームは75分間で12,000台に感染した Nimdaワームは6時間で150,000台に感染した「http://www2.nsknet.or.jp/~azuma/menu.htm」ポートスキャンは平均18分に1回行われている [1] 菊池ら，ネットには何台の不正ホストが存在するのか

ポートスキャンと感染期間期間１期間2 無観測期間 Sensor ID 12/01/04 02/01/05 07/01/05 09/01/05 Time [day]

研究の目的ウイルスやワームなどに感染した不正ホストの活動期間を推定する

研究の問題点期間判別の困難さ多量な観測データワームによる振る舞いの多様性主観のあいまいさ 2004/10/24 2004/12/3 2004/12/14 2004/1/14 2004/2/14 2004/12/30 2005/3/2 2005/4/27 2005/8/18 2005/9/24

平均寿命の推定方法期間判別の困難さ多量な観測データ（１）サンプリング ○（人手） ×（部分的、誤差）（２）固定閾値 ×（ホスト毎の違い） ○（すべてのデータ）（３）適応閾値 ○（ホスト毎の違いを解決）

基本定義ビジットk ラウンド1 ラウンド2 無観測期間t S1 S2 S3 感染期間d1（9日）感染期間d2（7日）カウントc 2月2日 2月8日 S2 1月1日 1月9日 S3 感染期間d1（9日）感染期間d2（7日）カウントc ラウンド数:　r　=　2 総カウント数（被スキャン数）：　c　=　7 観測したセンサ数（ビジット）:　k　=　3 期間における感染日数:　d1　=　9、d2　=　7

（１）ランダムサンプリング目的方法平均的な振る舞いのホストの特徴を調べる（１）　ランダムサンプリング目的平均的な振る舞いのホストの特徴を調べる方法ビジット数k=6となる不正ホストの集合（K6）の中からランダムに100個の不正ホストを抽出手動でデータを解析

kの推移とcの関係

（１） K6の解析結果（100個）ラウンド数r カウント数c ビジットk 期間d 1.49 8.72 4.36 24.6 0.81 [ラウンド /ホスト] カウント数c [パケット /ラウンド] ビジットk [センサ期間d [日平均 1.49 8.72 4.36 24.6 標準偏差 0.81 11.57 1.99 40.8

（２）　固定閾値による期間の評価方法同一の閾値Tによって、活動期間を区切る A T T T d1 t t d2 t

（２）　固定閾値についての感染期間（K6:1,586） T*=30 μr=1.67 μd=18.6

（２）固定閾値の問題点同一のTを定めることの困難さ A B d1 d2 d2 d3 d1 d2 d3 d4 d5 d6 d7 T T T （２）　固定閾値の問題点同一のTを定めることの困難さ A T d1 d2 d2 d3 B T T T d1 d2 d3 d4 d5 d6 d7

（３）ポアソン分布とは単位時間中に平均で λ 回発生する事象がちょうど k 回発生する確率を表す例さらにホストあたりの年間平均で交差点を通過する車の台数 1日のメールの受信数 N：パケット数を取る確率変数 λ：平均パケット到着率さらにホストあたりの年間平均で c：年間総カウント数 d0：年間の最初と最後のパケットの時間を定義する

（３）　スキャン到着間隔の分布 32% 1% 120 187

（３）適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A B d1 d2 d3 d1 d2 d1 d3 d4 d2 d5 （３）　適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A TA* TA* d1 d2 d3 B TB* TB* TB* d1 d2 d1 d3 d4 d2 d5 d6 d3 d7 TB* TB* TB*

（３）　適応閾値で解決する問題判別による困難さワームによる振る舞いの多様性主観の不確定さ多量な観測データ K6すべてのデータが対象

（３）　各不正ホストの振る舞いの違い到着率λの分布

（３）　適応閾値による平均感染期間

（３）　適応閾値の平均ラウンド数

まとめ：固定閾値と適応閾値の違いラウンドr カウントc ビジットk 感染期間d μr μc μk μd （１）サンプリング（人手） 1.49 8.72 4.36 24.6 （２）固定閾値 1.67 9.15 3.13 18.2 （3）適応閾値 1.57 9.75 4.32 32.3 （4）最小二乗法 43

結論今後の課題感染期間はユニークホストによって異なり、固定での算出はできない。年間平均で32日間の寿命があり、平均で1.5回の感染をしている今後の課題 K6以外の場合についても、ポアソン分布による仮定を試し、活動期間の推定をする

研究の新規性ポアソン分布が当てはまると仮定し、それぞれの不正ホストについて適応した

分散観測 JPCERT/CC ISDAS 定点観測システム定常的に不正アクセスを観察センサ数12台観測期間2004/9/1-2005/9/30(13ヶ月)

（1）　k6のIPアドレスの分布

（１）　K6でのポートの使用頻度ポート1433 ポート4899 ポート137

（２）ポートによる平均観測期間の違い（K6:1,586） T*=30

（３）ポアソン分布式（１）で定義したλが、1％の確率でパケットが到達しない事象が起きる確率は T*：連続してパケットが到達しない間隔

（３）　スキャン数cの分布 20

（４）　ポートによる違い　135 445 all w n S00 90 361,734 60 257,235 730,781 S01 60　 59,240 52,986 110,728 S09 80　 1,850 30 1,569 66,239

（４）　ユニークホスト数の　　　最小二乗近似 [1] 菊池ら，一様分布による確率モデル

（４）フィッティングによる分散観測期間86日観測期間63日観測期間43日（４）　フィッティングによる分散 Estimotied value of unique host addresses 観測期間86日観測期間63日観測期間43日 Duration for fitting [day]