ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
ご提案書 『ホテル インターネットサービスソリューション』
電子透かしにおける マスキング効果の主観評価
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
シミュレーション論Ⅰ 第6回 待ち行列のシミュレーション.
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
CCC DATAset における マルウェアの変遷
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
シミュレーション論Ⅰ 第9回 様々なシミュレーション:販売と在庫管理.
ネット時代のセキュリティ2(脅威の例) 2SK 情報機器工学.
Bassモデルにおける 最尤法を用いたパラメータ推定
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
神奈川大学大学院工学研究科 電気電子情報工学専攻
第5章 情報セキュリティ(前半) [近代科学社刊]
第2章補足Ⅱ 2項分布と正規分布についての補足
センサノード 時刻同期と位置測定 浅川 和久 2008/11/16 センサノード 時刻同期と位置測定.
3章 Analysing averages and frequencies (前半 p )
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
ネットワーク性能評価.
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
相関分析.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
アーランの即時式モデル.
パケットキャプチャーから感染種類を判定する発見的手法について
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
数理統計学 西 山.
A18 スパムサーバの調査 ~ボットを見抜けるか?~
DNSクエリーパターンを用いたOSの推定
母分散の信頼区間 F分布 母分散の比の信頼区間
C11: 不正アクセスパケットの可視化 シャボン
マルウェアの通信履歴と 定点観測の相関について
不完全な定点観測から 真の不正ホストの分布が分かるか?
ICMPを用いた侵入検知システムの負荷軽減
不正アクセスパケットの地図上での可視化 菊池研究室 畠山俊樹.
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
統計学  第9回 西 山.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
待ち行列シミュレーション.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発
データ分布の特徴 基準化変量 歪度 尖度.
統計現象 高嶋 隆一 6/26/2019.
Presentation transcript:

ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘

背景 インターネットの普及により、ウィルスに感染するコンピュータは飛躍的に増えました。 (http://www.ipa.go.jp/security/txt/2006/documents/2005all-vir.pdf

定点観測 定点観測とは  定常的に不正アクセスを観察 センサとは  アドレス空間上に独立になるように分散  パケットを観測するホスト  世界中に設置

代表的な不正ホストの動き 期間1 期間2 無観測期間 Sensor ID 12/01/04 02/01/05 07/01/05 09/01/05 Time [day]

研究の目的 ウイルスなどに感染した不正ホストの活動期間を推定する

研究の問題点 期間判別の困難さ 多量な観測データ ウィルス毎の違い 1000台以上の不正ホストのデータ 2004/10/24 2005/12/3 2005/12/14 2005/1/14 2005/2/14 2004/12/30 2005/3/2 2005/4/27 2005/8/18 2005/9/24

平均寿命の推定方法 期間判別の困難さ 多量な観測データ (1) サンプリング ○(人手) ×(部分的、誤差) (2) 固定閾値 ×(ホスト毎の違い) ○(すべてのデータ) (3) 適応閾値 ○(ホスト毎の違いを解決)

基本定義 ラウンド1 ラウンド2 無観測期間t S1 S2 S3 感染期間d1(9日) 感染期間d2(7日) ラウンド数: r = 2 2月2日 2月8日 S2 1月1日 1月9日 S3 感染期間d1(9日) 感染期間d2(7日) ラウンド数: r = 2 期間における感染日数: d1 = 9、d2 = 7 センサS: 不正パケットを観測する装置

ポアソン分布の利点 利点  活動期間やパケットの量などの各ホストの特徴を見ることができる  すべてのデータを対象にデータ解析が行える

ポアソン分布 一定期間における事象の発生する確率 10月1日 3通 10月2日 5通 ・・・ 10月31日 4通 1通以上 80% 2通以上  例 1日にメールを受信する件数 10月の1日毎に届くメール数 1日にメールが届く確率 10月1日 3通 10月2日 5通 ・・・ 10月31日 4通 1通以上 80% 2通以上 50% ・・・ 10通以上 3%

(3) スキャン到着間隔の分布 187

(3) 適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A B d1 d2 d3 d1 d2 d1 d3 d4 d2 d5 (3) 適応閾値の適応結果 T*はそれぞれの不正ホストによって異なる A TA* TA* d1 d2 d3 B TB* TB* TB* d1 d2 d1 d3 d4 d2 d5 d6 d3 d7 TB* TB* TB*

(3) 適応閾値による平均感染期間

まとめ:固定閾値と適応閾値の違い ラウンドr [ラウンド/ホスト] 感染期間d [日/ラウンド] μr μd (1)サンプリング(人手) 1.49 24.6 (2)固定閾値 1.67 18.2 (3)適応閾値 1.57 32.3

結論 今後の課題 感染期間は各ホストによって異なり、固定での算出はできない。 年間平均で32日間の寿命があり、平均で1.5回の感染をしている 最適な信頼区間を求める

ご静聴ありがとうございました

kの推移とcの関係

(1) ランダムサンプリング 目的 方法 平均的な振る舞いのホストの特徴を調べる (1) ランダムサンプリング 目的 平均的な振る舞いのホストの特徴を調べる 方法 ビジット数k=6となる不正ホストの集合(K6)の中からランダムに100個の不正ホストを抽出 手動でデータを解析

(1) K6の解析結果(100個) ラウンド数r カウント数c ビジットk 期間d 1.49 8.72 4.36 24.6 0.81 [ラウンド /ホスト] カウント数c [パケット /ラウンド] ビジットk [センサ 期間d [日 平均 1.49 8.72 4.36 24.6 標準偏差 0.81 11.57 1.99 40.8

(1) k6のIPアドレスの分布

(1) K6でのポートの使用頻度 ポート1433 ポート4899 ポート137

(2)ポートによる平均観測期間の違い (K6:1,586) T*=30

(2) 固定閾値についての感染期間 (K6:1,586) T*=30 μr=1.67 μd=18.6

(2) 固定閾値による期間の 評価方法 同一の閾値Tによって、活動期間を区切る A T T T d1 t t d2 t

(2) 固定閾値の問題点 同一のTを定めることの困難さ A B d1 d2 d2 d3 d1 d2 d3 d4 d5 d6 d7 T T T (2) 固定閾値の問題点 同一のTを定めることの困難さ A T d1 d2 d2 d3 B T T T d1 d2 d3 d4 d5 d6 d7

(3) ポアソン分布とは 単位時間中に平均で λ 回発生する事象がちょうど k 回 発生する確率を表す 例 さらにホストあたりの年間平均で (3) ポアソン分布とは 単位時間中に平均で λ 回発生する事象がちょうど k 回 発生する確率を表す 例 交差点を通過する車の台数 1日のメールの受信数 N:パケット数を取る確率変数 λ:平均パケット到着率 さらにホストあたりの年間平均で c:年間総カウント数 d0:年間の最初と最後のパケットの時間 を定義する

(3)ポアソン分布 式(1)で定義したλが、1%の確率でパケットが到達しない事象が起きる確率は T*:連続してパケットが到達しない間隔

(3) 適応閾値による期間の 評価方法 単位時間(x)あたりの事象の起こる確率 x x x x x 時間軸の流れ ランダムに生起する事象

(3) 各不正ホストの振る舞いの違い 到着率λの分布

(3) 適応閾値の平均ラウンド数

(3) スキャン数cの分布 20

(3) 適応閾値で解決する問題 判別による困難さ ワームによる振る舞いの多様性 主観の不確定さ 多量な観測データ K6すべてのデータが対象