Presentation is loading. Please wait.

Presentation is loading. Please wait.

IPアドレスの特徴を用いた spamメール送信者判別方法

Similar presentations


Presentation on theme: "IPアドレスの特徴を用いた spamメール送信者判別方法"— Presentation transcript:

1 IPアドレスの特徴を用いた spamメール送信者判別方法
1G05R172-3 後藤研究室 B4 本嶋 悠也 2009/2/4 卒論審査

2 研究の背景 メールのヘッダや本文の内容によらない 新しい判別方法を提案する 電子メールは現在最も普及している通信手段の一つ
その中でspamメール(迷惑メール)が問題となっている。 spamメールへの対策法については現在までに多様な対策法が開発されてきたが、その度にspamメール送信者は新たな手口を開発し、spamメールの送信方法は年々巧妙化してしまって十分な対策が行えていない メールのヘッダや本文の内容によらない 新しい判別方法を提案する 2009/2/4 卒論審査

3 spamメール 受信者の意図に関わらず、自動的に送られてくる メール
受信者の意図に関わらず、自動的に送られてくる  メール 不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール 2009/2/4 卒論審査

4 spamメール 問題点 spamメールは長年問題視されながらも、未だ 根絶には至っていない
メール整理に伴う時間の浪費・受信者への精神的 負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 spamメールは長年問題視されながらも、未だ 根絶には至っていない 2009/2/4 卒論審査

5 既存手法 ブラックリスト DNSBL (DNS Blackhole List) グレイリスト ルールベースフィルタ
リストに登録されているIPアドレスからのメールの受信を拒否 DNSBL (DNS Blackhole List) spamメール送信者のIPアドレスを収集したデータベース グレイリスト メール受信の際に送信元の情報をデータベースに登録し、受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送されてきたときに受信する方法 ルールベースフィルタ メールのヘッダや本文におけるspamメールの特徴をルールとして記述しておき、そのルールに基づいて判別する方法 2009/2/4 卒論審査

6 提案手法 IP アドレスと IPアドレスから求めることのできる属性に対してナイーブベイズ分類器 (以下NBC)を 適用し、メール送信者がspammer (spamメール送信者)であるかlegit (正常なメール送信者)であるかを判定する手法を提案する 2009/2/4 卒論審査

7 NBC (Naive Bayes Classifier)
  : 属性 ( )   : 各属性が取り得る値   : クラス 2009/2/4 卒論審査

8 提案手法で用いる属性 BGP Prefix AS番号 国情報 DNS逆引き OS
IPアドレスに対応する、AS番号に関連づけられたネットワーク AS番号 そのIPアドレスが属するネットワークに割当てられている番号 国情報 そのIPアドレスを割り当てられている国 DNS逆引き DNS逆引きが可能か否か OS IPアドレスから判定された、ホストのOS 2009/2/4 卒論審査

9 提案手法の手順 メールのログを集計し、spammer, legitらしいIPアドレスを抽出してリストを作成する
判別の際には、判別対象のIPアドレスの各属性を求め、訓練データにおけるそれらの出現確率をNBCに適用する 2009/2/4 卒論審査

10 実験概要 実験1 : 提案手法のspammer判別率の評価 実験2 : 訓練データと判別データの時期の違いの 影響 実験に用いたデータ
       影響 実験に用いたデータ 協力者の方に提供して頂いた、ある企業網にて計測された4ヶ月間のSMTPログ (2008年4月~7月) このログではメールは分類済み (spam / ham / greylisted / session) 2009/2/4 卒論審査

11 実験1 概要 spammer 判別率を評価 とする
「spammer を legit と判定した数 / spammer数」を FNR (False Negative ratio) 「legit を spammer と判定した数 / legit数」を     FPR (False Positive ratio) とする 2009/2/4 卒論審査

12 実験1 結果 FNR (%) FPR (%) 0.346 0.308 0.284 0.326 2009/2/4 卒論審査

13 実験2 概要 訓練に用いるSMTP ログの時期と判別に用いるSMTP ログの時期をずらし、判別率への影響を測定
各月1ヵ月分のspammer 及び legit のリストを 訓練データとし、4ヵ月分のリストをテストデータと する 2009/2/4 卒論審査

14 実験2 結果 2009/2/4 卒論審査

15 まとめ IPアドレスから求まる属性をNBCに適用し、メール送信者がspammer であるか否かを判断する手法を提案した
2009/2/4 卒論審査

16 まとめ 実験の結果、提案手法はspammer をspammer と判別する精度が高い一方でlegit をlegit と判別する精度がやや低いこと、訓練・判別に用いるデータの時期の差によって判別の精度に違いがあることが分かった ただし、精度はNBCにおける、spammer と判別する確率の閾値を変えることである程度調整が可能で  ある 2009/2/4 卒論審査

17 今後の課題 本研究の今後の課題を以下に述べる。 上記の課題を解決することで、判別率をより向上 させることができると期待される
各属性間の相関の分析 判別に有効な新しい属性を取り入れる 訓練量による判別率への影響 False Positive のIP アドレスの分析 上記の課題を解決することで、判別率をより向上 させることができると期待される 2009/2/4 卒論審査

18 ご清聴ありがとうございました 2009/2/4 卒論審査

19 2009/2/4 卒論審査

20 AS (Autonomous System)
大規模なTCP/IPネットワークにおいて、各組織が保有・運用する自律したネットワーク インターネットはマクロに見ると、ASを相互に接続した形態となっている AS間の経路制御に使われるプロトコルがBGP   (Border Gateway Protocol) AS間の境界にあるルータは経路情報を交換する 2009/2/4 卒論審査

21 BGP Prefix BGP PrefixとAS番号の対応表は、Route Views Archive Project のものを整形して使用
2009/2/4 卒論審査

22 2009/2/4 卒論審査

23 AS番号 BGP Prefix同様、対応表はRoute Views Archive Project のものを整形して使用
AS番号はBGPで経路制御を行うASに割り当てられる 2009/2/4 卒論審査

24 国番号 MaxMind社のGeoIPというデータベースを使用。GeoIPはIPアドレスを地理情報にマッピングしたデータベース
2009/2/4 卒論審査

25 OS p0f というツールを用いた。p0f は、passive fingerprintingの実装の一つ。
passive fingerprinting はOS によってTCPパケットに記載するヘッダのデフォルト値の組み合わせが異なる性質を利用し、TCP パケットに記録されたヘッダの各属性値の組み合わせからそのパケットを送出したホストのOS を判定する技術。 p0f では、事前に集めた各OS と属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得たTCPヘッダの属性とテーブルを比較することにより、OSを判定する。 2009/2/4 卒論審査

26 交差確認法 10-fold cross validation(10分割交差確認法) データを10個のグループに分ける。
分けたうちの一つを除外した9個のグループのデータを使ってパラメータを推定。 除外するデータを毎回変えて、推定を10回繰り返す。 各推定時に評価値を算出し、10回の平均値で評価する。 2009/2/4 卒論審査

27 Laplace Correctionによる補正
2009/2/4 卒論審査

28 各属性の生起確率の例 (BGP) spammer legit BGP Prefix 生起確率 1 83.0.0.0/11
/20 2 /13 /21 3 /14 /20 4 /16 /17 5 /16 /24 6 /16 /16 7 /10 /21 8 /16 /16 9 /11 /13 10 /16 /16 2009/2/4 卒論審査

29 各属性の生起確率の例 (AS番号) spammer legit AS番号 生起確率 1 9121 0.092810483 7506
2 4837 4713 3 4134 2514 4 6147 23820 5 7470 2497 6 19262 4694 7 3269 15169 8 22927 9370 9 7738 714 10 5617 4732 2009/2/4 卒論審査

30 各属性の生起確率の例 (国情報) spammer legit 国情報 生起確率 1 CN 0.098390233 JP
2 TR US 3 GB 4 RU CA 5 ES FR 6 DE 7 BR 8 CO KR 9 AR NL 10 PE IT 2009/2/4 卒論審査

31 各属性の生起確率の例 (RDNS) spammer legit DNS逆引き 生起確率 1 0.677844311 0.952194576
2009/2/4 卒論審査

32 各属性の生起確率の例 (OS) spammer legit OS 生起確率 1 Windows 0.630855821 Linux
2 Bob FreeBSD 3 UNKNOWN 4 Paul Solaris 5 6 Oscar 7 HP-UX 8 MacOS OpenBSD 9 BSD/OS 10 NetBSD NetCache 2009/2/4 卒論審査

33 ベイズの定理 P(B)=事象Bが発生する確率 P(B|A)=事象Aが起きた後での、事象Bが発生する確率 とする。P(A)>0ならば、
が成り立つ。 2009/2/4 卒論審査

34 < 提案手法 0.189% legit !! 0.076% IP : xxx.xxx.xxx.xxx 訓練データ legit ?
spammer : legit = 9 : 1 ・BGP Prefix : /16 ・AS番号 : 17956 ・国情報 : JP ・DNS逆引き : 有り ・OS : Windows legitのリスト /16 : 30% 17956 : 20% JP : 70% 有り : 90% Windows : 50% 0.189% < legit !! legit ? spammer ? spammerのリスト /16 : 10% 17956 : 10% JP : 30% 有り : 40% Windows : 70% 0.076% legit spammer 2009/2/4 卒論審査


Download ppt "IPアドレスの特徴を用いた spamメール送信者判別方法"

Similar presentations


Ads by Google