IPアドレスの特徴を用いた spamメール送信者判別方法 1G05R172-3 後藤研究室 B4 本嶋 悠也 2009/2/4 卒論審査
研究の背景 メールのヘッダや本文の内容によらない 新しい判別方法を提案する 電子メールは現在最も普及している通信手段の一つ その中でspamメール(迷惑メール)が問題となっている。 spamメールへの対策法については現在までに多様な対策法が開発されてきたが、その度にspamメール送信者は新たな手口を開発し、spamメールの送信方法は年々巧妙化してしまって十分な対策が行えていない メールのヘッダや本文の内容によらない 新しい判別方法を提案する 2009/2/4 卒論審査
spamメール 受信者の意図に関わらず、自動的に送られてくる メール 受信者の意図に関わらず、自動的に送られてくる メール 不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール 2009/2/4 卒論審査
spamメール 問題点 spamメールは長年問題視されながらも、未だ 根絶には至っていない メール整理に伴う時間の浪費・受信者への精神的 負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 spamメールは長年問題視されながらも、未だ 根絶には至っていない 2009/2/4 卒論審査
既存手法 ブラックリスト DNSBL (DNS Blackhole List) グレイリスト ルールベースフィルタ リストに登録されているIPアドレスからのメールの受信を拒否 DNSBL (DNS Blackhole List) spamメール送信者のIPアドレスを収集したデータベース グレイリスト メール受信の際に送信元の情報をデータベースに登録し、受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送されてきたときに受信する方法 ルールベースフィルタ メールのヘッダや本文におけるspamメールの特徴をルールとして記述しておき、そのルールに基づいて判別する方法 2009/2/4 卒論審査
提案手法 IP アドレスと IPアドレスから求めることのできる属性に対してナイーブベイズ分類器 (以下NBC)を 適用し、メール送信者がspammer (spamメール送信者)であるかlegit (正常なメール送信者)であるかを判定する手法を提案する 2009/2/4 卒論審査
NBC (Naive Bayes Classifier) : 属性 ( ) : 各属性が取り得る値 : クラス 2009/2/4 卒論審査
提案手法で用いる属性 BGP Prefix AS番号 国情報 DNS逆引き OS IPアドレスに対応する、AS番号に関連づけられたネットワーク AS番号 そのIPアドレスが属するネットワークに割当てられている番号 国情報 そのIPアドレスを割り当てられている国 DNS逆引き DNS逆引きが可能か否か OS IPアドレスから判定された、ホストのOS 2009/2/4 卒論審査
提案手法の手順 メールのログを集計し、spammer, legitらしいIPアドレスを抽出してリストを作成する 判別の際には、判別対象のIPアドレスの各属性を求め、訓練データにおけるそれらの出現確率をNBCに適用する 2009/2/4 卒論審査
実験概要 実験1 : 提案手法のspammer判別率の評価 実験2 : 訓練データと判別データの時期の違いの 影響 実験に用いたデータ 影響 実験に用いたデータ 協力者の方に提供して頂いた、ある企業網にて計測された4ヶ月間のSMTPログ (2008年4月~7月) このログではメールは分類済み (spam / ham / greylisted / session) 2009/2/4 卒論審査
実験1 概要 spammer 判別率を評価 とする 「spammer を legit と判定した数 / spammer数」を FNR (False Negative ratio) 「legit を spammer と判定した数 / legit数」を FPR (False Positive ratio) とする 2009/2/4 卒論審査
実験1 結果 FNR (%) FPR (%) 2008-04 0.346 5.903926 2008-05 0.308 6.661009 2008-06 0.284 5.339308 2008-07 0.326 5.190984 2009/2/4 卒論審査
実験2 概要 訓練に用いるSMTP ログの時期と判別に用いるSMTP ログの時期をずらし、判別率への影響を測定 各月1ヵ月分のspammer 及び legit のリストを 訓練データとし、4ヵ月分のリストをテストデータと する 2009/2/4 卒論審査
実験2 結果 2009/2/4 卒論審査
まとめ IPアドレスから求まる属性をNBCに適用し、メール送信者がspammer であるか否かを判断する手法を提案した 2009/2/4 卒論審査
まとめ 実験の結果、提案手法はspammer をspammer と判別する精度が高い一方でlegit をlegit と判別する精度がやや低いこと、訓練・判別に用いるデータの時期の差によって判別の精度に違いがあることが分かった ただし、精度はNBCにおける、spammer と判別する確率の閾値を変えることである程度調整が可能で ある 2009/2/4 卒論審査
今後の課題 本研究の今後の課題を以下に述べる。 上記の課題を解決することで、判別率をより向上 させることができると期待される 各属性間の相関の分析 判別に有効な新しい属性を取り入れる 訓練量による判別率への影響 False Positive のIP アドレスの分析 上記の課題を解決することで、判別率をより向上 させることができると期待される 2009/2/4 卒論審査
ご清聴ありがとうございました 2009/2/4 卒論審査
2009/2/4 卒論審査
AS (Autonomous System) 大規模なTCP/IPネットワークにおいて、各組織が保有・運用する自律したネットワーク インターネットはマクロに見ると、ASを相互に接続した形態となっている AS間の経路制御に使われるプロトコルがBGP (Border Gateway Protocol) AS間の境界にあるルータは経路情報を交換する 2009/2/4 卒論審査
BGP Prefix BGP PrefixとAS番号の対応表は、Route Views Archive Project のものを整形して使用 2009/2/4 卒論審査
2009/2/4 卒論審査
AS番号 BGP Prefix同様、対応表はRoute Views Archive Project のものを整形して使用 AS番号はBGPで経路制御を行うASに割り当てられる 2009/2/4 卒論審査
国番号 MaxMind社のGeoIPというデータベースを使用。GeoIPはIPアドレスを地理情報にマッピングしたデータベース 2009/2/4 卒論審査
OS p0f というツールを用いた。p0f は、passive fingerprintingの実装の一つ。 passive fingerprinting はOS によってTCPパケットに記載するヘッダのデフォルト値の組み合わせが異なる性質を利用し、TCP パケットに記録されたヘッダの各属性値の組み合わせからそのパケットを送出したホストのOS を判定する技術。 p0f では、事前に集めた各OS と属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得たTCPヘッダの属性とテーブルを比較することにより、OSを判定する。 2009/2/4 卒論審査
交差確認法 10-fold cross validation(10分割交差確認法) データを10個のグループに分ける。 分けたうちの一つを除外した9個のグループのデータを使ってパラメータを推定。 除外するデータを毎回変えて、推定を10回繰り返す。 各推定時に評価値を算出し、10回の平均値で評価する。 2009/2/4 卒論審査
Laplace Correctionによる補正 2009/2/4 卒論審査
各属性の生起確率の例 (BGP) spammer legit BGP Prefix 生起確率 1 83.0.0.0/11 0.012366825 210.157.16.0/20 0.045848476 2 60.16.0.0/13 0.009378645 202.72.48.0/21 0.025719877 3 221.200.0.0/14 0.009291158 211.125.80.0/20 0.024042494 4 190.42.0.0/16 0.005385333 59.106.0.0/17 0.023483366 5 190.40.0.0/16 0.005150089 17.254.6.0/24 0.017892088 6 201.240.0.0/16 0.004932343 210.150.0.0/16 0.013139502 7 86.128.0.0/10 0.004638774 66.163.168.0/21 0.012300811 8 201.230.0.0/16 0.004391866 202.218.0.0/16 0.011182555 9 90.192.0.0/11 0.003830002 125.200.0.0/13 0.009225608 10 190.43.0.0/16 0.003769733 202.248.0.0/16 0.008946044 2009/2/4 卒論審査
各属性の生起確率の例 (AS番号) spammer legit AS番号 生起確率 1 9121 0.092810483 7506 0.072407045 2 4837 0.042635508 4713 0.071009226 3 4134 0.03673886 2514 0.042773274 4 6147 0.032210903 23820 0.034386357 5 7470 0.020983358 2497 0.033547666 6 19262 0.020178474 4694 0.033268102 7 3269 0.017063924 15169 8 22927 0.017011432 9370 0.032708974 9 7738 0.016595381 714 0.023483366 10 5617 0.015596081 4732 0.021805983 2009/2/4 卒論審査
各属性の生起確率の例 (国情報) spammer legit 国情報 生起確率 1 CN 0.098390233 JP 0.668157674 2 TR 0.093220701 US 0.241543193 3 0.075291625 GB 0.011462119 4 RU 0.052846256 CA 0.010902991 5 ES 0.05135897 FR 0.00866648 6 0.048143324 DE 0.007268661 7 BR 0.047472587 0.004473022 8 CO 0.045133758 KR 0.004193458 9 AR 0.035484874 NL 0.00363433 10 PE 0.032759157 IT 0.003354767 2009/2/4 卒論審査
各属性の生起確率の例 (RDNS) spammer legit DNS逆引き 生起確率 1 0.677844311 0.952194576 0.322155689 0.047805424 2009/2/4 卒論審査
各属性の生起確率の例 (OS) spammer legit OS 生起確率 1 Windows 0.630855821 Linux 0.457366508 2 Bob 0.302910413 FreeBSD 0.14984624 3 0.028491718 UNKNOWN 0.138384121 4 Paul 0.018195427 Solaris 0.109868605 5 0.012392099 0.070170534 6 0.003365347 Oscar 0.041655018 7 0.002130803 HP-UX 0.021246855 8 MacOS 0.00092931 OpenBSD 0.002516075 9 0.000367447 BSD/OS 0.001956947 10 NetBSD 0.000202193 NetCache 0.001677383 2009/2/4 卒論審査
ベイズの定理 P(B)=事象Bが発生する確率 P(B|A)=事象Aが起きた後での、事象Bが発生する確率 とする。P(A)>0ならば、 が成り立つ。 2009/2/4 卒論審査
< 提案手法 0.189% legit !! 0.076% IP : xxx.xxx.xxx.xxx 訓練データ legit ? spammer : legit = 9 : 1 ・BGP Prefix : 133.9.0.0/16 ・AS番号 : 17956 ・国情報 : JP ・DNS逆引き : 有り ・OS : Windows legitのリスト 133.9.0.0/16 : 30% 17956 : 20% JP : 70% 有り : 90% Windows : 50% 0.189% < legit !! legit ? spammer ? spammerのリスト 133.9.0.0/16 : 10% 17956 : 10% JP : 30% 有り : 40% Windows : 70% 0.076% legit spammer 2009/2/4 卒論審査