IPアドレスの特徴を用いた spamメール送信者判別方法

Slides:



Advertisements
Similar presentations
第1章 ネットワークとコミュニケーション 第2節 ネットワークのしくみ 2 ネットワークを支える技術 (教科書 p36 ~ p37) 今日の用語  モデム (modulator/demodulator:modem)  IP アドレス (internet protocol address)  ドメインネーム.
Advertisements

N チャンネル通信のための 経路制御 小川 真人 木下研究室. Nチャンネル通信 N本の経路を用いて、ファイルを分散させて通信を行う方式である。 分散されたファイルが、すべて違う経路を通り相手に届くことが理想である。
LANどうしを、通信規約として TCP/IP プロトコルで ルータ を経由してつなぎ合わせ、 世界規模で情報のやりとりを可能にしたもの アプリケーション 層 プレゼンテーショ ン層 セッション層 トランスポート層 ネットワーク層 データリンク層 物理層 アプリケーション 層 プレゼンテーショ ン層 セッション層.
早稲田大学 基幹理工学研究科 5109B084-7 後藤研究室 修士2年 本嶋 悠也
安全なログオン手順 2004/08/26 Port139 伊原 秀明.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
第1回.
CCC DATAset における マルウェアの変遷
仮想ブロードキャストリンクを利用した 片方向通信路の透過的経路制御 藤枝 俊輔(慶應義塾大学)
IPv6 エニーキャスト ルーティングプロトコル PIA-SM の設計および実装
ネットワーク層.
TCP (Transmission Control Protocol)
早稲田大学大学院 理工学研究科情報科学専攻 後藤滋樹研究室 1年 渡辺裕太
ブラウザに表示されるURL と パケットのIP アドレスを比較するツール
コンピュータとネットワークのしくみ 情報通信ネットワークのしくみ.
センサノード 時刻同期と位置測定 浅川 和久 2008/11/16 センサノード 時刻同期と位置測定.
インターネット メールサーバ DNSサーバ WWWサーバ ファイアウォール/プロキシサーバ クライアント.
i-Pathルータのフロー情報を用いたDoS攻撃検知法
輪講: 詳解TCP/IP ACE B3 suzuk.
IPマルチキャスト通信とXcast 早稲田大学後藤研究室 Xcast班.
Qmailとspamとの闘い 木村 博美 筑波大学 加速器センター
PlanetLab における 効率的な近隣サーバ選択法
ま と め と 補 足 ネットワークシステムⅠ 第15回.
アクセスログ解析 専修大学 ネットワーク情報学部.
B4向け研究紹介 MTAにおけるspamメール判別方法
第2章 第1節 情報通信の仕組み 1 ネットワークの仕組み 2 通信プロトコル 3 認証と情報の保護
IPv6アドレスによる RFIDシステム利用方式
大規模アドホックネットワークにおける 階層的な名前解決法
通信トラヒックの相関構造を利用した通信品質の劣化検出
サーバ負荷分散におけるOpenFlowを用いた省電力法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
Linux リテラシ 2006 第4回 ネットワーク CIS RAT.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
第2章 ネットサービスとその仕組み(後編) [近代科学社刊]
IPv6 ネットワークにおける エニーキャスト通信実現のための プロトコル設計と実装
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
DNSトラフィックに着目したボット検出手法の検討
i-Pathルータのフロー情報を用いたDoS攻撃検知法
第9章 Error and Control Messages (ICMP)
セキュリティ(6) 05A2013 大川内 斉.
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
IPアドレスについて      発表者  M3KI.
実行時情報に基づく OSカーネルのコンフィグ最小化
TCP/IP入門          櫻井美帆          蟻川朋未          服部力三.
マルチホーミングを利用した Proxy Mobile IPv6の ハンドオーバー
RTCPパケットの測定による マルチキャスト通信の品質評価
各種ルータに対応する P2P通信環境に関する研究
Internet広域分散協調サーチロボット の研究開発
ネットワークプログラミング (3回目) 05A1302 円田 優輝.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
DNSクエリーパターンを用いたOSの推定
TCP制御フラグの解析による ネットワーク負荷の推測
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
最低限インターネット ネットワークにつなぎましょ!
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
IDSとFirewallの連携によるネットワーク構築
福岡工業大学 情報工学部 情報工学科 種田研究室 于 聡
トラフィックプロファイラAGURIの設計と実装
OSI7層に関係する機器、仕様、機能など 物理層 データリンク層 ネットワーク層 トランスポート層 セッション層 プレゼンテーション層
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
GbEにおける TCP/IP の研究について
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発
4.3 IPとルーティングテーブル 国際産業情報学科 2年 大竹 雅子.
岡村耕二 情報ネットワーク 岡村耕二 情報ネットワーク.
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
7月13日の演習問題・解答例 について ネットワーク長が 18、22、26、28 の場合の
情報ネットワーク 岡村耕二.
ソケットの拡張によるJava用分散ミドルウエアの高信頼化
Presentation transcript:

IPアドレスの特徴を用いた spamメール送信者判別方法 1G05R172-3 後藤研究室 B4 本嶋 悠也 2009/2/4 卒論審査

研究の背景 メールのヘッダや本文の内容によらない 新しい判別方法を提案する 電子メールは現在最も普及している通信手段の一つ その中でspamメール(迷惑メール)が問題となっている。 spamメールへの対策法については現在までに多様な対策法が開発されてきたが、その度にspamメール送信者は新たな手口を開発し、spamメールの送信方法は年々巧妙化してしまって十分な対策が行えていない メールのヘッダや本文の内容によらない 新しい判別方法を提案する 2009/2/4 卒論審査

spamメール 受信者の意図に関わらず、自動的に送られてくる メール 受信者の意図に関わらず、自動的に送られてくる  メール 不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール 2009/2/4 卒論審査

spamメール 問題点 spamメールは長年問題視されながらも、未だ 根絶には至っていない メール整理に伴う時間の浪費・受信者への精神的 負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 spamメールは長年問題視されながらも、未だ 根絶には至っていない 2009/2/4 卒論審査

既存手法 ブラックリスト DNSBL (DNS Blackhole List) グレイリスト ルールベースフィルタ リストに登録されているIPアドレスからのメールの受信を拒否 DNSBL (DNS Blackhole List) spamメール送信者のIPアドレスを収集したデータベース グレイリスト メール受信の際に送信元の情報をデータベースに登録し、受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送されてきたときに受信する方法 ルールベースフィルタ メールのヘッダや本文におけるspamメールの特徴をルールとして記述しておき、そのルールに基づいて判別する方法 2009/2/4 卒論審査

提案手法 IP アドレスと IPアドレスから求めることのできる属性に対してナイーブベイズ分類器 (以下NBC)を 適用し、メール送信者がspammer (spamメール送信者)であるかlegit (正常なメール送信者)であるかを判定する手法を提案する 2009/2/4 卒論審査

NBC (Naive Bayes Classifier)   : 属性 ( )   : 各属性が取り得る値   : クラス 2009/2/4 卒論審査

提案手法で用いる属性 BGP Prefix AS番号 国情報 DNS逆引き OS IPアドレスに対応する、AS番号に関連づけられたネットワーク AS番号 そのIPアドレスが属するネットワークに割当てられている番号 国情報 そのIPアドレスを割り当てられている国 DNS逆引き DNS逆引きが可能か否か OS IPアドレスから判定された、ホストのOS 2009/2/4 卒論審査

提案手法の手順 メールのログを集計し、spammer, legitらしいIPアドレスを抽出してリストを作成する 判別の際には、判別対象のIPアドレスの各属性を求め、訓練データにおけるそれらの出現確率をNBCに適用する 2009/2/4 卒論審査

実験概要 実験1 : 提案手法のspammer判別率の評価 実験2 : 訓練データと判別データの時期の違いの 影響 実験に用いたデータ        影響 実験に用いたデータ 協力者の方に提供して頂いた、ある企業網にて計測された4ヶ月間のSMTPログ (2008年4月~7月) このログではメールは分類済み (spam / ham / greylisted / session) 2009/2/4 卒論審査

実験1 概要 spammer 判別率を評価 とする 「spammer を legit と判定した数 / spammer数」を FNR (False Negative ratio) 「legit を spammer と判定した数 / legit数」を     FPR (False Positive ratio) とする 2009/2/4 卒論審査

実験1 結果 FNR (%) FPR (%) 2008-04 0.346 5.903926 2008-05 0.308 6.661009 2008-06 0.284 5.339308 2008-07 0.326 5.190984 2009/2/4 卒論審査

実験2 概要 訓練に用いるSMTP ログの時期と判別に用いるSMTP ログの時期をずらし、判別率への影響を測定 各月1ヵ月分のspammer 及び legit のリストを 訓練データとし、4ヵ月分のリストをテストデータと する 2009/2/4 卒論審査

実験2 結果 2009/2/4 卒論審査

まとめ IPアドレスから求まる属性をNBCに適用し、メール送信者がspammer であるか否かを判断する手法を提案した 2009/2/4 卒論審査

まとめ 実験の結果、提案手法はspammer をspammer と判別する精度が高い一方でlegit をlegit と判別する精度がやや低いこと、訓練・判別に用いるデータの時期の差によって判別の精度に違いがあることが分かった ただし、精度はNBCにおける、spammer と判別する確率の閾値を変えることである程度調整が可能で  ある 2009/2/4 卒論審査

今後の課題 本研究の今後の課題を以下に述べる。 上記の課題を解決することで、判別率をより向上 させることができると期待される 各属性間の相関の分析 判別に有効な新しい属性を取り入れる 訓練量による判別率への影響 False Positive のIP アドレスの分析 上記の課題を解決することで、判別率をより向上 させることができると期待される 2009/2/4 卒論審査

ご清聴ありがとうございました 2009/2/4 卒論審査

2009/2/4 卒論審査

AS (Autonomous System) 大規模なTCP/IPネットワークにおいて、各組織が保有・運用する自律したネットワーク インターネットはマクロに見ると、ASを相互に接続した形態となっている AS間の経路制御に使われるプロトコルがBGP   (Border Gateway Protocol) AS間の境界にあるルータは経路情報を交換する 2009/2/4 卒論審査

BGP Prefix BGP PrefixとAS番号の対応表は、Route Views Archive Project のものを整形して使用 2009/2/4 卒論審査

2009/2/4 卒論審査

AS番号 BGP Prefix同様、対応表はRoute Views Archive Project のものを整形して使用 AS番号はBGPで経路制御を行うASに割り当てられる 2009/2/4 卒論審査

国番号 MaxMind社のGeoIPというデータベースを使用。GeoIPはIPアドレスを地理情報にマッピングしたデータベース 2009/2/4 卒論審査

OS p0f というツールを用いた。p0f は、passive fingerprintingの実装の一つ。 passive fingerprinting はOS によってTCPパケットに記載するヘッダのデフォルト値の組み合わせが異なる性質を利用し、TCP パケットに記録されたヘッダの各属性値の組み合わせからそのパケットを送出したホストのOS を判定する技術。 p0f では、事前に集めた各OS と属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得たTCPヘッダの属性とテーブルを比較することにより、OSを判定する。 2009/2/4 卒論審査

交差確認法 10-fold cross validation(10分割交差確認法) データを10個のグループに分ける。 分けたうちの一つを除外した9個のグループのデータを使ってパラメータを推定。 除外するデータを毎回変えて、推定を10回繰り返す。 各推定時に評価値を算出し、10回の平均値で評価する。 2009/2/4 卒論審査

Laplace Correctionによる補正 2009/2/4 卒論審査

各属性の生起確率の例 (BGP) spammer legit BGP Prefix 生起確率 1 83.0.0.0/11 0.012366825 210.157.16.0/20 0.045848476 2 60.16.0.0/13 0.009378645 202.72.48.0/21 0.025719877 3 221.200.0.0/14 0.009291158 211.125.80.0/20 0.024042494 4 190.42.0.0/16 0.005385333 59.106.0.0/17 0.023483366 5 190.40.0.0/16 0.005150089 17.254.6.0/24 0.017892088 6 201.240.0.0/16 0.004932343 210.150.0.0/16 0.013139502 7 86.128.0.0/10 0.004638774 66.163.168.0/21 0.012300811 8 201.230.0.0/16 0.004391866 202.218.0.0/16 0.011182555 9 90.192.0.0/11 0.003830002 125.200.0.0/13 0.009225608 10 190.43.0.0/16 0.003769733 202.248.0.0/16 0.008946044 2009/2/4 卒論審査

各属性の生起確率の例 (AS番号) spammer legit AS番号 生起確率 1 9121 0.092810483 7506 0.072407045 2 4837 0.042635508 4713 0.071009226 3 4134 0.03673886 2514 0.042773274 4 6147 0.032210903 23820 0.034386357 5 7470 0.020983358 2497 0.033547666 6 19262 0.020178474 4694 0.033268102 7 3269 0.017063924 15169 8 22927 0.017011432 9370 0.032708974 9 7738 0.016595381 714 0.023483366 10 5617 0.015596081 4732 0.021805983 2009/2/4 卒論審査

各属性の生起確率の例 (国情報) spammer legit 国情報 生起確率 1 CN 0.098390233 JP 0.668157674 2 TR 0.093220701 US 0.241543193 3 0.075291625 GB 0.011462119 4 RU 0.052846256 CA 0.010902991 5 ES 0.05135897 FR 0.00866648 6 0.048143324 DE 0.007268661 7 BR 0.047472587 0.004473022 8 CO 0.045133758 KR 0.004193458 9 AR 0.035484874 NL 0.00363433 10 PE 0.032759157 IT 0.003354767 2009/2/4 卒論審査

各属性の生起確率の例 (RDNS) spammer legit DNS逆引き 生起確率 1 0.677844311 0.952194576 0.322155689 0.047805424 2009/2/4 卒論審査

各属性の生起確率の例 (OS) spammer legit OS 生起確率 1 Windows 0.630855821 Linux 0.457366508 2 Bob 0.302910413 FreeBSD 0.14984624 3 0.028491718 UNKNOWN 0.138384121 4 Paul 0.018195427 Solaris 0.109868605 5 0.012392099 0.070170534 6 0.003365347 Oscar 0.041655018 7 0.002130803 HP-UX 0.021246855 8 MacOS 0.00092931 OpenBSD 0.002516075 9 0.000367447 BSD/OS 0.001956947 10 NetBSD 0.000202193 NetCache 0.001677383 2009/2/4 卒論審査

ベイズの定理 P(B)=事象Bが発生する確率 P(B|A)=事象Aが起きた後での、事象Bが発生する確率 とする。P(A)>0ならば、 が成り立つ。 2009/2/4 卒論審査

< 提案手法 0.189% legit !! 0.076% IP : xxx.xxx.xxx.xxx 訓練データ legit ? spammer : legit = 9 : 1 ・BGP Prefix : 133.9.0.0/16 ・AS番号 : 17956 ・国情報 : JP ・DNS逆引き : 有り ・OS : Windows legitのリスト 133.9.0.0/16 : 30% 17956 : 20% JP : 70% 有り : 90% Windows : 50% 0.189% < legit !! legit ? spammer ? spammerのリスト 133.9.0.0/16 : 10% 17956 : 10% JP : 30% 有り : 40% Windows : 70% 0.076% legit spammer 2009/2/4 卒論審査