早稲田大学 基幹理工学研究科 5109B084-7 後藤研究室 修士2年 本嶋 悠也

Slides:



Advertisements
Similar presentations
LANどうしを、通信規約として TCP/IP プロトコルで ルータ を経由してつなぎ合わせ、 世界規模で情報のやりとりを可能にしたもの アプリケーション 層 プレゼンテーショ ン層 セッション層 トランスポート層 ネットワーク層 データリンク層 物理層 アプリケーション 層 プレゼンテーショ ン層 セッション層.
Advertisements

情報基礎A 情報科学研究科 徳山 豪.
IPアドレスの特徴を用いた spamメール送信者判別方法
第1回.
TCPコネクションの分割 によるスループットの向上
CCC DATAset における マルウェアの変遷
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
ネットワーク層.
詳解TCP/IP TCPタイムアウトと再転送 れにうむ.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
TCP (Transmission Control Protocol)
早稲田大学大学院 理工学研究科情報科学専攻 後藤滋樹研究室 1年 渡辺裕太
日本国内のドメイン名はJPRSが管理 (株)日本レジストリサービス (2002年4月1日より)
i-Pathルータのフロー情報を用いたDoS攻撃検知法
輪講: 詳解TCP/IP ACE B3 suzuk.
IPマルチキャスト通信とXcast 早稲田大学後藤研究室 Xcast班.
Copyright Yumiko OHTAKE
PlanetLab における 効率的な近隣サーバ選択法
コンテンツ配信 エンコード (符号化) CBR (Constant Bit Rate) VBR (Variable Bit Rate)
ま と め と 補 足 ネットワークシステムⅠ 第15回.
B4向け研究紹介 MTAにおけるspamメール判別方法
IPv6アドレスによる RFIDシステム利用方式
大規模アドホックネットワークにおける 階層的な名前解決法
サーバ負荷分散におけるOpenFlowを用いた省電力法
プログラム実行履歴を用いたトランザクションファンクション抽出手法
Copyright Yumiko OHTAKE
サポートベクターマシン によるパターン認識
Linux リテラシ 2006 第4回 ネットワーク CIS RAT.
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
i-Pathルータのフロー情報を用いたDoS攻撃検知法
早稲田大学大学院 理工学研究科情報科学専攻 後藤研究室 修士1年 荒井 祐一
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
DNS 特論 今回はアプリケーションプロトコルの中で特にDNSを扱います
IPアドレスについて      発表者  M3KI.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
インターネットにおける真に プライベートなネットワークの構築
DNS 特論 今回はアプリケーションプロトコルの中で特にDNSを扱います
セキュリティ 05A2013 大川内 斉.
TCP/IP入門          櫻井美帆          蟻川朋未          服部力三.
マルチホーミングを利用した Proxy Mobile IPv6の ハンドオーバー
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
東京工業大学 情報理工学研究科 数理・計算科学専攻 千葉研究室 栗田 亮
ネットワークプログラミング (3回目) 05A1302 円田 優輝.
A18 スパムサーバの調査 ~ボットを見抜けるか?~
DNSクエリーパターンを用いたOSの推定
インターネット             サーバーの種類 チーム 俺 春.
Diffservにおける 絶対的な品質保証法
TCP制御フラグの解析による ネットワーク負荷の推測
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
最低限インターネット ネットワークにつなぎましょ!
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ISO23950による分散検索の課題と その解決案に関する検討
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
GbEにおける TCP/IP の研究について
ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発
4.3 IPとルーティングテーブル 国際産業情報学科 2年 大竹 雅子.
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
nチャネルメッセージ伝送方式のためのjailによる経路制御
CSP係数の識別に基づく話者の 頭部方向の推定
MAUI Project 2009 インターネットにおける近接性
CSS符号を用いた量子鍵配送の安全性についての解析
ソケットの拡張によるJava用分散ミドルウエアの高信頼化
Presentation transcript:

早稲田大学 基幹理工学研究科 5109B084-7 後藤研究室 修士2年 本嶋 悠也 修士論文審査 「IPアドレスの特徴を用いた SVMによるspamメールの判別法」 早稲田大学 基幹理工学研究科 5109B084-7 後藤研究室 修士2年 本嶋 悠也 2011/2/4 修論審査

Agenda 研究の背景 研究の目的 既存手法 提案手法 実証実験 実験1 実験2 まとめ 今後の課題 2011/2/4 修論審査

研究の背景 spamメールとは 問題点 受信者の意図に関わらず、自動的に送られてくるメール 不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール 問題点 メール整理に伴う時間の浪費・受信者への精神的負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 マルウェアへの感染 2011/2/4 修論審査

研究の背景 spamメールは長年問題視されている メールのヘッダや本文に基づく対策手法は 精度の良いものが存在しているが、その計算量によって配送遅延の原因となる メールのヘッダや本文によらない対策手法を提案する 2011/2/4 修論審査

研究の目的 メールのヘッダや本文によらず、メール送信者の IPアドレスでspamメール送信者か否かを判別 する手法をSVM (Support Vector Machine)を用いて実現する。 2011/2/4 修論審査

既存手法 2008年度 卒業論文 「IPアドレスの特徴を用いたspamメール送信者判別方法」 ナイーブベイズ分類器を利用 各クラスにおける特徴の生起確率を用いる 利用する特徴:BGP Prefix, AS番号, 国番号, PTR, OS 表1:既存手法における判別精度 FNR (%) FPR (%) 2008-04 0.346 5.903926 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

例:133.9.81.1 → vox3.goto.info.waseda.ac.jp 既存手法 利用する特徴 BGP Prefix: IPアドレスに対応する、AS番号に関連付けられたネットワーク AS番号: そのIPアドレスが属するネットワークのAS番号 国番号: そのIPアドレスを割り当てられている国 PTRレコードの有無 逆引きドメイン名が設定されているか否か OS IPアドレスから判定された、ホストのOS 例:早稲田大学 133.9.0.0/16 例:早稲田大学:AS17956 例:JP, US, CN, … 補足資料:BGP Prefix, AS番号, 国番号, PTRレコード, OS 例:133.9.81.1 → vox3.goto.info.waseda.ac.jp 例:Windows, Linux, Mac, … 2011/2/4 修論審査

提案手法 IPアドレスから求めることのできる特徴を特徴ベクトルとしてSVMに適用し、spamメール送信者を判別する 既存手法を踏まえつつ、新しい特徴を導入する カテゴリカルでない特徴 逆引きドメイン名に着目した特徴 SVM (Support Vector Machine) 教師あり機械学習の一つ カーネル関数により、非線形な問題にも適用可能 ※カテゴリカルな特徴:  順序性、等間隔性を持たない特徴 2011/2/4 修論審査

提案手法 利用する特徴 (既存手法と同じ) BGP Prefix AS番号 国番号 PTRレコードの有無 OS 2011/2/4 修論審査

提案手法 利用する特徴 (カテゴリカルでない特徴) メール送信回数:そのIPアドレスからメールが送られた回数 spamメール送信回数:そのIPアドレスから送られたメールのうち spamメールであると判定されたものの件数 hamメール送信回数:そのIPアドレスから送られたメールのうち、hamメール(正常なメール)であると判定されたものの件数 グレイリスト:そのIPアドレスから送られたメールの中で、グレイリストで受信が拒否されたものの件数 SMTPセッション:SMTPセッションを開始したが、メールが送られずにセッションを開始しただけで終わったものの件数 活動期間:1ヶ月の間にメールを送った日が何日間あったか 予め、送られてきたメールの件数等を、IPアドレスごとに集計してあるものとする 補足資料:グレイリスト ナイーブベイズ分類器では特徴の生起確率を用いるため、カテゴリカルでない特徴を導入することが難しい 2011/2/4 修論審査

提案手法 利用する特徴 (逆引きドメイン名に着目した特徴) 逆引きドメイン名に含まれる数字の個数 S25Rスパム対策方式のルール1 逆引きドメイン名に含まれる数字の個数が、対応するIPアドレス の数字の個数以上か否か S25Rスパム対策方式のルール1 逆引きドメイン名の最下位の名前が、数字以外の文字列で分断 された二つ以上の数字列を含むか否か 補足資料:逆引きドメイン名 補足資料:IPアドレス形式のドメイン名 補足資料:S25R ※S25Rスパム対策方式 浅見秀雄が考案した手法。逆引きドメイン名の特徴に基づいて作られたルールを用いて、メール送信元がメール中継サーバかエンドユーザかを判断する。エンドユーザと思われるクライアントから送られたメールをspamメールと判断する。 2011/2/4 修論審査

提案手法 特徴ベクトル カテゴリカルな特徴 カテゴリカルでない特徴 その特徴を持つか否か(0 or 1)で与える その特徴の値を[0,1]にスケーリングして与える 2011/2/4 修論審査

提案手法 スケーリング 数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある 各特徴ごとに、   として[0,1]にスケーリングする 2011/2/4 修論審査

実証実験 実験1:カテゴリカルでない特徴を導入した場合の 判別率の評価 実験2:逆引きドメイン名に着目した特徴を導入した 場合の判別率の評価 実験1:カテゴリカルでない特徴を導入した場合の          判別率の評価 実験2:逆引きドメイン名に着目した特徴を導入した        場合の判別率の評価 実験結果の評価 FPR: False Positive Ratio =     legitをspammerと判別した数 / legit数 FNR: False Negative Ratio =     spammerをlegitと判別した数 / spammer数    として評価する 交差確認法 (cross validation)を用いる 2011/2/4 修論審査

実験に用いるデータ 協力者に提供して頂いた、1ヶ月間のSMTPログ このSMTPログではメールは分類済み   (spam / ham / greylisted / session) ログを集計し、spammer,legitらしいIPアドレスを抽出 spammer : spamメール送信者 legit : 正常なメール送信者 IPアドレスごとに特徴を求め、特徴ベクトルを作成する IPアドレスの件数 サンプリング 表2:SMTPログから抽出したIPアドレスの件数 legit spammer 3577 514360 legit spammer 3577 ランダムサンプリング 2011/2/4 修論審査

表3:カテゴリカルでない特徴を導入した場合の判別率の変化 実験1の結果 カテゴリカルでない特徴を導入した場合の判別率 表3:カテゴリカルでない特徴を導入した場合の判別率の変化 FPR (%) FNR(%) ① 2.8432 1.1997 ② 1.7412 1.1086 ①カテゴリカルな特徴のみの場合 ②カテゴリカルでない特徴含む場合 FPR, FNRが共に改善された ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

表4:逆引きドメイン名に着目した特徴を導入した場合の判別率の変化 実験2の結果 逆引きドメイン名に着目した特徴を導入した場合の判別率 表4:逆引きドメイン名に着目した特徴を導入した場合の判別率の変化 FPR (%) FNR(%) ② 1.7412 1.1086 ③ 1.2327 0.7426 ②逆引きドメイン名に着目した特徴を含まない場合   ※実験1の②と同条件 ③逆引きドメイン名に着目した特徴を含む場合 FPR, FNRがさらに改善された ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

まとめ IPアドレスから求めることのできる特徴をSVMに 適用し、メール送信者がspamメール送信者か否かを判別する手法を提案した カテゴリカルでない特徴、逆引きドメイン名に着目した特徴の導入により判別率を向上させることができた 2011/2/4 修論審査

今後の課題 判別に有効な新しい特徴の検討 訓練量による判別率への影響 提案手法で用いた特徴の他にも、判別に有効な特徴が存在する可能性がある 訓練データの量が増えた場合にどうなるか spammerと同等の件数のlegitを用意する 新しい特徴: カテゴリカルでない特徴も扱えることから、統計的なデータ? スパマーのドメイン名の特徴を探る:時折スラッシュを含むドメインがある 2011/2/4 修論審査

ご清聴ありがとうございました 2011/2/4 修論審査

2011/2/4 修論審査

補足資料 2011/2/4 修論審査

spamメール spamメールとは 問題点 受信者の意図に関わらず、自動的に送られてくるメール 不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール 問題点 メール整理に伴う時間の浪費・受信者への精神的負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 マルウェアへの感染 2011/2/4 修論審査

BGP Prefix BGP PrefixとAS番号の対応表は、「Route Views Archive Project」のものを整形して使用 アメリカ、オレゴン大学が公開しているBGP経路情報。フルルートデータが公開されている。 2011/2/4 修論審査

AS番号 BGP Prefix同様、対応表はRoute Views Archive Projectのものを使用 AS番号はBGPで経路制御を行うASに割り当てられる 2011/2/4 修論審査

AS (Autonomous System) 大規模なTCP/IPネットワークにおいて、各組織が保有・運用する自律したネットワーク インターネットはマクロに見ると、ASを相互に接続した形態となっている AS間の経路制御に使われるプロトコルがBGP (Border Gateway Protocol) AS間の境界にあるルータは経路情報を交換する 2011/2/4 修論審査

国番号 MaxMind社のGeoIPというデータベースを使用。GeoIPはIPアドレスを地理情報にマッピングした データベースである。 2011/2/4 修論審査

OS passive fingerprintingの実装の一つであるp0fというツールを用いてOSを判定 passive fingerprintingは、OSによってTCPパケットに記載するヘッダのデフォルト値の組み合わせが異なるという性質を利用し、TCPパケットに記録されたヘッダの各属性値の組み合わせから、そのパケットを送出したホストのOSを判定する技術 p0fでは、事前に集めた各OSと属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得たTCPヘッダの属性とテーブルを比較することにより、OSを判定する 2011/2/4 修論審査

グレイリスト spamメール対策手法の一つ メール受信の際に送信元の情報をデータベースに登録し、メールは受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送された場合に受信する spamメールを送信するサーバは、大量のメールを短時間に送信することを重視して、一時的エラーに対して再送を行わないという特徴を利用している 2011/2/4 修論審査

逆引きドメイン名 DNSを用いてIPアドレスからドメイン名に変換する ことを逆引きという 逆引きによって得られるドメイン名が逆引きドメイン名 ISPによって自動的に付加されているIPアドレスも存在する ドメイン名がIPアドレス形式のものはその可能性が高い 例:192.168.0.1.example.com 2011/2/4 修論審査

S25Rスパム対策方式 浅見秀雄が考案したspamメール対策手法 ルール 0:逆引き失敗 1:逆引きFQDNの最下位の名前が、数字以外の文字列で分断された二つ以上の文字列を含む 2:逆引きFQDNの最下位の名前が、5個以上連続する数字を含む 3:逆引きFQDNの上位3階層を除き、最下位または下位から2番目の名前が数字で始まる 4:逆引きFQDNの最下位の名前が数字で終わり、かつ下位から2番目の名前が、1個のハイフンで分断された二つ以上の数字列を含む 5:逆引きFQDNが5階層以上で、下位2階層の名前がともに数字で終わる 6:逆引きFQDNの最下位の名前が「dhcp」、「dialup」、「ppp」、またはDSL系の名前で始まり、かつ数字を含む 2011/2/4 修論審査

カテゴリカルでない特徴の導入 スケーリング 数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある 各特徴ごとに、   として[0,1]にスケーリングする 2011/2/4 修論審査

訓練データの偏りに対する対策 サンプリング 正例、負例の数に偏りがある場合、予測精度が低下する spammerの件数をlegitと同じ数に減らす ランダムサンプリング 表:サンプリング前後の判別率の変化 legit数 spammer数 FPR (%) FNR(%) サンプリング前 3577 514360 12.57241799 0.05365505 サンプリング後 2.843188521 1.199672872 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

SVMの分類結果を確率値に近似 SVMの出力をシグモイド関数に当てはめることで確率値へのよい近似が得られることは実験的に示されている John Platt. “Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods” In Advances in Large Margin Classifiers. MIT Press, 1999. 2011/2/4 修論審査 34

交差確認法 10-fold cross validation(10分割交差確認法) データを10個に分ける 分けたうちの一つを除外した、9個のデータを使ってパラメータを推定 除外するデータを毎回変えて、推定を10回繰り返す 10回の推定の平均値で評価する 統計学において、仮説検定に用いられる手法 2011/2/4 修論審査

各属性の生起確率の例 (BGP) spammer legit BGP Prefix 生起確率 1 83.0.0.0/11 0.012366825 210.157.16.0/20 0.045848476 2 60.16.0.0/13 0.009378645 202.72.48.0/21 0.025719877 3 221.200.0.0/14 0.009291158 211.125.80.0/20 0.024042494 4 190.42.0.0/16 0.005385333 59.106.0.0/17 0.023483366 5 190.40.0.0/16 0.005150089 17.254.6.0/24 0.017892088 6 201.240.0.0/16 0.004932343 210.150.0.0/16 0.013139502 7 86.128.0.0/10 0.004638774 66.163.168.0/21 0.012300811 8 201.230.0.0/16 0.004391866 202.218.0.0/16 0.011182555 9 90.192.0.0/11 0.003830002 125.200.0.0/13 0.009225608 10 190.43.0.0/16 0.003769733 202.248.0.0/16 0.008946044 2011/2/4 修論審査

各属性の生起確率の例 (AS番号) spammer legit AS番号 生起確率 1 9121 0.092810483 7506 0.072407045 2 4837 0.042635508 4713 0.071009226 3 4134 0.03673886 2514 0.042773274 4 6147 0.032210903 23820 0.034386357 5 7470 0.020983358 2497 0.033547666 6 19262 0.020178474 4694 0.033268102 7 3269 0.017063924 15169 8 22927 0.017011432 9370 0.032708974 9 7738 0.016595381 714 0.023483366 10 5617 0.015596081 4732 0.021805983 2011/2/4 修論審査

各属性の生起確率の例 (国情報) spammer legit 国情報 生起確率 1 CN 0.098390233 JP 0.668157674 2 TR 0.093220701 US 0.241543193 3 0.075291625 GB 0.011462119 4 RU 0.052846256 CA 0.010902991 5 ES 0.05135897 FR 0.00866648 6 0.048143324 DE 0.007268661 7 BR 0.047472587 0.004473022 8 CO 0.045133758 KR 0.004193458 9 AR 0.035484874 NL 0.00363433 10 PE 0.032759157 IT 0.003354767 2011/2/4 修論審査

各属性の生起確率の例 (RDNS) spammer legit DNS逆引き 生起確率 1 0.677844311 0.952194576 0.322155689 0.047805424 2011/2/4 修論審査

各属性の生起確率の例 (OS) spammer legit OS 生起確率 1 Windows 0.630855821 Linux 0.457366508 2 Bob 0.302910413 FreeBSD 0.14984624 3 0.028491718 UNKNOWN 0.138384121 4 Paul 0.018195427 Solaris 0.109868605 5 0.012392099 0.070170534 6 0.003365347 Oscar 0.041655018 7 0.002130803 HP-UX 0.021246855 8 MacOS 0.00092931 OpenBSD 0.002516075 9 0.000367447 BSD/OS 0.001956947 10 NetBSD 0.000202193 NetCache 0.001677383 2011/2/4 修論審査

実験データの作成 特徴を番号に対応付ける表を作成 BGP Prefix~OSについては カテゴリカルデータとして扱い、個別に番号を振る 順序性・等間隔性を持たない valueは 0 or 1 [対応表] 1:messages 2:spam 3:ham 4:greylisted 5:session 6:active days 7:bgp prefix 201.221.197.0/24 8:bgp prefix 119.235.0.0/20 9:bgp prefix 71.13.80.0/20 ~中略~ 59305:asn 8434 59306:asn 5006 59307:asn 42517 67951:country code DJ 67952:country code JM 67953:country code PG 68160:rdns 68161:os SymbianOS 68162:os OpenBSD ~後略~ 2011/2/4 修論審査 41

実験データの作成 先の表に基づいてフォーマットを変更 42 2011/2/4 修論審査 [変更前] [変更後] IP, messages, spam, ham, greylisted, session, active days, bgp prefix, asn, country code, rdns, os 4.21.175.95,11,0,11,60,0,2,4.0.0.0/9,3356,US,0,Windows 8.7.218.53,10,0,10,34,0,3,8.0.0.0/9,3356,US,1,Windows 12.11.148.84,10,0,10,26,0,3,12.11.148.0/24,14267,US,1,Oscar [変更後] 1 1:11 2:0 3:11 4:60 5:0 6:2 3938:1 61094:1 68135:1 68160:0 68173:1 #4.21.175.95 1 1:10 2:0 3:10 4:34 5:0 6:3 37815:1 61094:1 68135:1 68160:1 68173:1 #8.7.218.53 1 1:10 2:0 3:10 4:26 5:0 6:3 49865:1 63130:1 68135:1 68160:1 68167:1 #12.11.148.84 2011/2/4 修論審査 42

SVMの出力 実験結果 浮動小数点数で得られる 0以上ならlegit, 0未満ならspammer 43 2011/2/4 修論審査 [実験結果の一部] 28.208991 3.5107295 1.1482799 ~中略~ -1.000785 -2.0499438 -1.0010235 ~後略~ ※legit:正常なメール送信者   spammer: spamメール送信者 2011/2/4 修論審査 43

SVM (Support Vector Machine) 教師あり機械学習 マージン最大化 非線形な問題でも分類可能 ソフトマージン カーネルトリック w・x+b=0 y=1 マージン y=-1 2011/2/4 2010/11/30 第一回修論進捗発表 修論審査 44

2011/2/4 修論審査

2011/2/4 修論審査

訓練データの偏りに対する対策 アンダーサンプリング 訓練データ中のspammerの数を減らしてlegitの数に合わせる 表3:サンプリング前後の判別率の変化 legit数 spammer数 判別精度 (%) FPR (%) FNR(%) サンプリング前 3577 514360 99.85984 12.57241799 0.05365505 サンプリング後 97.97855 2.843188521 1.199672872 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 FPRがかなり改善された 2011/2/4 修論審査

カテゴリカルでないデータも含めた学習 カテゴリカルなデータ カテゴリカルでないデータ BGP Prefix, AS番号, 国番号, OS, PTRレコードの有無 カテゴリカルでないデータ messages, spam, ham, greylisted, session, active days 値の大きさに引きずられてまともな結果がでなかったので、使用しないでいた 数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまうので、そのような特徴を用いる場合は  スケーリングしないと使い物にならないとの指摘 2011/2/4 修論審査

カテゴリカルでないデータも含めた学習 2011/2/4 修論審査 1 1:10 2:0 3:10 4:34 5:0 6:3 25509:1 42636:1 46637:1 46660:1 46669:1 1 1:25 2:0 3:25 4:33 5:0 6:11 19636:1 41855:1 46637:1 46660:0 46668:1 1 1:21 2:0 3:21 4:19 5:0 6:11 20500:1 42125:1 46637:1 46660:1 46671:1 1 1:0.000965903602820438 2:0 3:0.000977708251857646 4:0.000913192952299097 5:0 6:0.125 25509:1 42636:1 46637:1 46660:1 46669:1 1 1:0.0024147590070511 2:0 3:0.00244427062964411 4:0.000886334336055006 5:0 6:0.458333333333333 19636:1 41855:1 46637:1 46660:0 46668:1 1 1:0.00202839756592292 2:0 3:0.00205318732890106 4:0.000510313708637731 5:0 6:0.458333333333333 20500:1 42125:1 46637:1 46660:1 46671:1 2011/2/4 修論審査

カテゴリカルでないデータも含めた学習 カテゴリカルでないデータ 判別精度 (%) FPR (%) FNR(%) ① 99.85984 表4:カテゴリカルでないデータを含めた場合の判別率の変化 判別精度 (%) FPR (%) FNR(%) ① 99.85984 12.57241799 0.05365505 ② 99.92588 6.412015997 0.03014346 ③ 97.97855 2.843188521 1.199672872 ④ 98.57506 1.741230534 1.108640811 ①カテゴリカルなデータのみ、サンプリングなし ②カテゴリカルでないデータ有り、サンプリングなし ③カテゴリカルなデータのみ、サンプリング有り ④カテゴリカルでないデータ有り、スケーリング有り 2011/2/4 修論審査

2011/2/4 修論審査

(再掲)実験2 内容と結果 使用する特徴を限定してSVMを適用、様子を見る messages~active daysの特徴を省く FPRが高く、FNRが非常に低い 表1:適用したカーネル関数とその判別率 カーネル関数 判別精度(%) FPR (%) FNR (%) 線形分離 (default) 99.8405325 13.96507444 0.063570403 多項式カーネル 99.85723952 12.54191507 0.056228169 RBFカーネル 99.82759111 20.08528623 0.033825298 シグモイドカーネル 99.4721702 44.51718041 0.223138722 訓練データの偏りによるもの ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 spammer数は legit数の約150倍 2011/2/4 修論審査 52

パラメータチューニング SVMではカーネルパラメータの選択が重要 LIBSVM付属のツールによるパラメータ探索 特にRBFカーネルでは顕著 上手くパラメータを設定できればかなり有効 LIBSVM付属のツールによるパラメータ探索 grid.py LIBSVMでも推奨されている 表2:パラメータ適用前の判別率 カーネル関数 判別精度(%) FPR (%) FNR (%) RBFカーネル 99.82759111 20.08528623 0.033825298 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数   FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 表3:パラメータ適用後の判別率 カーネル関数 判別精度(%) FPR (%) FNR (%) RBFカーネル 99.890825 10.36694932 0.047188214 2010/11/30 2011/2/4 第一回修論進捗発表 修論審査 53

確率値に近似した結果 確率値での出力も可能 度合いで判断することができる legitらしさ、spammerらしさ 閾値を設定してフィルタリング -w オプションで 重みづけした結果の 分析に利用 オプション未使用 オプション使用 label 1 -1 label 1 -1 1 0.961098 0.0389017 -1 0.244081 0.755919 1 0.96111 0.0388897 1 0.961967 0.0380331 1 0.999864 0.00013586 1 0.966642 0.0333579 1 0.961014 0.0389856 1 0.962324 0.0376763 2011/2/4 2010/11/30 修論審査 第一回修論進捗発表 54

2011/2/4 2010/11/30 修論審査 第一回修論進捗発表 55

featureは整数で表されるので、各特徴に番号を割り当てる必要がある 実験1 内容 (1/3) 卒論のときに利用していたデータをSVMに適用 森さんに提供して頂いたSMTPログ (2008年4月~7月) SVM-lightというモジュールを利用 SVM-lightで利用できるようにフォーマットを変更 10-fold cross validation [SVM-lightの学習データ・テストデータのフォーマット] <line> .=. <target> <feature>:<value> <feature>:<value> ...<feature>:<value> <target> .=. +1 | -1 | 0 | <float> <feature> .=. <integer> | 'qid ' <value> .=. <float> SVM-lightはアメリカのコーネル大学の准教授、Thorsten Joachims により作成された ・大きなデータセットを高速に処理可能 ・kernel.hで新規のカーネルを定義可能 クラス 特徴量のインデックス 特徴量 featureは整数で表されるので、各特徴に番号を割り当てる必要がある 2010/11/30 2011/2/4 第一回修論進捗発表 修論審査 56