早稲田大学基幹理工学研究科 5109B084-7 後藤研究室修士2年本嶋悠也

Slides:

Advertisements

Similar presentations

ＬＡＮどうしを、通信規約として TCP/IP プロトコルでルータを経由してつなぎ合わせ、世界規模で情報のやりとりを可能にしたものアプリケーション層プレゼンテーション層セッション層トランスポート層ネットワーク層データリンク層物理層アプリケーション層プレゼンテーション層セッション層.

Advertisements

情報基礎A 情報科学研究科徳山　豪.

IPアドレスの特徴を用いた spamメール送信者判別方法

TCPコネクションの分割によるスループットの向上

CCC DATAset におけるマルウェアの変遷

近似アルゴリズム第１０章終了時刻最小化スケジューリング

ISDASインターネット分散観測：ワームの平均寿命はいくらか？

スケールフリーネットワークにおける経路制御のためのフラッディング手法の提案と評価

ネットワーク層.

詳解TCP/IP TCPタイムアウトと再転送れにうむ.

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

TCP (Transmission Control Protocol)

早稲田大学大学院理工学研究科情報科学専攻後藤滋樹研究室１年渡辺裕太

日本国内のドメイン名はＪＰＲＳが管理 (株)日本レジストリサービス (２００２年４月１日より)

i-Pathルータのフロー情報を用いたDoS攻撃検知法

輪講：詳解TCP/IP ACE B3 suzuk.

IPマルチキャスト通信とXcast 早稲田大学後藤研究室 Xcast班.

Copyright Yumiko OHTAKE

PlanetLab における効率的な近隣サーバ選択法

コンテンツ配信エンコード (符号化) CBR (Constant Bit Rate) VBR (Variable Bit Rate)

まとめと補足ネットワークシステムⅠ 第１５回.

B4向け研究紹介 MTAにおけるspamメール判別方法

IPｖ６アドレスによる RFIDシステム利用方式

大規模アドホックネットワークにおける階層的な名前解決法

サーバ負荷分散におけるOpenFlowを用いた省電力法

プログラム実行履歴を用いたトランザクションファンクション抽出手法

Copyright Yumiko OHTAKE

サポートベクターマシンによるパターン認識

Linux リテラシ 2006 第4回ネットワーク CIS RAT.

大阪大学大学院情報科学研究科博士前期課程２年宮原研究室土居聡

i-Pathルータのフロー情報を用いたDoS攻撃検知法

早稲田大学大学院理工学研究科情報科学専攻後藤研究室修士1年荒井祐一

2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散

DNS 特論今回はアプリケーションプロトコルの中で特にDNSを扱います

ＩＰアドレスについて　　　　　発表者　　Ｍ３ＫＩ.

利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成

インターネットにおける真にプライベートなネットワークの構築

DNS 特論今回はアプリケーションプロトコルの中で特にDNSを扱います

セキュリティ 05A2013 大川内　斉.

TCP/IP入門　　　　　　　　　櫻井美帆　　　　　　　　　蟻川朋未　　　　　　　　　服部力三.

マルチホーミングを利用した Proxy Mobile IPv6のハンドオーバー

オープンソース開発支援のためのソースコード及びメールの履歴対応表示システム

東京工業大学情報理工学研究科数理・計算科学専攻千葉研究室栗田亮

ネットワークプログラミング（３回目） 05A1302 円田　優輝.

A18 スパムサーバの調査～ボットを見抜けるか？～

DNSクエリーパターンを用いたOSの推定

インターネット　　　　　　　　　　　　サーバーの種類チーム　俺春.

Diffservにおける絶対的な品質保証法

TCP制御フラグの解析によるネットワーク負荷の推測

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

早稲田大学大学院基幹理工学研究科情報理工学専攻後藤研究室修士１年魏元

最低限インターネットネットワークにつなぎましょ!

ウィルスってどの位感染しているのかな？菊池研究室　　小堀智弘.

第4章識別部の設計 4－5 識別部の最適化発表日：2003年5月16日発表者：時田陽一

サポートベクターマシン Support Vector Machine SVM

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

ISO23950による分散検索の課題とその解決案に関する検討

クローン検出ツールを用いたソフトウェアシステムの類似度調査

GbEにおける TCP/IP の研究について

ウィルスの感染先探索活動を可視化するツール“PacketViewer”の開発

４．３　IPとルーティングテーブル国際産業情報学科　２年大竹　雅子.

異種セグメント端末による分散型仮想LAN構築機構の設計と実装

ｎチャネルメッセージ伝送方式のためのjailによる経路制御

CSP係数の識別に基づく話者の頭部方向の推定

MAUI Project 2009 インターネットにおける近接性

CSS符号を用いた量子鍵配送の安全性についての解析

ソケットの拡張によるJava用分散ミドルウエアの高信頼化

Presentation transcript:

早稲田大学基幹理工学研究科 5109B084-7 後藤研究室修士2年本嶋悠也修士論文審査「IPアドレスの特徴を用いた SVMによるspamメールの判別法」早稲田大学基幹理工学研究科 5109B084-7 後藤研究室修士2年本嶋悠也 2011/2/4 修論審査

Agenda 研究の背景研究の目的既存手法提案手法実証実験実験１実験２まとめ今後の課題 2011/2/4 修論審査

研究の背景 spamメールとは問題点受信者の意図に関わらず、自動的に送られてくるメール不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール問題点メール整理に伴う時間の浪費・受信者への精神的負担重要なメールの見落としネットワーク資源及びサーバ資源の浪費サーバ資源の浪費に伴うメール配送遅延マルウェアへの感染 2011/2/4 修論審査

研究の背景 spamメールは長年問題視されているメールのヘッダや本文に基づく対策手法は精度の良いものが存在しているが、その計算量によって配送遅延の原因となるメールのヘッダや本文によらない対策手法を提案する 2011/2/4 修論審査

研究の目的メールのヘッダや本文によらず、メール送信者の IPアドレスでspamメール送信者か否かを判別する手法をSVM (Support Vector Machine)を用いて実現する。 2011/2/4 修論審査

既存手法 2008年度卒業論文「IPアドレスの特徴を用いたspamメール送信者判別方法」ナイーブベイズ分類器を利用各クラスにおける特徴の生起確率を用いる利用する特徴：BGP Prefix, AS番号, 国番号, PTR, OS 表１：既存手法における判別精度 FNR (％) FPR (％) 2008-04 0.346 5.903926 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

例：133.9.81.1 → vox3.goto.info.waseda.ac.jp 既存手法利用する特徴 BGP Prefix： IPアドレスに対応する、AS番号に関連付けられたネットワーク AS番号：そのIPアドレスが属するネットワークのAS番号国番号：そのIPアドレスを割り当てられている国 PTRレコードの有無逆引きドメイン名が設定されているか否か OS IPアドレスから判定された、ホストのOS 例：早稲田大学 133.9.0.0/16 例：早稲田大学：AS17956 例：JP, US, CN, … 補足資料：BGP Prefix, AS番号, 国番号, PTRレコード, OS 例：133.9.81.1 → vox3.goto.info.waseda.ac.jp 例：Windows, Linux, Mac, … 2011/2/4 修論審査

提案手法 IPアドレスから求めることのできる特徴を特徴ベクトルとしてSVMに適用し、spamメール送信者を判別する既存手法を踏まえつつ、新しい特徴を導入するカテゴリカルでない特徴逆引きドメイン名に着目した特徴 SVM (Support Vector Machine) 教師あり機械学習の一つカーネル関数により、非線形な問題にも適用可能 ※カテゴリカルな特徴：　順序性、等間隔性を持たない特徴 2011/2/4 修論審査

提案手法利用する特徴 (既存手法と同じ) BGP Prefix AS番号国番号 PTRレコードの有無 OS 2011/2/4 修論審査

提案手法利用する特徴（カテゴリカルでない特徴）メール送信回数：そのIPアドレスからメールが送られた回数 spamメール送信回数：そのIPアドレスから送られたメールのうち　spamメールであると判定されたものの件数 hamメール送信回数：そのIPアドレスから送られたメールのうち、hamメール(正常なメール)であると判定されたものの件数グレイリスト：そのIPアドレスから送られたメールの中で、グレイリストで受信が拒否されたものの件数 SMTPセッション：SMTPセッションを開始したが、メールが送られずにセッションを開始しただけで終わったものの件数活動期間：1ヶ月の間にメールを送った日が何日間あったか予め、送られてきたメールの件数等を、IPアドレスごとに集計してあるものとする補足資料：グレイリストナイーブベイズ分類器では特徴の生起確率を用いるため、カテゴリカルでない特徴を導入することが難しい 2011/2/4 修論審査

提案手法利用する特徴 (逆引きドメイン名に着目した特徴) 逆引きドメイン名に含まれる数字の個数 S25Rスパム対策方式のルール1 逆引きドメイン名に含まれる数字の個数が、対応するIPアドレスの数字の個数以上か否か S25Rスパム対策方式のルール1 逆引きドメイン名の最下位の名前が、数字以外の文字列で分断された二つ以上の数字列を含むか否か補足資料：逆引きドメイン名補足資料：IPアドレス形式のドメイン名補足資料：S25R ※S25Rスパム対策方式浅見秀雄が考案した手法。逆引きドメイン名の特徴に基づいて作られたルールを用いて、メール送信元がメール中継サーバかエンドユーザかを判断する。エンドユーザと思われるクライアントから送られたメールをspamメールと判断する。 2011/2/4 修論審査

提案手法特徴ベクトルカテゴリカルな特徴カテゴリカルでない特徴その特徴を持つか否か(0 or 1)で与えるその特徴の値を[0,1]にスケーリングして与える 2011/2/4 修論審査

提案手法スケーリング数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある各特徴ごとに、　　として[0,1]にスケーリングする 2011/2/4 修論審査

実証実験実験１：カテゴリカルでない特徴を導入した場合の判別率の評価実験２：逆引きドメイン名に着目した特徴を導入した場合の判別率の評価実験１：カテゴリカルでない特徴を導入した場合の　　　　　　　　判別率の評価実験２：逆引きドメイン名に着目した特徴を導入した　　　　　　場合の判別率の評価実験結果の評価 FPR: False Positive Ratio = 　　　　legitをspammerと判別した数 / legit数 FNR: False Negative Ratio = 　　　　spammerをlegitと判別した数 / spammer数　　　として評価する交差確認法 (cross validation)を用いる 2011/2/4 修論審査

実験に用いるデータ協力者に提供して頂いた、1ヶ月間のSMTPログこのSMTPログではメールは分類済み　　(spam / ham / greylisted / session) ログを集計し、spammer,legitらしいIPアドレスを抽出 spammer : spamメール送信者 legit : 正常なメール送信者 IPアドレスごとに特徴を求め、特徴ベクトルを作成する IPアドレスの件数サンプリング表２：SMTPログから抽出したIPアドレスの件数 legit spammer 3577 514360 legit spammer 3577 ランダムサンプリング 2011/2/4 修論審査

表３：カテゴリカルでない特徴を導入した場合の判別率の変化実験１の結果カテゴリカルでない特徴を導入した場合の判別率表３：カテゴリカルでない特徴を導入した場合の判別率の変化 FPR (%) FNR(%) ① 2.8432 1.1997 ② 1.7412 1.1086 ①カテゴリカルな特徴のみの場合 ②カテゴリカルでない特徴含む場合 FPR, FNRが共に改善された ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

表４：逆引きドメイン名に着目した特徴を導入した場合の判別率の変化実験２の結果逆引きドメイン名に着目した特徴を導入した場合の判別率表４：逆引きドメイン名に着目した特徴を導入した場合の判別率の変化 FPR (%) FNR(%) ② 1.7412 1.1086 ③ 1.2327 0.7426 ②逆引きドメイン名に着目した特徴を含まない場合　　　※実験１の②と同条件 ③逆引きドメイン名に着目した特徴を含む場合 FPR, FNRがさらに改善された ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

まとめ IPアドレスから求めることのできる特徴をSVMに適用し、メール送信者がspamメール送信者か否かを判別する手法を提案したカテゴリカルでない特徴、逆引きドメイン名に着目した特徴の導入により判別率を向上させることができた 2011/2/4 修論審査

今後の課題判別に有効な新しい特徴の検討訓練量による判別率への影響提案手法で用いた特徴の他にも、判別に有効な特徴が存在する可能性がある訓練データの量が増えた場合にどうなるか spammerと同等の件数のlegitを用意する新しい特徴：カテゴリカルでない特徴も扱えることから、統計的なデータ？スパマーのドメイン名の特徴を探る：時折スラッシュを含むドメインがある 2011/2/4 修論審査

ご清聴ありがとうございました 2011/2/4 修論審査

2011/2/4 修論審査

補足資料 2011/2/4 修論審査

spamメール spamメールとは問題点受信者の意図に関わらず、自動的に送られてくるメール不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール問題点メール整理に伴う時間の浪費・受信者への精神的負担重要なメールの見落としネットワーク資源及びサーバ資源の浪費サーバ資源の浪費に伴うメール配送遅延マルウェアへの感染 2011/2/4 修論審査

BGP Prefix BGP PrefixとAS番号の対応表は、「Route Views Archive Project」のものを整形して使用アメリカ、オレゴン大学が公開しているBGP経路情報。フルルートデータが公開されている。 2011/2/4 修論審査

AS番号 BGP Prefix同様、対応表はRoute Views Archive Projectのものを使用 AS番号はBGPで経路制御を行うASに割り当てられる 2011/2/4 修論審査

AS (Autonomous System) 大規模なTCP/IPネットワークにおいて、各組織が保有・運用する自律したネットワークインターネットはマクロに見ると、ASを相互に接続した形態となっている AS間の経路制御に使われるプロトコルがBGP (Border Gateway Protocol) AS間の境界にあるルータは経路情報を交換する 2011/2/4 修論審査

国番号 MaxMind社のGeoIPというデータベースを使用。GeoIPはIPアドレスを地理情報にマッピングしたデータベースである。 2011/2/4 修論審査

OS passive fingerprintingの実装の一つであるp0fというツールを用いてOSを判定 passive fingerprintingは、OSによってTCPパケットに記載するヘッダのデフォルト値の組み合わせが異なるという性質を利用し、TCPパケットに記録されたヘッダの各属性値の組み合わせから、そのパケットを送出したホストのOSを判定する技術 p0fでは、事前に集めた各OSと属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得たTCPヘッダの属性とテーブルを比較することにより、OSを判定する 2011/2/4 修論審査

グレイリスト spamメール対策手法の一つメール受信の際に送信元の情報をデータベースに登録し、メールは受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送された場合に受信する spamメールを送信するサーバは、大量のメールを短時間に送信することを重視して、一時的エラーに対して再送を行わないという特徴を利用している 2011/2/4 修論審査

逆引きドメイン名 DNSを用いてIPアドレスからドメイン名に変換することを逆引きという逆引きによって得られるドメイン名が逆引きドメイン名 ISPによって自動的に付加されているIPアドレスも存在するドメイン名がIPアドレス形式のものはその可能性が高い　例：192.168.0.1.example.com 2011/2/4 修論審査

S25Rスパム対策方式浅見秀雄が考案したspamメール対策手法ルール 0:逆引き失敗 1:逆引きFQDNの最下位の名前が、数字以外の文字列で分断された二つ以上の文字列を含む 2:逆引きFQDNの最下位の名前が、5個以上連続する数字を含む 3:逆引きFQDNの上位3階層を除き、最下位または下位から2番目の名前が数字で始まる 4:逆引きFQDNの最下位の名前が数字で終わり、かつ下位から2番目の名前が、1個のハイフンで分断された二つ以上の数字列を含む 5:逆引きFQDNが5階層以上で、下位2階層の名前がともに数字で終わる 6:逆引きFQDNの最下位の名前が「dhcp」、「dialup」、「ppp」、またはDSL系の名前で始まり、かつ数字を含む 2011/2/4 修論審査

カテゴリカルでない特徴の導入スケーリング数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある各特徴ごとに、　　として[0,1]にスケーリングする 2011/2/4 修論審査

訓練データの偏りに対する対策サンプリング正例、負例の数に偏りがある場合、予測精度が低下する spammerの件数をlegitと同じ数に減らすランダムサンプリング表：サンプリング前後の判別率の変化 legit数 spammer数 FPR (%) FNR(%) サンプリング前 3577 514360 12.57241799 0.05365505 サンプリング後 2.843188521 1.199672872 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 2011/2/4 修論審査

SVMの分類結果を確率値に近似 SVMの出力をシグモイド関数に当てはめることで確率値へのよい近似が得られることは実験的に示されている John Platt. “Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods” In Advances in Large Margin Classifiers. MIT Press, 1999. 2011/2/4 修論審査 34

交差確認法 10-fold cross validation(10分割交差確認法) データを10個に分ける分けたうちの一つを除外した、9個のデータを使ってパラメータを推定除外するデータを毎回変えて、推定を10回繰り返す 10回の推定の平均値で評価する統計学において、仮説検定に用いられる手法 2011/2/4 修論審査

各属性の生起確率の例 (BGP) spammer legit BGP Prefix 生起確率 1 83.0.0.0/11 0.012366825 210.157.16.0/20 0.045848476 2 60.16.0.0/13 0.009378645 202.72.48.0/21 0.025719877 3 221.200.0.0/14 0.009291158 211.125.80.0/20 0.024042494 4 190.42.0.0/16 0.005385333 59.106.0.0/17 0.023483366 5 190.40.0.0/16 0.005150089 17.254.6.0/24 0.017892088 6 201.240.0.0/16 0.004932343 210.150.0.0/16 0.013139502 7 86.128.0.0/10 0.004638774 66.163.168.0/21 0.012300811 8 201.230.0.0/16 0.004391866 202.218.0.0/16 0.011182555 9 90.192.0.0/11 0.003830002 125.200.0.0/13 0.009225608 10 190.43.0.0/16 0.003769733 202.248.0.0/16 0.008946044 2011/2/4 修論審査

各属性の生起確率の例 (AS番号) spammer legit AS番号生起確率 1 9121 0.092810483 7506 0.072407045 2 4837 0.042635508 4713 0.071009226 3 4134 0.03673886 2514 0.042773274 4 6147 0.032210903 23820 0.034386357 5 7470 0.020983358 2497 0.033547666 6 19262 0.020178474 4694 0.033268102 7 3269 0.017063924 15169 8 22927 0.017011432 9370 0.032708974 9 7738 0.016595381 714 0.023483366 10 5617 0.015596081 4732 0.021805983 2011/2/4 修論審査

各属性の生起確率の例 (国情報) spammer legit 国情報生起確率 1 CN 0.098390233 JP 0.668157674 2 TR 0.093220701 US 0.241543193 3 0.075291625 GB 0.011462119 4 RU 0.052846256 CA 0.010902991 5 ES 0.05135897 FR 0.00866648 6 0.048143324 DE 0.007268661 7 BR 0.047472587 0.004473022 8 CO 0.045133758 KR 0.004193458 9 AR 0.035484874 NL 0.00363433 10 PE 0.032759157 IT 0.003354767 2011/2/4 修論審査

各属性の生起確率の例 (RDNS) spammer legit DNS逆引き生起確率 1 0.677844311 0.952194576 0.322155689 0.047805424 2011/2/4 修論審査

各属性の生起確率の例 (OS) spammer legit OS 生起確率 1 Windows 0.630855821 Linux 0.457366508 2 Bob 0.302910413 FreeBSD 0.14984624 3 0.028491718 UNKNOWN 0.138384121 4 Paul 0.018195427 Solaris 0.109868605 5 0.012392099 0.070170534 6 0.003365347 Oscar 0.041655018 7 0.002130803 HP-UX 0.021246855 8 MacOS 0.00092931 OpenBSD 0.002516075 9 0.000367447 BSD/OS 0.001956947 10 NetBSD 0.000202193 NetCache 0.001677383 2011/2/4 修論審査

実験データの作成特徴を番号に対応付ける表を作成 BGP Prefix～OSについてはカテゴリカルデータとして扱い、個別に番号を振る順序性・等間隔性を持たない valueは 0 or 1 [対応表] 1:messages 2:spam 3:ham 4:greylisted 5:session 6:active days 7:bgp prefix 201.221.197.0/24 8:bgp prefix 119.235.0.0/20 9:bgp prefix 71.13.80.0/20 ～中略～ 59305:asn 8434 59306:asn 5006 59307:asn 42517 67951:country code DJ 67952:country code JM 67953:country code PG 68160:rdns 68161:os SymbianOS 68162:os OpenBSD ～後略～ 2011/2/4 修論審査 41

実験データの作成先の表に基づいてフォーマットを変更 42 2011/2/4 修論審査 [変更前] [変更後] IP, messages, spam, ham, greylisted, session, active days, bgp prefix, asn, country code, rdns, os 4.21.175.95,11,0,11,60,0,2,4.0.0.0/9,3356,US,0,Windows 8.7.218.53,10,0,10,34,0,3,8.0.0.0/9,3356,US,1,Windows 12.11.148.84,10,0,10,26,0,3,12.11.148.0/24,14267,US,1,Oscar [変更後] 1 1:11 2:0 3:11 4:60 5:0 6:2 3938:1 61094:1 68135:1 68160:0 68173:1 #4.21.175.95 1 1:10 2:0 3:10 4:34 5:0 6:3 37815:1 61094:1 68135:1 68160:1 68173:1 #8.7.218.53 1 1:10 2:0 3:10 4:26 5:0 6:3 49865:1 63130:1 68135:1 68160:1 68167:1 #12.11.148.84 2011/2/4 修論審査 42

SVMの出力実験結果浮動小数点数で得られる 0以上ならlegit, 0未満ならspammer 43 2011/2/4 修論審査 [実験結果の一部] 28.208991 3.5107295 1.1482799 ～中略～ -1.000785 -2.0499438 -1.0010235 ～後略～ ※legit:正常なメール送信者　 spammer: spamメール送信者 2011/2/4 修論審査 43

SVM (Support Vector Machine) 教師あり機械学習マージン最大化非線形な問題でも分類可能ソフトマージンカーネルトリック w・x+b=0 y=1 マージン y=-1 2011/2/4 2010/11/30 第一回修論進捗発表修論審査 44

2011/2/4 修論審査

2011/2/4 修論審査

訓練データの偏りに対する対策アンダーサンプリング訓練データ中のspammerの数を減らしてlegitの数に合わせる表３：サンプリング前後の判別率の変化 legit数 spammer数判別精度 (%) FPR (%) FNR(%) サンプリング前 3577 514360 99.85984 12.57241799 0.05365505 サンプリング後 97.97855 2.843188521 1.199672872 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 FPRがかなり改善された 2011/2/4 修論審査

カテゴリカルでないデータも含めた学習カテゴリカルなデータカテゴリカルでないデータ BGP Prefix, AS番号, 国番号, OS, PTRレコードの有無カテゴリカルでないデータ messages, spam, ham, greylisted, session, active days 値の大きさに引きずられてまともな結果がでなかったので、使用しないでいた数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまうので、そのような特徴を用いる場合は　　スケーリングしないと使い物にならないとの指摘 2011/2/4 修論審査

カテゴリカルでないデータも含めた学習 2011/2/4 修論審査 1 1:10 2:0 3:10 4:34 5:0 6:3 25509:1 42636:1 46637:1 46660:1 46669:1 1 1:25 2:0 3:25 4:33 5:0 6:11 19636:1 41855:1 46637:1 46660:0 46668:1 1 1:21 2:0 3:21 4:19 5:0 6:11 20500:1 42125:1 46637:1 46660:1 46671:1 1 1:0.000965903602820438 2:0 3:0.000977708251857646 4:0.000913192952299097 5:0 6:0.125 25509:1 42636:1 46637:1 46660:1 46669:1 1 1:0.0024147590070511 2:0 3:0.00244427062964411 4:0.000886334336055006 5:0 6:0.458333333333333 19636:1 41855:1 46637:1 46660:0 46668:1 1 1:0.00202839756592292 2:0 3:0.00205318732890106 4:0.000510313708637731 5:0 6:0.458333333333333 20500:1 42125:1 46637:1 46660:1 46671:1 2011/2/4 修論審査

カテゴリカルでないデータも含めた学習カテゴリカルでないデータ判別精度 (%) FPR (%) FNR(%) ① 99.85984 表４：カテゴリカルでないデータを含めた場合の判別率の変化判別精度 (%) FPR (%) FNR(%) ① 99.85984 12.57241799 0.05365505 ② 99.92588 6.412015997 0.03014346 ③ 97.97855 2.843188521 1.199672872 ④ 98.57506 1.741230534 1.108640811 ①カテゴリカルなデータのみ、サンプリングなし ②カテゴリカルでないデータ有り、サンプリングなし ③カテゴリカルなデータのみ、サンプリング有り ④カテゴリカルでないデータ有り、スケーリング有り 2011/2/4 修論審査

2011/2/4 修論審査

（再掲）実験2 内容と結果使用する特徴を限定してSVMを適用、様子を見る messages～active daysの特徴を省く FPRが高く、FNRが非常に低い表１：適用したカーネル関数とその判別率カーネル関数判別精度(%) FPR (%) FNR (%) 線形分離 (default) 99.8405325 13.96507444 0.063570403 多項式カーネル 99.85723952 12.54191507 0.056228169 RBFカーネル 99.82759111 20.08528623 0.033825298 シグモイドカーネル 99.4721702 44.51718041 0.223138722 訓練データの偏りによるもの ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数 spammer数は legit数の約150倍 2011/2/4 修論審査 52

パラメータチューニング SVMではカーネルパラメータの選択が重要 LIBSVM付属のツールによるパラメータ探索特にRBFカーネルでは顕著上手くパラメータを設定できればかなり有効 LIBSVM付属のツールによるパラメータ探索 grid.py LIBSVMでも推奨されている表２：パラメータ適用前の判別率カーネル関数判別精度(%) FPR (%) FNR (%) RBFカーネル 99.82759111 20.08528623 0.033825298 ※FPR: False Positive Ratio = legitをspammerと判別した数 / legit数　 FNR: False Negative Ratio = spammerをlegitと判別した数 / spammer数表３：パラメータ適用後の判別率カーネル関数判別精度(%) FPR (%) FNR (%) RBFカーネル 99.890825 10.36694932 0.047188214 2010/11/30 2011/2/4 第一回修論進捗発表修論審査 53

確率値に近似した結果確率値での出力も可能度合いで判断することができる legitらしさ、spammerらしさ閾値を設定してフィルタリング -w オプションで重みづけした結果の分析に利用オプション未使用オプション使用 label 1 -1 label 1 -1 1 0.961098 0.0389017 -1 0.244081 0.755919 1 0.96111 0.0388897 1 0.961967 0.0380331 1 0.999864 0.00013586 1 0.966642 0.0333579 1 0.961014 0.0389856 1 0.962324 0.0376763 2011/2/4 2010/11/30 修論審査第一回修論進捗発表 54

2011/2/4 2010/11/30 修論審査第一回修論進捗発表 55

featureは整数で表されるので、各特徴に番号を割り当てる必要がある実験1 内容 (1/3) 卒論のときに利用していたデータをSVMに適用森さんに提供して頂いたSMTPログ (2008年4月～7月) SVM-lightというモジュールを利用 SVM-lightで利用できるようにフォーマットを変更 10-fold cross validation [SVM-lightの学習データ・テストデータのフォーマット] ＜line＞ .=. ＜target＞＜feature＞:＜value＞＜feature＞:＜value＞ ...＜feature＞:＜value＞＜target＞ .=. +1 | -1 | 0 | ＜float＞＜feature＞ .=. ＜integer＞ | 'qid ' ＜value＞ .=. ＜float＞ SVM-lightはアメリカのコーネル大学の准教授、Thorsten Joachims により作成された・大きなデータセットを高速に処理可能・kernel.hで新規のカーネルを定義可能クラス特徴量のインデックス特徴量 featureは整数で表されるので、各特徴に番号を割り当てる必要がある 2010/11/30 2011/2/4 第一回修論進捗発表修論審査 56