Presentation is loading. Please wait.

Presentation is loading. Please wait.

第4章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山. 4.1 思考実験:スパムフィルタの例から 学ぶ スパムフィルタ・・・メールソフトや Web メールサービスの機 能の一つで、受信したメールの中から迷惑な広告などのメール (スパムメール、迷惑メール)を検出して、削除したり専用の.

Similar presentations


Presentation on theme: "第4章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山. 4.1 思考実験:スパムフィルタの例から 学ぶ スパムフィルタ・・・メールソフトや Web メールサービスの機 能の一つで、受信したメールの中から迷惑な広告などのメール (スパムメール、迷惑メール)を検出して、削除したり専用の."— Presentation transcript:

1 第4章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山

2 4.1 思考実験:スパムフィルタの例から 学ぶ スパムフィルタ・・・メールソフトや Web メールサービスの機 能の一つで、受信したメールの中から迷惑な広告などのメール (スパムメール、迷惑メール)を検出して、削除したり専用の 保管場所に移したりすること。また、そのような機能を提供す るソフトウェア。 スパム・・・受信者の意向を無視して、無差別かつ大量に一括 して送信される、電子メールを主としたメッセージのこと

3 スパムかどうかの判断 バイアグラという言葉を含む 件名の長さ 感嘆符やその他の句読点の過度な使用

4 続き 確率モデル・・・の各々の値に対して、その起こりやすさを記 述するもの K 近傍法・・・特徴空間における最も近い訓練例に基づいた統 計分類の手法であり、パターン認識でよく使われる。最近傍探 索問題の一つ。 k 近傍法は、インスタンスに基づく学習の一種 であり、怠惰学習 (lazy learning) の一種である。その関数は局所 的な近似に過ぎず、全ての計算は分類時まで後回しにされる。 また、回帰分析にも使われる。

5 4.1.1 なぜ線形回帰でスパムフィルタを 構築できないのか 線形回帰・・・統計学における回帰分析の一種である。 線形回帰モデルでスパムフィルムを作る → 何が必要か? データセット |-電子メールのメッセージに対応しているもの

6 メールに含まれる単語を特徴として捉え る 例 ー 単語「バイアグラ」 その単語がでてきたかをチェックし、その回数をデータセット に記録 出てきた頻度や言葉の強さで分類し、スパムかどうかを判断 コンピュータの世界では、2進数で 0 か 1 を入力すれば、その単 語がでてきた or 出てこないが判断できる

7 線形回帰とスパムフィルタ 線形回帰を行うには、トレーニングデータとして判定結果がラ ベル付けされたデータセットが必要 準備の方法 人が評価者となり、自らスパムかをラベル付けする ー時間がかかるが妥当

8 線形回帰は適しているか? 問題に対して適切なモデルを使用しなくてはならない。 → 各メールの文字数が多い為、その一つ一つの行に解析はうまくいか ない。そしてデータが巨大すぎてデータを保存できない。 ・頻度の高い単語に限定して解析用に設定することもできる → しかし、全然足りない 結論 線形回帰は2つの値の判定結果を予測するためには適切なモデルで はないという問題が残る

9 スパムフィルタの最先端 ここ5年間でオーバーフィッティングの問題を回避するため、 確率的勾配法が使われ始めた 確率的勾配法・・・自乗平均誤差を最小にするもっとも常套的 な等化アルゴリズム 自乗平均誤差・・・測定値の誤差の2乗の和の平均値 単語間の相関を考慮することができるというメリットがある

10 4.1.2 k 近傍法でスパムフィルタを構築 できるか K 近傍の場合も線形回帰と同様、特徴を選ぶ必要がある 次元の呪い・・・(数学的)空間の次元が増えるのに対応して 問題の算法が指数関数的に大きく(英語版)なることを表して いる。 →k 近傍法を適用する際の障害

11 数字画像の認識 図 4-2 に示した数字画像を認識するアルゴリズムを作成 1.1つ1つの数字をピックアップし画素数を計算 2.画素同士の距離を計算し、平方根や平方和として差分を計算 3. K 近傍法を用いる

12 K 近傍法のアルゴリズム 1.パラメーター(基準)の値を決定 2.問い合わせデータを学習用(あらかじめある)データとの 比較 3.比較しデータを類似度に基づき並べ替え 4.類似するデータを選択し、どのカテゴリに当てはまるかを 推測

13 4.2 単純ベイズ ・ 線形回帰も K 近傍法もスパムフィルタに向いていない → 単純ベイズ

14 4.2.1 ベイズの法則 確率の基本性質 ・ p(x) : 事象 x が起こる確率 ( 事前確率 ) ・ p(x|y) : 事象 y が起こった前提で事象 B が起こる確率 x( 条件付き確率 ) ・両イベントが起こる確率を p(x, y) とすると ・ p(x,y) = p(y|x)p(x) = p(x|y)p(y) という関係が導ける ・・・ ① そして ① の式を p(y|x) について整理するとベイズの法則が導かれる。 ・ p(y|x) = p(x|y)p(y) / p(x) ・・・ [ ベイズの法則 ]

15 4.2.2 一つの単語に対するスパムフィル タ ・ある単語が含まれているメールがスパムである条件付き確率 ・ p( スパム | 単語 ) = (p( 単語 | スパム )p( スパム )) / p( 単語 ) ・ p108 で meeting という単語が含まれたら 9% の確率でスパムメー ルであると結果が出たが、果たして本当だろうか? ※偏ったデータを使っているとオーバーフィッティングが起きる ため、信頼しすぎることは禁物

16 4.2.3 複数の単語に対するスパムフィル タ

17 4.3 ラプラススム-ジング

18

19

20 仮定の妥当性 θ → ある単語のスパムメールに出現する確率 α > 0, β > 0 → この分布が 0 と 1 の値を取る確率は 0 となる → 決して出現しない単語や必ず出現する単語を考える のは難しい α, β が大きい → 分布の形は中央に集中し、ほとんどの単語がスパム メールにもそれ以外のメールにも等しく出現する という事前確率 を仮定している → この仮定も正しくない → 妥協点として α, β は正で小さい値とするのがよい これにより極端な値を取ることを防げる

21 4.4 単純ベイズと k 近傍法の比較

22 ウェブスクレイピングとは Web サイトから Web ページの HTML データを収集して、特定の データを抽出、整形し直すことである。 Web スクレイピングを行うことで、 Web ページを対象として、 あたかも Web API を利用しているかのようにデータを効率的に 取得・収集することが可能になる。

23 API とは あるコンピュータプログラム(ソフトウェア)の機能や管理す るデータなどを、外部の他のプログラムから呼び出して利用す るための手順やデータ形式などを定めた規約のこと。 API に従って機能を呼び出す短いプログラムを記述するだけで、 自分でプログラミングすることなくその機能を利用したソフト ウェアを作成することができる。

24 データ収集の一つが API を使うこと。 API を使ってウェブサイトから標準的な形式のデータを簡単にダ ウンロードできる。 API を利用するときに、取得できるデータはさまざま。 Yahoo! デベロッパーネットワークを利用して、多くの一般的な サイトの API とデータをやりとりすることができる。

25 API が利用できないウェブサイトのデータを利用したいとき →Firefox の拡張機能である Firebug を利用する Firebug を使って「要素を調査」すると HTML の情報を取得でき る。 HTML ドキュメントすべてにアクセスでき、これを利用して編集 することができる。


Download ppt "第4章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山. 4.1 思考実験:スパムフィルタの例から 学ぶ スパムフィルタ・・・メールソフトや Web メールサービスの機 能の一つで、受信したメールの中から迷惑な広告などのメール (スパムメール、迷惑メール)を検出して、削除したり専用の."

Similar presentations


Ads by Google