第４章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山. 4.1 思考実験：スパムフィルタの例から学ぶスパムフィルタ・・・メールソフトや Web メールサービスの機能の一つで、受信したメールの中から迷惑な広告などのメール（スパムメール、迷惑メール）を検出して、削除したり専用の.

第４章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山

4.1 思考実験：スパムフィルタの例から学ぶスパムフィルタ・・・メールソフトや Web メールサービスの機能の一つで、受信したメールの中から迷惑な広告などのメール（スパムメール、迷惑メール）を検出して、削除したり専用の保管場所に移したりすること。また、そのような機能を提供するソフトウェア。スパム・・・受信者の意向を無視して、無差別かつ大量に一括して送信される、電子メールを主としたメッセージのこと

スパムかどうかの判断バイアグラという言葉を含む件名の長さ感嘆符やその他の句読点の過度な使用

続き確率モデル・・・の各々の値に対して、その起こりやすさを記述するもの K 近傍法・・・特徴空間における最も近い訓練例に基づいた統計分類の手法であり、パターン認識でよく使われる。最近傍探索問題の一つ。 k 近傍法は、インスタンスに基づく学習の一種であり、怠惰学習 (lazy learning) の一種である。その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。

4.1.1 なぜ線形回帰でスパムフィルタを構築できないのか線形回帰・・・統計学における回帰分析の一種である。線形回帰モデルでスパムフィルムを作る → 何が必要か？データセット｜－電子メールのメッセージに対応しているもの

メールに含まれる単語を特徴として捉える例ー単語「バイアグラ」その単語がでてきたかをチェックし、その回数をデータセットに記録出てきた頻度や言葉の強さで分類し、スパムかどうかを判断コンピュータの世界では、２進数で 0 か 1 を入力すれば、その単語がでてきた or 出てこないが判断できる

線形回帰とスパムフィルタ線形回帰を行うには、トレーニングデータとして判定結果がラベル付けされたデータセットが必要準備の方法人が評価者となり、自らスパムかをラベル付けするー時間がかかるが妥当

線形回帰は適しているか？問題に対して適切なモデルを使用しなくてはならない。 → 各メールの文字数が多い為、その一つ一つの行に解析はうまくいかない。そしてデータが巨大すぎてデータを保存できない。・頻度の高い単語に限定して解析用に設定することもできる → しかし、全然足りない結論線形回帰は２つの値の判定結果を予測するためには適切なモデルではないという問題が残る

スパムフィルタの最先端ここ５年間でオーバーフィッティングの問題を回避するため、確率的勾配法が使われ始めた確率的勾配法・・・自乗平均誤差を最小にするもっとも常套的な等化アルゴリズム自乗平均誤差・・・測定値の誤差の２乗の和の平均値単語間の相関を考慮することができるというメリットがある

4.1.2 k 近傍法でスパムフィルタを構築できるか K 近傍の場合も線形回帰と同様、特徴を選ぶ必要がある次元の呪い・・・（数学的）空間の次元が増えるのに対応して問題の算法が指数関数的に大きく（英語版）なることを表している。 →k 近傍法を適用する際の障害

数字画像の認識図 4-2 に示した数字画像を認識するアルゴリズムを作成１．１つ１つの数字をピックアップし画素数を計算２．画素同士の距離を計算し、平方根や平方和として差分を計算３． K 近傍法を用いる

K 近傍法のアルゴリズム１．パラメーター（基準）の値を決定２．問い合わせデータを学習用（あらかじめある）データとの比較３．比較しデータを類似度に基づき並べ替え４．類似するデータを選択し、どのカテゴリに当てはまるかを推測

4.2 単純ベイズ・線形回帰も K 近傍法もスパムフィルタに向いていない → 単純ベイズ

4.2.2 一つの単語に対するスパムフィルタ・ある単語が含まれているメールがスパムである条件付き確率・ p( スパム | 単語 ) = (p( 単語 | スパム )p( スパム )) / p( 単語 ) ・ p108 で meeting という単語が含まれたら 9% の確率でスパムメールであると結果が出たが、果たして本当だろうか？ ※偏ったデータを使っているとオーバーフィッティングが起きるため、信頼しすぎることは禁物

4.2.3 複数の単語に対するスパムフィルタ

4.3 ラプラススム－ジング

仮定の妥当性 θ → ある単語のスパムメールに出現する確率 α > 0, β > 0 → この分布が 0 と 1 の値を取る確率は 0 となる → 決して出現しない単語や必ず出現する単語を考えるのは難しい α, β が大きい → 分布の形は中央に集中し、ほとんどの単語がスパムメールにもそれ以外のメールにも等しく出現するという事前確率を仮定している → この仮定も正しくない → 妥協点として α, β は正で小さい値とするのがよいこれにより極端な値を取ることを防げる

4.4 単純ベイズと k 近傍法の比較

ウェブスクレイピングとは Web サイトから Web ページの HTML データを収集して、特定のデータを抽出、整形し直すことである。 Web スクレイピングを行うことで、 Web ページを対象として、あたかも Web API を利用しているかのようにデータを効率的に取得・収集することが可能になる。

API とはあるコンピュータプログラム（ソフトウェア）の機能や管理するデータなどを、外部の他のプログラムから呼び出して利用するための手順やデータ形式などを定めた規約のこと。 API に従って機能を呼び出す短いプログラムを記述するだけで、自分でプログラミングすることなくその機能を利用したソフトウェアを作成することができる。

データ収集の一つが API を使うこと。 API を使ってウェブサイトから標準的な形式のデータを簡単にダウンロードできる。 API を利用するときに、取得できるデータはさまざま。 Yahoo! デベロッパーネットワークを利用して、多くの一般的なサイトの API とデータをやりとりすることができる。

API が利用できないウェブサイトのデータを利用したいとき →Firefox の拡張機能である Firebug を利用する Firebug を使って「要素を調査」すると HTML の情報を取得できる。 HTML ドキュメントすべてにアクセスでき、これを利用して編集することができる。

Similar presentations

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Similar presentations

Similar presentations

About project

フィードバック