第4章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山. 4.1 思考実験:スパムフィルタの例から 学ぶ スパムフィルタ・・・メールソフトや Web メールサービスの機 能の一つで、受信したメールの中から迷惑な広告などのメール (スパムメール、迷惑メール)を検出して、削除したり専用の.

Slides:



Advertisements
Similar presentations
はじめてのパターン認識 第1章 第4グループ 平田翔暉. パターン認識 パターン認識 o 観測されたパターンを、あらかじめ定められ たクラスに分類すること クラス o 硬貨: 1 円玉、 5 円玉、 10 円玉、 50 円玉、 100 円玉、 500 円玉 o アルファベット: 26 種類 o 数字:
Advertisements

1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
RSS,Atom の動向 理工学部 情報学科 3 年 片山友輝. 発表内容 ・ RSS,Atom おさらい ・なぜ Atom ができたか? ・ Atom の特徴 ・ Atom の動向 ・ Atom フィードの記述方法 ・ Atom 対応ツール ・参考文献・資料.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
Pattern Recognition and Machine Learning 1.5 決定理論
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
神奈川大学大学院工学研究科 電気電子情報工学専攻
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
ランダムウォークに関するいくつかの話題 ・ランダムウォークの破産問題 ・ランダムウォークの鏡像原理 1 小暮研究会Ⅰ 11月12日
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
第6章 連立方程式モデル ー 計量経済学 ー.
決定木とランダムフォレスト 和田 俊和.
第11回   ディジタル画像(2) ディジタル画像処理(2)
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
ICML2006勉強会 2006年7月29日 局所フィッシャー判別分析 東京工業大学 計算工学専攻 杉山 将.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
部分的最小二乗回帰 Partial Least Squares Regression PLS
確率と統計2009 第12日目(A).
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
第16章 動的計画法 アルゴリズムイントロダクション.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
構造的類似性を持つ半構造化文書における頻度分析
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
保守請負時を対象とした 労力見積のためのメトリクスの提案
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
ポッツスピン型隠れ変数による画像領域分割
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
実験計画法 Design of Experiments (DoE)
回帰分析入門 経済データ解析 2011年度.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
2012年度 情報数理 ~ 授業紹介 ~.
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

第4章輪講 4,1: 堀川 4,2 伊東 4.3,4.4 今野 4.5~ 仲山

4.1 思考実験:スパムフィルタの例から 学ぶ スパムフィルタ・・・メールソフトや Web メールサービスの機 能の一つで、受信したメールの中から迷惑な広告などのメール (スパムメール、迷惑メール)を検出して、削除したり専用の 保管場所に移したりすること。また、そのような機能を提供す るソフトウェア。 スパム・・・受信者の意向を無視して、無差別かつ大量に一括 して送信される、電子メールを主としたメッセージのこと

スパムかどうかの判断 バイアグラという言葉を含む 件名の長さ 感嘆符やその他の句読点の過度な使用

続き 確率モデル・・・の各々の値に対して、その起こりやすさを記 述するもの K 近傍法・・・特徴空間における最も近い訓練例に基づいた統 計分類の手法であり、パターン認識でよく使われる。最近傍探 索問題の一つ。 k 近傍法は、インスタンスに基づく学習の一種 であり、怠惰学習 (lazy learning) の一種である。その関数は局所 的な近似に過ぎず、全ての計算は分類時まで後回しにされる。 また、回帰分析にも使われる。

4.1.1 なぜ線形回帰でスパムフィルタを 構築できないのか 線形回帰・・・統計学における回帰分析の一種である。 線形回帰モデルでスパムフィルムを作る → 何が必要か? データセット |-電子メールのメッセージに対応しているもの

メールに含まれる単語を特徴として捉え る 例 ー 単語「バイアグラ」 その単語がでてきたかをチェックし、その回数をデータセット に記録 出てきた頻度や言葉の強さで分類し、スパムかどうかを判断 コンピュータの世界では、2進数で 0 か 1 を入力すれば、その単 語がでてきた or 出てこないが判断できる

線形回帰とスパムフィルタ 線形回帰を行うには、トレーニングデータとして判定結果がラ ベル付けされたデータセットが必要 準備の方法 人が評価者となり、自らスパムかをラベル付けする ー時間がかかるが妥当

線形回帰は適しているか? 問題に対して適切なモデルを使用しなくてはならない。 → 各メールの文字数が多い為、その一つ一つの行に解析はうまくいか ない。そしてデータが巨大すぎてデータを保存できない。 ・頻度の高い単語に限定して解析用に設定することもできる → しかし、全然足りない 結論 線形回帰は2つの値の判定結果を予測するためには適切なモデルで はないという問題が残る

スパムフィルタの最先端 ここ5年間でオーバーフィッティングの問題を回避するため、 確率的勾配法が使われ始めた 確率的勾配法・・・自乗平均誤差を最小にするもっとも常套的 な等化アルゴリズム 自乗平均誤差・・・測定値の誤差の2乗の和の平均値 単語間の相関を考慮することができるというメリットがある

4.1.2 k 近傍法でスパムフィルタを構築 できるか K 近傍の場合も線形回帰と同様、特徴を選ぶ必要がある 次元の呪い・・・(数学的)空間の次元が増えるのに対応して 問題の算法が指数関数的に大きく(英語版)なることを表して いる。 →k 近傍法を適用する際の障害

数字画像の認識 図 4-2 に示した数字画像を認識するアルゴリズムを作成 1.1つ1つの数字をピックアップし画素数を計算 2.画素同士の距離を計算し、平方根や平方和として差分を計算 3. K 近傍法を用いる

K 近傍法のアルゴリズム 1.パラメーター(基準)の値を決定 2.問い合わせデータを学習用(あらかじめある)データとの 比較 3.比較しデータを類似度に基づき並べ替え 4.類似するデータを選択し、どのカテゴリに当てはまるかを 推測

4.2 単純ベイズ ・ 線形回帰も K 近傍法もスパムフィルタに向いていない → 単純ベイズ

4.2.1 ベイズの法則 確率の基本性質 ・ p(x) : 事象 x が起こる確率 ( 事前確率 ) ・ p(x|y) : 事象 y が起こった前提で事象 B が起こる確率 x( 条件付き確率 ) ・両イベントが起こる確率を p(x, y) とすると ・ p(x,y) = p(y|x)p(x) = p(x|y)p(y) という関係が導ける ・・・ ① そして ① の式を p(y|x) について整理するとベイズの法則が導かれる。 ・ p(y|x) = p(x|y)p(y) / p(x) ・・・ [ ベイズの法則 ]

4.2.2 一つの単語に対するスパムフィル タ ・ある単語が含まれているメールがスパムである条件付き確率 ・ p( スパム | 単語 ) = (p( 単語 | スパム )p( スパム )) / p( 単語 ) ・ p108 で meeting という単語が含まれたら 9% の確率でスパムメー ルであると結果が出たが、果たして本当だろうか? ※偏ったデータを使っているとオーバーフィッティングが起きる ため、信頼しすぎることは禁物

4.2.3 複数の単語に対するスパムフィル タ

4.3 ラプラススム-ジング

仮定の妥当性 θ → ある単語のスパムメールに出現する確率 α > 0, β > 0 → この分布が 0 と 1 の値を取る確率は 0 となる → 決して出現しない単語や必ず出現する単語を考える のは難しい α, β が大きい → 分布の形は中央に集中し、ほとんどの単語がスパム メールにもそれ以外のメールにも等しく出現する という事前確率 を仮定している → この仮定も正しくない → 妥協点として α, β は正で小さい値とするのがよい これにより極端な値を取ることを防げる

4.4 単純ベイズと k 近傍法の比較

ウェブスクレイピングとは Web サイトから Web ページの HTML データを収集して、特定の データを抽出、整形し直すことである。 Web スクレイピングを行うことで、 Web ページを対象として、 あたかも Web API を利用しているかのようにデータを効率的に 取得・収集することが可能になる。

API とは あるコンピュータプログラム(ソフトウェア)の機能や管理す るデータなどを、外部の他のプログラムから呼び出して利用す るための手順やデータ形式などを定めた規約のこと。 API に従って機能を呼び出す短いプログラムを記述するだけで、 自分でプログラミングすることなくその機能を利用したソフト ウェアを作成することができる。

データ収集の一つが API を使うこと。 API を使ってウェブサイトから標準的な形式のデータを簡単にダ ウンロードできる。 API を利用するときに、取得できるデータはさまざま。 Yahoo! デベロッパーネットワークを利用して、多くの一般的な サイトの API とデータをやりとりすることができる。

API が利用できないウェブサイトのデータを利用したいとき →Firefox の拡張機能である Firebug を利用する Firebug を使って「要素を調査」すると HTML の情報を取得でき る。 HTML ドキュメントすべてにアクセスでき、これを利用して編集 することができる。