Session 25: Statistical Methods (一つのみ) 【VLDB 2011勉強会】 Session 25: Statistical Methods (一つのみ) 担当: 石川佳治(名大)
Incrementally Maintaining Classification Using an RDBMS M. Levent Koc and Christopher Ré (U. Wisconsin- Madison) アイデア 分類(classification)処理をRDBMSの内部に組み込む モデルベースのビューを提供 更新への対応 データ(タプル)の追加:追加データを新たに分類しビューに追加 訓練例の追加(分類基準が変化) :データ全体の再分類はオーバヘ ッド大 ⇒ インクリメンタルに処理 プロトタイプシステム:Hazy-Classify http://research.cs.wisc.edu/hazy/hazy-classify/ Session 25: Statistical Methods 担当:石川(名大)
分類ビュー 分類結果を含めRDBのテーブル形式で表現 CREATE CLASSIFICATION VIEW Labeled_Papers KEY id ENTITIES FROM Papers KEY id LABELS FROM Paper_Area Label l EXAMPLES FROM Example_Papers KEY id LABEL l FEATURE FUNCTION tf_bag_of_words ・分類アルゴリズムを 指定可能(例:USING SVM) ・適切な分類アルゴリズムを 自動選択することも可能 (交差検定がシステム機能 に含まれる) Papers Example_Papers id title … 1 Introducing Database Systems 2 Advanced Algorithms id label 1 Database 3 Information Retrieval Paper Area label Database Information Retrieval Labeled_Papers 分類ビューを 自動的に 導出し, 維持管理 id label 1 database 2 algorithm Session 25: Statistical Methods 担当:石川(名大)
Session 25: Statistical Methods 担当:石川(名大) インクリメンタルな更新処理 線形分類器の場合(他の場合も論文ではカバー) パラメータ (w, b) で分離平面を記述 p1 p3 p2 p4 p5 (2, 1) (1, 2) (5, 1) (5, 4) (3, 4) w = (-1, 1) b = 0.5 Database Papers Non-Database Papers 訓練例の追加により識別平面 が変化 DB全体の最分類はコストが高い アプローチ ある時点 (s) における各オブジェ クトと識別平面の距離 (ε) を記録 再学習の結果,識別平面が変化 する度にどのオブジェクトを再分類 するかを決定 適切な時点で s, ε を更新:オンラ インアルゴリズムで予測 w (s) Database Papers Non-Database Papers w (i+1) p1 p2 p3 p5 p4 Session 25: Statistical Methods 担当:石川(名大)