Presentation is loading. Please wait.

Presentation is loading. Please wait.

情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生

Similar presentations


Presentation on theme: "情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生"— Presentation transcript:

1 情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
自然言語処理によるテキスト分類 情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生 2005/12/20

2 今日の流れ 今回の演習の目的 自然言語処理とは? テキスト分類のよさ ベイズの定理 ナイーブベイズ サービスとして公開(デモ)
2005/12/20

3 今回の演習の目的 自然言語に関する取り組み方を学ぶ サービスとして公開 自然言語処理ってなに? なにから手をつければいい?
発表だけしてもね… 2005/12/20

4 自然言語処理とは? 自然言語 = 自然発生的に生まれた言語 基礎技術 応用技術 人工言語 = 人為的に作られた言語 形態素解析 構文解析
かな漢字変換 検索エンジン 2005/12/20

5 テキスト分類 最近の流行 文章を分野に分ける Web 2.0 Web 1.0 ニュースなど 人が頑張ってタグ付けしたのを共有
データを簡単に取り出せるように(Web API) XML を API に置き換えるだけで今風 Web 1.0 これまでのウェブ 文章を分野に分ける ニュースなど 2005/12/20

6 分類することのよさ 追い風?首相も「真央が見たい」(デイリースポーツ 2005年12月20日)
エンターテイメント(entertainment) スポーツ(sports) トリノ五輪聖火リレー、鉄道トンネル反対派が妨害 (読売新聞 2005年12月19日) 社会(national) 国際(world) 2005/12/20

7 テキスト分類 代表的なアルゴリズム 決定木 ナイーブベイズ k-最近隣法 最大エントロピー法 ブースティング サーポートベクタマシン
2005/12/20

8 ベイズの定理 P(A) P(A|B) P(B|A) ベイズの定理 事象Aが発生する確率
P(B|A) = P(A|B)P(B) / P(A) 2005/12/20

9 ナイーブベイズ(1/4) ベイズの定理より ベイズの定理 + 仮定 トークン(単語)が互いに独立である 例: アメリカはテロと戦います
2005/12/20

10 ナイーブベイズ(2/4) 仮定を付加する 実装する上での留意点 あるクラスで出現しなかったトークン 出現を推測 2005/12/20

11 ナイーブベイズ(2/4) 文書x P(x|c) クラスc 今日 x1 情報 x2 特別 x3 ○○ xn P(x2|c) P(x1|c)
P(xn|c) 2005/12/20

12 ナイーブベイズ(4/4) 今日は、情報特別演習の発表会です。 クラスA クラスB クラスC クラスD 今日 10% 50% 20% 情報
15% 60% 5% 特別 40% 演習 25% 発表会 2005/12/20

13 確率処理以外 文書ベクトルの生成 トークン(単語)の切り出し 例文 形態素解析 2-gram(n-gram) 同種文字列の切り出し
今日は、情報特別演習の発表会です。 iPod nano は、クリエイティブである。 2005/12/20

14 実装 環境 Perl MySQL CEEK.JP NEWS 素晴らしいプログラミング言語 トークンの管理 テストデータ
2005/12/20

15 テスト結果 学習:各2000記事 / 判定:各500記事 2005/12/20

16 テスト結果 2005/12/20

17 サービスとして公開 Text Classification with CEEK.JP NEWS Hatena Bookmark News
Hatena Bookmark News はてなブックマークをニュースのように分類 2005/12/20


Download ppt "情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生"

Similar presentations


Ads by Google