情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生

Slides:



Advertisements
Similar presentations
Web アプリケーション開発 ~図書館管理システム~ 北海道情報大学 情報メディア学 部 情報メディア学科 新井山ゼミ 高橋 隼.
Advertisements

1 なんとなく Ajax ~新しくて古い XMLHttp 川合孝典 (Kansai.pm) 2005/5/22.
情報システムプロジェクト I 第2回 FileScanner.java ~ファイル入力、文字切り出し機能を持つ プログラムの作成~
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
図書系のための アプリケーション開発講習会 2008年7月31日
シーケンス図の生成のための実行履歴圧縮手法
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
人工知能特論 8.教師あり学習と教師なし学習
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
言語体系とコンピュータ 第5回.
統計学 10/25(木) 鈴木智也.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
SPA 報告
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
ことばとコンピュータ 2007年度1学期 第3回.
このPowerPointファイルは、 情報処理演習用に作った フィクションです。
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
4Y-4 印象に残りやすい日本語パスワードの合成法
コンピュータリテラシ (1) 学習目標(到達目標) ・計算機実習室を正しく利用できる。 ・文書作成ソフトの利用方法を学び、報告作成が
DB マルチメディア・コンテンツの組織化機構 マルチメディア・コンテンツ ①組織化機構 解体・整理の仕事 現実世界に流通するマルチ
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
共同ローカリゼーション フレームワーク 井上 謙次.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
基礎プログラミング演習 第1回.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
データ構造とアルゴリズム論 第3章 ファイルを用いたデータ入出力2
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
第14章 モデルの結合 修士2年 山川佳洋.
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
予測に用いる数学 2004/05/07 ide.
情報学類 2年 吉田 光男 ブラウザで使う RSS Reader の実装 情報学類 2年 吉田 光男
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
テキストマイニング, データマイニングと 社会活動のトレース
知能情報システム特論 Introduction
文書分類モデルの統計的性質に関する一考察
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
Spatial Linker - 空間コンテンツ融合の研究 -
東京工科大学 コンピュータサイエンス学部 亀田弘之
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
プログラミング言語論 第十一回 理工学部 情報システム工学科 新田直也.
構造的類似性を持つ半構造化文書における頻度分析
第14回放送授業.
自然言語処理2015 Natural Language Processing 2015
計算の理論 I -講義について+αー 月曜3校時 大月美佳 平成31年5月18日 佐賀大学理工学部知能情報システム学科.
Webページタイプによるクラスタ リングを用いた検索支援システム
オブジェクト指向言語論 第九回 知能情報学部 新田直也.
形態素解析と構文解析 金子邦彦.
計算の理論 I -講義について+αー 火曜3校時 大月美佳 平成31年8月23日 佐賀大学理工学部知能情報システム学科.
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
1.2 言語処理の諸観点 (1)言語処理の利用分野
オブジェクト指向言語論 第九回 知能情報学部 新田直也.
Presentation transcript:

情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生 自然言語処理によるテキスト分類 情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生 2005/12/20

今日の流れ 今回の演習の目的 自然言語処理とは? テキスト分類のよさ ベイズの定理 ナイーブベイズ サービスとして公開(デモ) 2005/12/20

今回の演習の目的 自然言語に関する取り組み方を学ぶ サービスとして公開 自然言語処理ってなに? なにから手をつければいい? 発表だけしてもね… 2005/12/20

自然言語処理とは? 自然言語 = 自然発生的に生まれた言語 基礎技術 応用技術 人工言語 = 人為的に作られた言語 形態素解析 構文解析 かな漢字変換 検索エンジン 2005/12/20

テキスト分類 最近の流行 文章を分野に分ける Web 2.0 Web 1.0 ニュースなど 人が頑張ってタグ付けしたのを共有 データを簡単に取り出せるように(Web API) XML を API に置き換えるだけで今風 Web 1.0 これまでのウェブ 文章を分野に分ける ニュースなど 2005/12/20

分類することのよさ 追い風?首相も「真央が見たい」(デイリースポーツ 2005年12月20日) エンターテイメント(entertainment) スポーツ(sports) トリノ五輪聖火リレー、鉄道トンネル反対派が妨害 (読売新聞 2005年12月19日) 社会(national) 国際(world) 2005/12/20

テキスト分類 代表的なアルゴリズム 決定木 ナイーブベイズ k-最近隣法 最大エントロピー法 ブースティング サーポートベクタマシン 2005/12/20

ベイズの定理 P(A) P(A|B) P(B|A) ベイズの定理 事象Aが発生する確率 P(B|A) = P(A|B)P(B) / P(A) 2005/12/20

ナイーブベイズ(1/4) ベイズの定理より ベイズの定理 + 仮定 トークン(単語)が互いに独立である 例: アメリカはテロと戦います 2005/12/20

ナイーブベイズ(2/4) 仮定を付加する 実装する上での留意点 あるクラスで出現しなかったトークン 出現を推測 2005/12/20

ナイーブベイズ(2/4) 文書x P(x|c) クラスc 今日 x1 情報 x2 特別 x3 ○○ xn P(x2|c) P(x1|c) P(xn|c) 2005/12/20

ナイーブベイズ(4/4) 今日は、情報特別演習の発表会です。 クラスA クラスB クラスC クラスD 今日 10% 50% 20% 情報 15% 60% 5% 特別 40% 演習 25% 発表会 2005/12/20

確率処理以外 文書ベクトルの生成 トークン(単語)の切り出し 例文 形態素解析 2-gram(n-gram) 同種文字列の切り出し 今日は、情報特別演習の発表会です。 iPod nano は、クリエイティブである。 2005/12/20

実装 環境 Perl MySQL CEEK.JP NEWS 素晴らしいプログラミング言語 トークンの管理 テストデータ http://news.ceek.jp/ 2005/12/20

テスト結果 学習:各2000記事 / 判定:各500記事 2005/12/20

テスト結果 2005/12/20

サービスとして公開 Text Classification with CEEK.JP NEWS Hatena Bookmark News http://labs.ceek.jp/classify/ Hatena Bookmark News はてなブックマークをニュースのように分類 http://labs.ceek.jp/hbnews/ 2005/12/20