東京工科大学 コンピュータサイエンス学部 亀田弘之

Slides:



Advertisements
Similar presentations
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
ソースプログラム・アーカイブ・サイト -関数依存グラフと検索への応用-
平成22年11月15日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
REST型Webサービスによる 楽曲検索システムの開発
コーパス言語学 第1回.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
10 Microsoft Word(1) 10.1 Microsoft Word v.Xの概要 起動 終了
HTTPとHTML 技術領域専攻 3回 中川 晃.
東京工科大学 コンピュータサイエンス学部 亀田弘之
IIR輪講復習 #1 Boolean retrieval
形式言語とオートマトン Formal Languages and Automata 第4日目
思考支援ツールを用いた 情報処理技術知識の学習方式
FlexとBison+アルファ -実習編-
東京工科大学コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
形式言語とオートマトン Formal Languages and Automata 第4日目
東京工科大学 コンピュータサイエンス学部 亀田弘之
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
自然言語処理2016 -平成28年11月7日・14日(No.6&7)-
平成25年3月27日(水) 東京工科大学 コンピュータ蓑寝椅子学部 在学生ガイダンス
自然言語処理2011(3回目) Natural Language Processing 2011
知識情報演習Ⅲ(後半第3回) 辻 慶太
数量分析 第2回 データ解析技法とソフトウェア
東京工科大学 コンピュータサイエンス学部 亀田弘之
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
東京工科大学 コンピュータサイエンス学部 亀田弘之
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
自然言語処理2010(3回目) Natural Language Processing 2010
東京工科大学 コンピュータサイエンス学部 亀田弘之
平成20年10月5日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
知識情報演習Ⅲ(後半第3回) 辻 慶太
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
Webページタイプによるクラスタ リングを用いた検索支援システム
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理2016 Natural Language Processing 2016
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
Presentation transcript:

東京工科大学 コンピュータサイエンス学部 亀田弘之 自然言語処理2010 東京工科大学 コンピュータサイエンス学部 亀田弘之

NLP2010 Tokyo University of Technology コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 定義:まとまりのある文書データベースのこと。 シェイクスピアコーパス 夏目漱石コーパス etc. 現在では、大規模なテキストデータベースのことをコーパスと呼ぶこともある。なお、近年は多くのものにタグが付けられている。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology コーパスの例 Brown Corpus(米国の書籍・新聞・雑誌) LOB Corpus(英国の書籍・新聞・雑誌) British National Corpus(BNC) (英国英語、多様なジャンル) Bank of English Penn Treebank(Wall Street Journal) EDRコーパス(日本語) 日本語話し言葉コーパス 日英新聞記事対応付けコーパス など NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 言語資料関係のサイト LDC(www.ldc.upenn.edu) ELRA(www.elra.info) GSK(言語資源協会, www.gsk.or.jp) RSC(音声資源コンソーシアム, research.nii.ac.jp/src/) 言語情報処理ポータル: nlp.kuee.kyoto-u.ac.jp/NLP_Portal/ NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 情報検索 Information Retrieval(IR)はWebの発展に伴い、ますますその重要性を増している。多くのWebは自然言語で書かれており、また、自然言語による検索は多くの人にとって便利である。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 機能語と内容語 自然言語は人間相互の意思疎通のための道具であり、それをコンピュータにより処理することは社会的に意義のあることである。 問:どれが機能語でどれが内容語か? NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 検索の方式 ディレクトリ方式 キーワード方式 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 議論(検索方式について) 検索方式として何があり得るか? 画像をキーとする検索 画像を検索対象とする検索 画像の他に音楽データ・楽譜などもあり得る。 もっと他には? まだありますよね!考えてみてください。 さらに“それ”と言語との関係も考えてみてください。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 語の重要度の計算法 tf・idf法 NLP2010 Tokyo University of Technology

tf・idf法の考え方(1) 文書 Doc1 言語 コンピュータ 問題 Doc2 コンピュータ 問題 Doc3 言語 問題 情報 Doc4 言語  コンピュータ  問題 Doc2 コンピュータ  問題 Doc3 言語  問題  情報 Doc4 問題  情報

tf・idf法の考え方(2) キーワード 文書 言語 Doc1 Doc3 コンピュータ Doc1 Doc2 問題 情報 Doc2 Doc3 Doc4

tf・idf法の考え方(3) TF Doc1 DOc2 Doc3 Doc4 IDF 言語 2 1 コンピュータ 問題 3 情報 1.3

tf・idf法の考え方(4) TF・IDF Doc1 Doc2 Doc3 Doc4 言語 4 2 コンピュータ 問題 3 1 情報 1.3

NLP2010 Tokyo University of Technology 検索モデル ブーリアンモデル(Boolean model) ベクトル空間モデル NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology ブーリアンモデル 検索式1= コンピュータ and マック 検索式2= not マック and ハンバーガ NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology ベクトル空間モデル D1, D2, …, Dn: 「n個の文書」 これらの文書全体に「m個の索引語」 n×mの行列で表現できる! NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology コサイン尺度 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 例: 教科書p.143参照 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 検索結果の評価式 適合度(精度, Precision) 再現率(Recall) PとRの調和平均Fをとる。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 検索評価の練習 c b a d NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 総合演習1 次の文章を形態素解析しなさい。 統語構造を解析しなさい。 意味を理解し、その内容を表現することのできるデータ構造(知識表現)を考えなさい。 NLP2010 Tokyo University of Technology

前大統領派と治安部隊が銃撃戦=きょう挙国一致政権発表―チュニジア 時事通信 1月17日(月)7時10分配信 【カイロ時事】ベンアリ政権崩壊後の混乱が続くチュニジアの首都チュニス郊外の大統領府周辺で16日夜、前大統領派の部隊と治安部隊による激しい銃撃戦が展開された。一方、メバザア暫定大統領に組閣を命じられたガンヌーシ首相は「あす(17日)チュニジア史の新たなページを開くことになる新政権を発表する」との声明を出した。 AFP通信によれば、大統領警護部隊が籠城していた大統領府に軍部隊が攻撃を仕掛け、銃撃戦に発展した。治安部隊はまた、首都中心部の内務省付近の建物に銃を持って隠れていた2人を射殺。野党本部近くでも銃撃戦が発生した。 (Yahooより引用) NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology おわりに 自然言語処理の研究は盛んに行われていますが、まだまだ研究すべきものが残っています。 みなさんも積極的に自然言語処理の研究にチャレンジしてください。 少なくとも、自然言語が人間社会で果たしている役割を考えれば、新しいアプリケーションのアイデアも湧くと思います。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 定期試験について 過去問を良く勉強してください。 文法の作成とそれに基づくPrologプログラムの書き方を勉強してください。 新しく画期的な自然言語処理システムを考案してください。 基本的な用語の説明ができるようになってください。 NLP2010 Tokyo University of Technology

NLP2010 Tokyo University of Technology 基本的用語とは 言語 定義と分類:自然言語,音声言語,視覚言語 自然言語処理 形態素解析・統語解析・意味解析など 木構造 意味 意味表現,知識表現 コーパス など NLP2010 Tokyo University of Technology