人工知能概論 第12回 言語と論理(1) 自然言語処理

Slides:



Advertisements
Similar presentations
Information このスライドは「イラ ストで学ぶ人工知能概 論」を講義で活用した り,勉強会で利用した りするために提供され ているスライドです.イラ ストで学ぶ人工知能概 論.
Advertisements

自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
形態素周辺確率を用いた 分かち書きの一般化とその応用
Twitterの発言に基づくウェブページ推薦システム
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
言語体系とコンピュータ 第6回.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
東京工科大学 コンピュータサイエンス学部 亀田弘之
ことばとコンピュータ 2007年度1学期 第3回.
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
人工知能概論 第6章 確率とベイズ理論の基礎.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
人工知能概論 第14回 言語と論理(3) 証明と質問応答
東京工科大学 コンピュータサイエンス学部 亀田弘之
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
東京工科大学 コンピュータサイエンス学部 亀田弘之
人工知能概論 第2回 探索(1) 状態空間モデル,基本的な探索
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
知識情報演習Ⅲ(後半第3回) 辻 慶太
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
知識情報演習Ⅲ(後半第3回) 辻 慶太
第5章 計算とプログラム 本章で説明すること ・計算の概観と記述法 ・代表的な計算モデル ・プログラムとプログラム言語.
文書分類モデルの統計的性質に関する一考察
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
構造的類似性を持つ半構造化文書における頻度分析
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
立命館大学 情報理工学部 知能情報学科 谷口忠大
Presentation transcript:

人工知能概論 第12回 言語と論理(1) 自然言語処理 立命館大学 情報理工学部 知能情報学科 谷口忠大

Information このスライドは「イラストで学ぶ人工知能概論」を講義で活用したり,勉強会で利用したりするために提供されているスライドです.

STORY 言語と論理(1)  ホイールダック2号は迷路のゴールまで行く自信を深めた.もう,ゴールへの経路を探索するやり方だって,敵のかわし方だって覚えた.場所がわからなくなったときには,位置推定により自分がどこにいるかを調べることだってできる.また,事前に学習することで,宝箱やゴールも見分けられるようにもなった.これでゴールにたどり着けるだろう.  しかし,ゴールにたどり着けば終わりではなかった.そうだ.ゴールにはスフィンクスがいて,謎かけをしてくるのだ.  話に聞くところによると,スフィンクスは決して難しい問題を出すわけではなく,普通に論理的に考えれば解ける程度の謎かけをしてくるらしい.  しかし,ホイールダック2号には現状では大きな問題があった.ホイールダック2号には人間の言葉がわからないのだ.

仮定 言語と論理(1) ホイールダック2号に文法に関する知識,語彙に関する知識は事前に埋め込んでよいものとする. ホイールダック2号は誤りのない音声認識が可能であるとする.

Contents 12.1 自然言語処理 12.2 形態素解析 12.3 構文解析 12.4 Bag-of-Words表現

12.1.1 自然言語処理と応用分野 自然言語をコンピュータ上で処理するための研究を自然言語処理(natural language processing: NLP)と呼ぶ. 2000年代以降,WEB資源の爆発的増加によって処理可能なデータが圧倒的に増えて,注目が増している. ロボットが言語理解する上でも必要. 応用分野 情報検索,機械翻訳,対話システム, 質問応答,文書要約,など

12.1.2 自然言語と人工言語 コンピュータ上で「言語」を扱う. 人工言語 自然言語 プログラミング言語 人手で作られた形式的な言語 例) C言語,Java言語,XML,CSSなど 自然言語 人間が日常生活で用いる言語 例)英語,日本語,中国語・・・ etc.etc. 例)大阪弁,歌詞, ☓ 小鳥のさえずり,犬の鳴き声

12.1.3要素技術の関係 私は窓から降っている雪を見た. 傘を持って家を出た. それを忘れてきた.

12.1.3要素技術の関係 (1)形態素解析 ①品詞活用の推定 私|は|窓|から|降っ|て|いる|雪|を|見|た|. 名詞 助詞 動詞・活用 私|は|窓|から|降っ|て|いる|雪|を|見|た|. 傘|を|持っ|て|家|を|出|た|. それ|を|忘れ|て|き|た. ②分かち書き

12.1.3要素技術の関係 (2)構文解析 文法関係の解析 私|は||窓|から||降っ|て|いる||雪|を||見|た|. 傘|を|持っ|て|家|を|出|た|. それ|を|忘れ|て|き|た. 日本語では形態素を結合した文節単位で構文解析することが多い. 英語の場合は句構造文法,日本語の場合は依存文法にもとづいて解析する場合が多い.

12.1.3要素技術の関係 (3)意味解析 空 私|は||窓|から||降っ|て|いる||雪|を||見|た|. 傘|を|持っ|て|家|を|出|た|. それ|を|忘れ|て|き|た. %私は窓から降っている雪を見た. % 私は──┐ <体言> % 窓から──┤ <体言> %降っている──┐ │ <用言:動><格解析結果:ガ/雪;ニ/-;デ/-;カラ/-;マデ/-;時間/-;ノ/-;ガ2/-> % 雪を──┤ <体言> % 見た.<用言:動><格解析結果:ガ/私;ヲ/雪;カラ/窓;ノ/-> %私は空から降っている雪を見た. %# S-ID:1 KNP:4.0-20130220 DATE:2014/04/11 SCORE:-28.17756 % 私は──┐ <体言> %空から──┐ │ <体言> % 降っている──┐ │ <用言:動><格解析結果:ガ/雪;ニ/-;デ/-;カラ/空;マデ/-;時間/-;ノ/-;ガ2/-> % 雪を──┤ <体言> % 見た.<用言:動><格解析結果:ガ/私;ヲ/雪;ニ/-;デ/-;カラ/-;時間/-;ノ/-> %EOS %http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/knp.cgi 格文法(case grammar) 表層格(surface case) ガ格,ヲ格など 深層格(deep case) 動作主格,道具格など

12.1.3要素技術の関係 (4)文脈解析 私|は||窓|から||降っ|て|いる||雪|を||見|た|. 傘|を|持っ|て|家|を|出|た|. それ|を|忘れ|て|き|た. ※照応関係

要素技術の関係 私は窓から降っている雪を見た. 傘を持って家を出た. それを忘れてきた. 構文解析 意味解析 文脈解析 「私」は降らないよな, 「雪」は降るよな・・・

演習12-1 要素技術の関係 「この道をまっすぐ行ったら交番が見えます.そこを右に曲がれば修道院ですよ」この文章において,「そこ」が何を指すのかを特定するために必要なのは以下のどの解析か.最も適切なものを選べ. 形態素解析 構文解析 意味解析 文脈解析

Contents 12.1 自然言語処理 12.2 形態素解析 12.3 構文解析 12.4 Bag-of-Words表現

12.2.1 言語と形態素 自然言語は音素,形態素,語,文,文章という階層構造を持つ.この中で形態素は言語の意味を持つ最小単位 日本語の場合は分かち書きの習慣が無いので形態素解析が必要

形態素解析 形態素(morpheme)とは文字によって表記された自然言語の文において,意味を担う最小の言語単位のことを指す.(単語と同じか,より小さいまとまり) 形態素解析の役割 文の形態素分割(分かち書き処理) 太郎はお茶子に花をあげる. 太郎 | は | お茶子 | に | 花 | を | あげる |. 形態素への品詞の付与 太郎(名詞) | は(助詞) | お茶子(名詞) | に(助詞)・・・・ 形態素の語形変化の解析 行く -> 行きます

演習12-2 分かち書きをしてみる 下記の文を人手により形態素解析(分かち書き)してみよ. 僕は人工知能概論を受講している. にわにはにわうらにわにはにわにわとりがいる. すもももももももものうち

今日僕は大学に来て,人工知能概論の講義を受けています. 演習12-3 形態素解析のアルゴリズム 例えば,以下のような文を形態素解析するためには,どのような情報を準備して,どのようなアルゴリズムを作ればいいか? アルゴリズムのアイデアを考案してみよ. (3名ほどに発表してもらうかと思います.) 今日僕は大学に来て,人工知能概論の講義を受けています. キョウボ・・・・・

12.2.2 形態素解析に用いる情報 言語知識 単語ラティス 元の文章 (候補群) 単語辞書 連接辞書 語の品詞,読み,活用形などの情報を持つ. 連接辞書 どのような語が隣り合って並ぶことができるかについての情報を持つ. 言語知識 単語ラティス (候補群) 元の文章

単語ラティス 「やまだがいない」 辞書に含まれている単語を形態素解析の候補としていくだけでは,形態素解析の結果は1 通りには決まらない.

12.2.3 ヒューリスティックな手法

12.2.4 コスト最小法(ビタビアルゴリズム) 経路上におけるリンクのコストとノードのコストの和が最小化されるように経路探索せよ.

コスト最小法の動的計画法による解決 解答 (3) (1) (1) (1) 1 1 1 3 1 2 (1) 10 (5) 2 5 1 1 2 6 8 10 12 3 1 2 (1) 10 (5) 2 7 5 15 13 1 1 2 (2) (1) (1) (5) 10 3 2 5 11 16 23 5

12.2.5 統計的アプローチ 統計的自然言語処理 n-gramモデル 統計的アプローチでの形態素解析 単語wt-n+1, . . . wt-1 が観測された後に,単語wt が観測される確率であるn-gram 確率P(wt|wt-1, . . . wt-n+1) を計算し,情報として保持する. n=1 ユニグラム n=2 バイグラム n=3 トライグラム 統計的アプローチでの形態素解析 コスト最小化問題を単語列がバイグラムモデルにより生成される確率最大化問題に置き換える 統計的自然言語処理

12.2.6 分類問題としてのアプローチ や ま だ が い な い パターン認識器 学習データ パターン認識問題としての取り扱い 単語分割問題は,それぞれの文字の後で「単語が切れるか」「単語が切れないか」を判定する二値分類問題として捉えられる. 学習データ パターン認識器 やまだ|が|たべ|た やまだ|も|行く|よ 今夜|が|やま|だ やまだ|が|たなか|と|あそぶ etc.etc. や ま だ が い な い

MeCab: Yet Another Part-of-Speech and Morphological Analyzer 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としている. パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上している. http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download

Contents 12.1 自然言語処理 12.2 形態素解析 12.3 構文解析 12.4 Bag-of-Words表現

12.3.1 句構造解析と係り受け解析 構文解析は与えられた言語の文法に従って,文法構造を解析することである. 句構造解析・・・・句構造文法に基づく (英語など) 係り受け解析・・・依存文法に基づく (日本語など) 「白い机の上の箱をとってくれ」 ⇒白いのは机?箱?

句構造文法 構文木(syntactic tree) 生成文法 (generative grammar) 文脈自由文法(CFG)

12.3.2 構文解析のアルゴリズム トップダウン法(top-down method) ボトムアップ法(bottom-up method) アーリー法(Earley parser)など ボトムアップ法(bottom-up method) CKY 法(Cocke-Kasami-Younger algorithm)

CaboCha/南瓜 Yet Another Japanese Dependency Structure Analyzer http://code.google.com/p/cabocha/

演習12-3 以下の文を構文解析してみよ(複数の可能性がある場合は、それをすべて示せ)。ここで構文解析結果は、句(文節)間の関係がわかるように示すこと (やりやすいように以下では句ごとに分けて書いてある) 黒い 目の 大きな きれいな 女の 子 太郎は 自転車で 逃げる 泥棒を 追いかけた

Contents 12.1 自然言語処理 12.2 形態素解析 12.3 構文解析 12.4 Bag-of-Words表現

12.4.1 文書データの簡便な表現 Bag-of-Words(BoW表現) テキストマイニングや文書のトピック分析などを行うために,簡便な表現を行う. 単純に「単語」や「キーワード」がどれだけの数含まれているかをカウントする.

単語文書行列(term-document matrix) トピック分析,情報推薦,検索などに用いる.

12.4.2 tf-idf 単語出現頻度 逆文書頻度 単語文書行列を得た後に,簡便に各文書におけるキーワードの重要性について定量化を行う手法 単語iが文書jでの出現数 単語出現頻度 逆文書頻度

演習12-4 Web資源を用いたtf-idf計算 Web検索エンジンが10兆ページ(1013 pages)をインデックスしているとする. 検索して見つかったあるWebページには「人工知能概論」という言葉が5回,「情報処理」という言葉が7回出てきた. Web検索エンジンで「人工知能概論」 「情報処理」をそれぞれ検索したところ,それらの文字列を含んでいるとされたページ数(ヒット数)はそれぞれ 人工知能概論  46,800件 情報処理  7,750,000 件 だった.tf-idfの基準からすればこのWebページのキーワードとしてより重要な言葉は「人工知能概論」か「情報処理」のいずれか?

まとめ 自然言語処理の位置付けと応用分野について概観した. 形態素解析,構文解析,意味解析,文脈解析の相互関係について例を用いて学んだ. 単語ラティスの最適経路を動的計画法により計算することで形態素解析を行うコスト最小化法について事例を交えながら学んだ. 構文解析における句構造解析と係り受け解析の区別について学んだ. トップダウン法とボトムアップ法による構文木探索法の概略を理解した. 文書データの簡便な表現であるBag-of-Words 表現と,キーワード抽出手法であるtf-idf について学んだ.

予習問題 表13.3 一階述語論理式の例にある「自然文」とその「述語論理式での表現」との対応を見て、どうしてこのようになるか説明してみよう 表13.3 一階述語論理式の例にある「自然文」とその「述語論理式での表現」との対応を見て、どうしてこのようになるか説明してみよう 「子供の子供は孫である」という文に対応する述語論理式を考えてみよう。ここで 「子(y、x)」は「 y はxの子供である」を表す述語、「孫(y,x)」は「 y はxの孫である」を表す述語とする。