数理言語情報論 第1回 2009年10月7日 数理言語情報学研究室 講師 二宮 崇.

Slides:



Advertisements
Similar presentations
PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
Advertisements

数理言語情報論 第 2 回 数理言語情報学研究室 講師 二宮 崇 2009 年 10 月 14 日 1.
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
人工知能特論2011 No.4 東京工科大学大学院 担当教員:亀田弘之.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
数理言語情報論 第7回 2009年11月18日 数理言語情報学研究室 講師 二宮 崇.
人工知能特論II 二宮 崇.
東京工科大学 コンピュータサイエンス学部 亀田弘之
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
数理言語情報論 第3回 2009年10月21日 数理言語情報学研究室 講師 二宮 崇.
言語体系とコンピュータ 第6回.
日本語統語論:構造構築と意味 No.1 統語論とは
数理言語情報論 第8回 2009年11月25日 数理言語情報学研究室 講師 二宮 崇.
人工知能概論 第12回 言語と論理(1) 自然言語処理
東京工科大学 コンピュータサイエンス学部 亀田弘之
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
人工知能特論II 第1回 二宮 崇.
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
東京工科大学 コンピュータサイエンス学部 亀田弘之
第6章 ユニフィケーション解析 ユニフィケーション解析とは?
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
形態素解析および係り受け解析・主語を判別
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
人工知能特論2007 東京工科大学 亀田弘之.
東京工科大学 コンピュータサイエンス学部 亀田弘之
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
人工知能特論II 第2回 二宮 崇.
正則言語 2011/6/27.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
自然言語処理2016 -平成28年11月7日・14日(No.6&7)-
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
テキストマイニング, データマイニングと 社会活動のトレース
知能情報システム特論 Introduction
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
プログラミング言語論 第9回 情報工学科 木村昌臣 篠埜 功.
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
東京工科大学 コンピュータサイエンス学部 亀田弘之
人工知能特論II 第8回 二宮 崇.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
香川大学工学部 富永浩之 知識工学1 第1-1章 人工知能と知識工学 香川大学工学部 富永浩之
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
並列構造に着目した係り受け解析の改善に関する研究
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
1.2 言語処理の諸観点 (1)言語処理の利用分野
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
2012年度 情報数理 ~ 授業紹介 ~.
東京工科大学 コンピュータサイエンス学部 亀田弘之
Presentation transcript:

数理言語情報論 第1回 2009年10月7日 数理言語情報学研究室 講師 二宮 崇

自己紹介

まず、自己紹介 名前 経歴 二宮 崇 (にのみや たかし) 1992~1996: 東大 理学部 情報科学科 1996~1998: 東大 理学系研究科 情報科学専攻修士課程 1998~2001: 東大 理学系研究科 情報科学専攻 博士課程 2001~2006: JST研究員@東大 2006~現在: 東大 情報基盤センター 図書館電子化研究部門 講師 & 東大 数理情報 講師

自己紹介つづき 経歴と所属 自然言語処理の研究 機械学習の研究 1996~2006: 東大 情報理工学系研究科 コンピュータ科学専攻 辻井研 2006~ 現在: 東大 情報基盤センター 中川研 自然言語処理の研究 HPSG構文解析 文法開発 並列計算機による高速化 スーパータガーによる高速化 データベース 決定的構文解析 半構造化テキストに対する情報検索 文要約 認知言語学 英文読解支援 機械学習の研究 オンライン学習

講義の目的

この講義の目的 (1/2) 最先端の自然言語構文解析技術 自然言語 社会において自然に発生して用いられている言語。[デジタル大辞泉] 主に人間同士で意志疎通を行うことを目的として、人間が日常、読み、書き、聞き、喋り、思考するための言語。 例:日本語、英語、ドイツ語、フランス語、… ⇔人工言語 エスペラントなど人工的につくられた言語) 形式言語(記号論理学やコンピュータープログラミングのためにつくられた記号や式によって作られた人工言語)

この講義の目的 (2/2) 構文解析 文:おじいさんは山へ柴刈りに行きました おじいさん は 山 へ 柴刈り に 行き まし た 文 動詞句 名詞句 動詞句 名詞句 名詞句 名詞 係助詞 名詞 格助詞 名詞 格助詞 動詞 助動詞 助動詞 おじいさん は  山  へ  柴刈り  に 行き  まし  た

構文解析の背景

自然言語処理全般と構文解析 自然言語処理全般 形態素解析 辞書・コーパス構築 固有名解析 構文解析 語義曖昧性解消 文生成 格解析 照応解析 用語抽出 文脈解析 知識獲得 評判分析 要約 対話 機械翻訳 質問応答

いわゆる“自然言語処理” 形態素解析 “太郎は花子が好きだ” 名詞 助詞 名詞 助詞 形容動詞 太郎 は 花子 が 好きだ

いわゆる“自然言語処理” 文 構文解析 動詞句 名詞句 動詞句 名詞句 名詞 助詞 名詞 助詞 形容動詞 太郎 は 花子 が 好きだ

いわゆる“自然言語処理” 意味解析 太郎 は 花子 が 好きだ 文 動詞句 名詞句 動詞句 名詞句 名詞 助詞 名詞 助詞 形容動詞 目的語 対象 述語 主語 動作主

いわゆる“自然言語処理” 文脈解析 太郎 は 花子 が 好きだ 次郎 も 彼女 が 好きだ 述語 目的語 対象 主語 動作主 名詞 助詞 形容動詞 名詞句 動詞句 文 文 文脈解析 動詞句 名詞句 動詞句 名詞句 名詞 助詞 名詞 助詞 形容動詞 次郎 も 彼女 が 好きだ 目的語 対象 述語 主語 動作主 =花子

いわゆる“自然言語処理” “太郎は花子が好きだ” 太郎/名詞 は/助詞 花子/名詞 が/助詞 好きだ/形容動詞 形態素解析 太郎/名詞 は/助詞 花子/名詞 が/助詞 好きだ/形容動詞 構文解析 (文 (名詞句-主語太郎/名詞 は/助詞) (名詞句-目的語 花子/名詞 が/助詞) (動詞句 好きだ/形容動詞)) 意味解析 太郎/名詞/主語/動作主/人物 花子/名詞/目的語/対象/人物 好きだ/動詞/動作主-太郎/対象-花子 … 文脈解析

“浅いところ”から“深いところ”へ 理想 形態素解析 構文解析 意味解析 文脈解析

“浅いところ”から“深いところ”へ 思いの他 深い! 形態素解析 構文解析 意味解析 文脈解析 現実 TAG, LFG, HPSGなど複雑精巧な文法が提案・研究されてきたにも関わらず、実テキストを解析することはなかなかできなかった

なぜ構文解析に注目するのか? (1/2) 構文解析の基礎技術が他の多くの自然言語処理の基礎技術を包含 長く使える(であろう)技術 意味処理、文脈処理へとつながる重要な技術 格解析、照応解析は構文解析結果を利用 自然言語処理アプリケーションでの利用 機械翻訳、質問応答、自動対話システム

自然言語処理全般と構文解析 自然言語処理全般 形態素解析 辞書・コーパス構築 固有名解析 構文解析 文生成 格解析 照応解析 用語抽出 文脈解析 知識獲得 評判分析 要約 対話 機械翻訳 質問応答

なぜ構文解析に注目するのか? (2/2) 歴史は長いが、この十年で大きな技術革新 計算機の高速化 メモリの大容量化 言語リソースの出現 実テキストの解析が可能に! 句構造解析は世界的にはよく研究されているが、日本ではあまり研究されていない!

構文解析は面白いのか? 構文解析 複合的 人工 知能 哲学 言語学 記号 論理学 機械 コンピュータ 学習 科学 非線形 最適化 計算

構文解析が今面白い理由 おもちゃから実用的なシステムへ 90年代後半には、高精度構文解析が可能に 合理的(rational)から、経験的(empirical)へ 80年代後半に構文木や係り受け木を人手で付与した正解データの登場 Penn Treebank [Marcus+1993] SUSANNE [Sampson 1995] TIGER Treebank [Brants+ 2002] Prague Dependency Treebank [Hajic 1998] Verbmobil [Hinrichs+ 2000] EDRコーパス [EDR 1995] 京都大学テキストコーパス [黒橋+ 1997] 日本語話し言葉コーパス [前川+ 2000] 90年代後半には、高精度構文解析が可能に 00年代は、高速化や機械学習によるさらなる高精度化 5万文ぐらい 4万文ぐらい

合理的から経験的 合理的(~90年代後半) 入力:”太郎は花子が好きだ” あっている かな? 辞書 出力:構文木 文法 記号 論理 ルール 名詞 助詞 形容動詞 名詞句 動詞句 文 記号 論理 ルール シソーラス

合理的から経験的 経験的(90年代後半~) データ(構文木の集合) より良い モデル より良い モデル 統計モデル ・ 識別器 一般化 改良 訓練データ より良い モデル 統計モデル ・ 識別器 一般化 一般化 モデル より良い モデル 評価データ

合理的研究の黄昏 合理的モデルから、実データに対して有効な数理モデルへ 合理的方法の衰退 理論的計算量よりも実測値による計測 正解データに対する精度の評価が中心に 複雑精巧なモデルよりも単純なモデル 同じ精度がでるのならより単純な方法の方が良い! 合理的方法の衰退 論理に基づく研究の衰退 複雑精巧なのに実用に結びつかない 文法開発の失敗 (参考) I. カント「純粋理性批判」1781、黒崎政男「カント『純粋理性批判』入門」2000 理論的計算量よりも実測値による計測

講義内容の射程

ここではすでに処理済みと考える問題 文:おじいさんは山へ柴刈りに行きました 形態素解析 構文解析

構文解析で行うこと 括弧付け(句の領域の決定) 句のラベル付け(非終端記号の決定) 名詞句 名詞句 名詞句 動詞句 係助詞 名詞 格助詞 名詞 格助詞 動詞 助動詞 助動詞 おじいさん は  山  へ  柴刈り  に 行き  まし  た

構文解析で行うこと 言語学的現象の解析(関係節、Control verb, 補文、受動態、疑問文、命令文、テンス、アスペクト、動名詞、It-Cleft、タフ構文など) 述語と項の関係(主語、述語など) 関係節 主語 目的語 おばあさんは柴を刈りにいったおじいさんを迎えにいきました。

構文解析に含まれていると考えられがちな問題 (1/3) 格解析, Semantic Role Labeling 道具格 (instrument) 構文解析では前置詞句としか解析しない 行為者格 (agent) 目的格 (object) He opened the door by a key. 構文解析では主語としか解析しない 道具格 (instrument) 目的格 (object) A key opened the door.

構文解析に含まれていると考えられがちな問題 (2/3) 固有表現解析 (Named Entity Tagging) 人名 地名 組織名 日付 時間 金額 割合 太郎は、10月1日、朝9時に根津で花子とうどんを食べた。 人名 時間 場所 人名 日付

構文解析に含まれていると考えられがちな問題 (3/3) 照応解析 先行詞 さて、おじいさんはなぜか、左のほほに瘤がありました。 それは人のこぶしほどもある瘤でした。 照応詞 照応関係

講義内容 (1/3) 文法枠組 確率的文法枠組 CFG (Context Free Grammar, 文脈自由文法) TAG (Tree Adjoining Grammar, 木接合文法) Dependency Grammar (依存文法) Categorial Grammar (CG, 範疇文法) HPSG (Head-driven Phrase Structure Grammar,主辞駆動句構造文法) 確率的文法枠組 確率的文脈自由文法 (Probabilistic CFG, PCFG) 確率的主辞駆動句構造文法 (Probabilistic HPSG)

講義内容 (2/3) パラメータ推定 解析アルゴリズム 最尤推定とEMアルゴリズム 内側外側アルゴリズム 条件付確率場 系列ラベリング フルパージング アーリー法 CKYアルゴリズム 確率的(スコア付)文法のための解析アルゴリズム ビタビアルゴリズム ビームサーチ 単一化アルゴリズム

講義内容 (3/3) 文法開発 手作業による文法開発 文法獲得 文脈自由文法 主辞駆動句構造文法

連絡 次回は、10月14日(水)16:30~18:00です。 評価はレポートで行います。内容はまだ未定です。 講義のスライドは下記URLのページにおいておきます。 http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/mistH21w/cl/

参考書 英語 D. Jurafsky, J. H. Martin, A. Kehler, K.V. Linden & N. Ward “Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition” Prentice Hall Series in Artificial Intelligence, 2000 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999 John Coleman “Introducing Speech And Language Processing” Cambridge University Press, 2005 日本語 長尾真、佐藤理史、黒橋禎夫、角田達彦「岩波講座 ソフトウェア科学15自然言語処理」長尾真編、岩波書店、1996年 北研二「言語と計算4 確率的言語モデル」辻井潤一編、東京大学出版会、1999年 長尾真、中川裕志、松本裕治、橋田浩一、John Bateman、乾健太郎「岩波講座 言語の科学8 言語の数理」岩波書店、1999年 吉村賢治「自然言語処理の基礎」サイエンス社, 2000年