第12回 自然言語処理
自然言語の特徴 プログラミング言語: - 計算機の処理手順の記述が目的(文語のみ) - 一意性、完全性を保証 自然言語: - 人間同士のコミュニケーションが目的 (文語、口語) - 人間の持つ知識(常識)を前提 - 一意性、完全性は保証されない
当初の解析アプローチ 「辞書」(単語が意味する概念を基本的概念で説明,品詞などの文法的役割に関する知識)を重視 比較的簡単な「文法」で解釈 汎用性のある解析手法への指向 → 組合せ的爆発による頓挫 「現代の錬金術」(H.Dreyfus, 1965)
SHRDLU (T.Winograd, 1971) 自然言語による質問応答エキスパートシステム ~ 「積み木の世界」 vs. ELIZA, MYCIN (単純穴埋め方式) Which cubes is sitting on the table ? → THE LARGE ONE WHICH SUPPORTS THE RED PYRAMID.
SHRDLU の解釈例 領域限定(積み木の世界)により,複雑な構造の文も解析可能化 Pick up a big red block. Will you please stack up both of the red blocks and either a green cube or a pyramid? ・・・ 領域限定(積み木の世界)により,複雑な構造の文も解析可能化 例) block: 名詞,動詞,形容詞 塊,まな板,積み木,競り台,型,版木,滑車,街区,・・
自然言語理解処理の流れ 入力文を、動詞、名詞などのカテゴリーに分割 (形態素解析) 文法を参照して、文の構造を解析 (統語・構文解析 parsing) 文の意味を解析 文脈(状況を含む)を参照して、談話を理解 3,4は未だホットな研究分野
形態素解析 文を構成する最小単位(形態素)を 求める 膠着語:単語の切れ目に空白が無し ex.)日本語 字種切り法 例外)「切れ目」,「申し送り」← 余分な分割! 「第九回知識工学講義」 ← 切れない! 最長一致法 例外)にわ のばら がさいた 形態素辞書利用法
自然言語における文法 文の構造: 句構造(Phase Structure) 句構造を木表現したもの: 句構造木 句構造を木表現したもの: 句構造木 構造を支配している規則: 句構造規則 α→β1 β2 β3・・ βn α:非終端記号, βi:非終端記号または終端記号(単語) 句構造規則の集合: 文法 句構造を求めること: 統語解析(構文解析)
文法の種類: 句構造規則の記号の現れ方への制約 帰納的可算文法(0型文法): 制約無し.高い表現能力 文脈依存文法(1型文法): 規則の右側の記号数は左側の記号数以上 ex) A B → C D E 文脈自由文法(2型文法): 規則の左側には単一の非終端記号のみ ex) A → a B C 正規文法(3型文法): 規則の左側には単一の非終端記号,右側には一つの終端記号,または一つの終端記号と非終端記号 ex) A → a, A → a B
Chomskyの標準形 文脈自由文法(2型文法)のうち, 句構造規則を以下の2種類に限定 ① A → B C (A, B, Cは非終端記号) ② A → a (Aは非終端記号, aは終端記号) 任意の文脈自由文法は, Chomskyの標準形に変換可能
句構造で用いられる非終端記号 限定詞:DETerminer 名詞:Noun 名詞句:Noun Phrase 動詞:Verb 動詞句:Verb Phrase 前置詞:PREPosition
具体例 The boy saw the girl in the bed. 2通りの解釈: (少年がベットにいる場合) The boy saw the girl in the bed (少女がベットにいる場合)
使われた文法 DET → the S → NP VP N → boy NP → DET N N → girl NP → NP PP(右) VP → V NP VP → VP PP PP → PREP NP DET → the N → boy N → girl N → bed V → saw PREP → in 再帰的規則あり
統語解析 (parsing) 文法に基づいて句構造を定めること *)プログラミング言語にも適用される 句構造規則: プロダクション規則 *)プログラミング言語にも適用される 句構造規則: プロダクション規則 プロダクション規則の適用の向きによる分類 - トップダウン (top-down) - ボトムアップ (bottom-up) 探索法による分類 - 縦型・深さ優先 (depth-first search) - 横型・幅優先 (breadth-first search)
トップダウン縦型探索法 左辺から右辺への書換えとみなし、 規則のSから出発して入力文に到達 問題点: 再帰的規則があると多くの部分解グラフが生成されてしまう。
トップダウン縦型探索処理の例 部分解グラフ(p) 残りの文(remain) NP書換えの第1規則(NP→DET N)を適用したが、 remainが空で無いので、棄却 トップダウン縦型探索処理の例 部分解グラフ(p) 残りの文(remain) S the boy saw the girl in the bed NP VP DET N VP the boy saw the girl in the bed DET N V NP saw the girl in the bed DET N V DET N the girl in the bed DET N V NP PP the girl in the bed DET N V DET N PP the girl in the bed DET N V DET N PERP NP in the bed DET N V DET N PREP DET N the bed
ボトムアップ横型探索法 右辺から左辺への書換えとみなし、 入力文から出発して規則のSに到達 ・CYK (Cocke-Younger-Kasami)法 ・チャート法 (chart parsing) 問題点: 最初から長い記号(単語)を扱うため、処理量が多くなってしまう。
CYK表の例 the boy saw the girl in the bed
意味処理 文の意味を表現する 未だ研究中 論理式 ~ 一階述語論理 格文法 意味ネットワーク フレーム 概念依存構造
格文法 (1960年代、C.Filmore) 文の意味を表す構成要素に着目し、この役割を記述することにより文の意味を表現 動作主格(A): 動作を誘発 経験者格(E): 心理事象を体験 道具格(I): 出来事の直接原因、心理事象を誘発 対象格(O): 動作の対象 源泉格(S): 動作の起点 目標格(G): 動作の終点 場所格(L): 動作が起こる場所 時間格(T): 動作が起こる時間
格文法の例 述語: broke I broke the cup in the kitchen this morning. A (動作主格) O(対象格) L (位置格) T (時間格) 動詞に対する格のパターンを予め準備しておく
概念依存構造(1970年代、R.C.Schank) 構成要素間の関係をネットワークで表現 述語を11種類の動作(ACT)に分類、 更に、動作主(A)、対象(O)、受益者(R)、 方向(D)、状態(S) で表現 格構造より抽象化された表現 Saigo moved from Tokyo to Kagoshima in 1873. Saigo PTRANS Saigo Tokyo A 物理的な移動 O D Kagoshima
概念依存構造におけるACT(11種類) PTRANS オブジェクトを物理的に移動する ATRANS 抽象的なオブジェクトを移動する PROPEL オブジェクトに物理的な力を加える MOVE 身体の一部を動かす INGEST 動物がオブジェクトを体内に取り込む EXPEL 動物が体内のオブジェクトを体外に出す GRASP オブジェクトを物理的につかむ SPEAK 音を生成する ATTEND 刺激に対して感覚器の注意を集中する MTRANS 情報の伝達を行なう MBUILD 思考によって新しい情報を伝達する
言語行為 (J.L.Austin,1962) 言語行為の階層性 言語行為 (J.L.Austin,1962) 言語の利用: 何らかの効果をもたらす行為の遂行 ~ 遂行的発話(発話イベントが世界の状態に 実際的な変化をもたらす. 言語行為の階層性 1.発話行為: 言葉を発すること ~声に出す,紙に書く,キーボードより打ち込む,・・ 2.発話内行為:発話自体が遂行する行為 ~ 主張する,命令する,依頼する,約束する,・・ 3.発話媒介行為: 発話により結果的に遂行する行為 ~ 怖がらせる,納得させる,・・
言語行為理論の課題 合理的エージェントの設計 1.言語行為の種類と分類? 2.言語行為の成功/不成功の条件? 3.言語表現と言語行為の対応? 言語行為の分類(J.R.Searle,1969) 1.主張型: 情報の伝達 2.要求型(質問含):世界の状態を発話内容に合致(聞き手) 3.約束型:世界の状態を発話内容に合致(話し手) 4.表出型: 話し手の心理状態の表出 5.宣言型:世界の状態を発話内容に合致(発話内容を実現)