本日のメニュー(6/19) 「言語」について考える。言語は人間の認知活動の中核であり、あらゆる認知活動は何らかの意味で言語とつながりを持ち、研究も様々な観点、様々なアプローチのものがある(論理学、心理学、人工知能、脳科学、等々)。 以下ではまず、「言語学(Linguistics)」、とりわけChomsky 言語学の、さらに構文論的側面を中心に紹介する。(資料前半、slide 78 まで抜粋で) またそれが自然言語処理の研究にどうつながっているかを簡単に紹介する。(資料後半) 資料全体をカバーするのは無理なので、かいつまんで話していく 1
本日のキーワード 言語学の諸部門 言語学 チョムスキー(言語学) 自然言語処理 構文論 各種の文法理論 意味論・語用論 象徴的事例 ELIZA SHRDLU 機械翻訳、他 最近の動向 言語学 チョムスキー(言語学) 形式言語・形式文法 言語への数理的・形式的アプローチ 構文論 生成文法理論 変形(理論) 言語の生得性 普遍文法
はじめに:言語と語順 【日】 私は君を愛す 【英】 I love you 【中】 我愛你 【独】 (Ich liebe dich) 【日】 私は君を愛す 【英】 I love you 【中】 我愛你 【独】 (Ich liebe dich) 【仏】 (Je t’aime) 古典的な S(主語)、O(目的語)、V(動詞)の区分で言うと(S: 私、O:君、V: 愛する) SOV 型(日本語、(ドイツ語)...) SVO 型(英語、中国語、(フランス語)...) 組合せ的には、VSO, VOS, OSV, OVS を加えた 3! = 6 通り。 どれが優勢か、優れているか?
参考: 言語の話者数(2005) 北京語(いわゆる中国語) (8億7300万人) SVO スペイン語 (3億2200万人) SVO 参考: 言語の話者数(2005) 北京語(いわゆる中国語) (8億7300万人) SVO スペイン語 (3億2200万人) SVO 英語 (3億0900万人) SVO ヒンドゥスターニー語(ヒンディー語・ウルドゥー語ほか) (2億4200万人) SOV 標準アラビア語 (2億0600万人) SVO ポルトガル語 (1億7500万人) SVO ベンガル語 (1億7100万人) SOV ロシア語 (1億4500万人) SVO 日本語 (1億2200万人) SOV 標準ドイツ語 (9600万人) SOV
言語類型論による分類(言語数) SOV 型 45~55% SVO 型 35~40% VSO 型 10~18% (ヘブライ、タガログ、イロカノ) VOS 型 稀 (フィジー語など) OSV 型 稀 (シャバンテ語など) OVS 型 稀 (ヒシカリヤナ語など)
余談:形式言語理論との関係 語順は数式の表記方法に対応 SVO: 中置記法 (infix notation) a+b, a×b など VSO: 前置記法 (prefix notation) 関数記法: f (x,y) SOV: 後置記法 (postfix notation) 階乗 n! など 前置記法、後置記法はカッコがいらず、コンピュータ処理に適している。(日本語は計算機向き?) 中置記法 前置記法 後置記法 1×2 + 3 + 4 + +×1, 2, 3, 4 1, 2× 3 + 4 + 1 + 2×3 + 4 + + 1 ×2, 3, 4 1, 2, 3×+ 4 + (1 + 2)×(3 + 4) ×+1, 2 + 3, 4 1, 2 + 3, 4 +×
言語の多様性 様々な言語があるのはなぜか。 それらの間に共通性はあるか。 それらの間に優劣はあるか。 参考:(聖書による言語の多様性の起源) 創世記11章「バベルの塔」 人間が天を目指した塔の建築 を始めたので、神が別々の 言葉を話させるようにし、人は 混乱し、世界に散っていった。
言語と認知(1) 個別言語の研究だけとっても様々な課題があるが、より一般的な見地から考えると。 なぜ様々な言語があるのか? それらに共通性があるのか、どのように生まれてきたのか? 参考:インド・ヨーロッパ語族の発見 W. Jones (1786) 古典ギリシャ語、ラテン語と古代サンスクリット語との関係 ⇒ 共通の「祖語」の存在
言語と認知(2) 言語と思考との関係 人間は言葉で思考しているのか? 「思考の言語(mentalese)」のようなものはあるのか? 思考と言語とが別物なら、思考から言語はどのように生成される(認識される)のか? 様々な思考の部門は互いにどのように情報交換しているのか? 参考: A. Arnauld (1660):「言語は思考を忠実に反映するものであり、そのもっとも自然な語順は ... フランス語のそれと一致する」
言語と認知(3) 言語は閉じた体系か? 言語学が学問として自立しうるためには、 言語の独立性が前提となる。 自然科学のように、形式的・数理的な文法規則などに よって規定できるか? 人間は十分それを正確に使いこなせるか、使っているか 言語は他の認知部門と独立性がある(モジュール的)か 言語の中の諸部門(とくに構文論)はどうか? 言語学が学問として自立しうるためには、 言語の独立性が前提となる。
言語と認知(4) 人間の生物的・生得的能力とどのように関係するのか? 言語学は心理学・認知科学・生物学等の一部門に位置づけられるか? 言語を扱えるためにはどのような心的なメカニズム・情報処理能力が必要か 人間と動物の言語能力はどう違うか それを分かつものは何か 幼児はなぜ急速に言語(母国語)を学習できるのか ⇒ 「プラトン問題(メノンの問題)」 言語学は心理学・認知科学・生物学等の一部門に位置づけられるか?
理論言語学の諸部門 音声学(Phonetics) 音韻論(Phonology) 形態(素)論(Morphology) 語彙論(Lexicology) 構文論(統語論: Syntax) 意味論(Semantics) 語用論(Pragmatics)
チョムスキー以前の言語学(1) (ギリシャ以来の文法・修辞学・弁証法、論理学の伝統) 規範的な文法理論(~18 C.) 「ポール・ロワイヤル(Port Royal)文法・論理」 (A. Arnauld ら) 比較言語学と「言語学の誕生」(18~19 C.) Jones(印欧語族)、Grimm 兄弟 「通時的(diatonic)言語学」 (古代文字の解読:ヒエログリフ、楔形文字) 「青年文法学派(新文法学派)」(独)
チョムスキー以前の言語学(2) ソシュール(F. de Saussure) (1857~1913) 言語学の現代化: 共時的(synchronic)な体系を 中核に据える 「言語の恣意性」: シニフィアン(signifiant)とシニフィエ(signifié) 記号論への発展
チョムスキー以前の言語学(3) ヤコブソン(R. Jacobson)と「プラハ学派」 ウィトゲンシュタインと「言語ゲーム」 音韻論の体系化 レヴィ・ストロースらとの交流 ウィトゲンシュタインと「言語ゲーム」 論理実証主義と形式(的)体系 数学基礎論・記号論理との関係 言語の「意味(論)」、推論の表現 Carnap, Kleene, Tarski, (Turing) ブルームフィールドと行動主義的言語学
チョムスキー革命(1) Noam Chomsky (1928.12.7~) アメリカ出身 マサチューセッツ工科大学(MIT)名誉教授 (Wikipedia 英語 日本語) アメリカ出身 マサチューセッツ工科大学(MIT)名誉教授 言語学者、哲学者、左翼運動家、... 1950 年代以降、言語学で主導的役割を果たし、カリスマ的存在である。 理論自体が(傍から見れば)どんどん変わっていくので、追随する側は大変。
チョムスキー革命(2) 初期の主要な著作(以下でも言及) Chomsky, N. (1956). “Three Models for the Description of Language”. IRE Transactions on Information Theory 2 (2): 113–123. doi:10.1109/TIT.1956.1056813 Chomsky, N. (1957). Syntactic Structures. The Hague: Mouton. (勇康雄訳:「文法の構造」、研究社出版、 1963) Chomsky, N. (1965). Aspects of the Theory of Syntax. Cambridge: The MIT Press. (安井稔訳:「文法理論の諸相」、研究社出版、 1970) Review of Verbal Behavior, by B.F. Skinner. Language 35, no. 1 (January-March 1959): 26-57.
チョムスキー革命(3) 文法理論の厳密な形式的・数学的扱い ⇒ 形式文法、形式言語 → 情報科学とのつながり 文法理論の厳密な形式的・数学的扱い ⇒ 形式文法、形式言語 → 情報科学とのつながり 研究計画、研究方法、判断基準など、研究そのものについての指針を打ちたてた (言語研究の「メタ理論」) ⇒「妥当性のレベル」 言語のうち、特に構文論(統語論)を重視し、 言語研究の中心に位置付けた。 そのための文法的枠組みとして「生成文法理論」を示し、特に(初期においては)変形を重視した。
チョムスキー革命(4) 言語が生物的・生得的要因に基づいていることを前提とし、特にすべての言語に共通の「普遍文法」の研究を中心目標に据えた。 「デカルト主義」:人間の心的過程としての言語の独立性を唱え、そのメカニズムを仮構し、解明していくという方法論をとった。 そのため、旧来の言語学、特に Bloomfield (や背景にある Skinner らの)行動主義的アプローチと真っ向から対立し、これを否定した。
妥当性のレベル(Levels of adequacy) 観察的妥当性(observational adequacy) 理論は観察されたデータをくまなく列挙・分類する 記述的妥当性(descriptive adequacy) 理論はデータを記述する形式的規則体系を与え、 規則は「正しい例」のみ生成する 説明的妥当性(explanatory adequacy) 理論は競合する記述同士の優劣を決定し、 根底にある構造を指し示すとともに、 予測的に用いることができる
言語能力と言語運用 言語能力(linguistic competence) 言語運用(linguistic performance) 理想的な意味で言語話者が有する言語・文法の知識・能力。 文法性(文か非文かの判断)など 言語運用(linguistic performance) 実際の言語使用の側面。 注意力や記憶力の限界、発話の物理的制約などによって、competence が制約される。 cf. “langue” と “parole” (de Saussure)
形式文法と形式言語 (本格的には「オートマトンと形式言語」などの授業で扱う) 形式文法と形式言語 (本格的には「オートマトンと形式言語」などの授業で扱う) 形式言語(formal language) 何らかの記号列の集合。 各記号列を便宜的に「文」と呼ぶ。 記号は文字、数字、単語など、はっきり定義されていれば何でもよい。 記号や文は何か意味を表していてもいなくてもよい。 (形式理論の範囲では意味は考えない) 言語(文の集合)は無限集合であるのが普通。 形式文法(formal grammar) 言語が有限個の規則により定義される場合、 その規則集を言語の「文法」と呼ぶ。
例:文脈自由言語と構文木 “The dog ate the bone” という文は、 次の規則で表わせる。 S→ NP VP VP → V NP NP → D N 単語へ対応づける規則) ただし: S: 文、V: 動詞、N: 名詞、D: 冠詞、 NP: 名詞句、VP: 動詞句 得られる構造は図のような構文木で表わせる。 他の例については:二宮崇・宮尾佑介 「自然言語処理における文法開発の軌跡と展望」等参照 http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/
形式文法と形式言語(2) 形式言語の典型的な例 形式的・機械的に定義されるため、コンピュータによる処理が可能になる。 数学の数式 記号論理の論理式 プログラミング言語 (簡単な図形、音楽など) 形式的・機械的に定義されるため、コンピュータによる処理が可能になる。
形式文法と形式言語(3) 形式文法 G = { N, T, P, S } 形式言語 L ⊂ T* S: 開始記号 特別な非終端記号: S ∈ N 形式言語 L ⊂ T* T* は終端記号集合 T の有限列全体の集合
形式文法と形式言語(4) 文法規則 α→βは、左辺のαが右辺のβに書き換えられることを表す。 作成された記号列に非終端記号がなければ(=終端記号だけなら)「文」が完成する。そうでなければまだ未完成で、書き換えを続ける。 文法 G が生成する言語(=文の集合)を L = L(G) とするとき、「G は L を受理する(生成する)」と言う。
形式文法と形式言語(5) 例:文法規則が次の2つとする。 (1) S → b (2) S → aS 規則 (1) は右辺に終端記号 b∈T しかないから、これを適用すると書換えは終了する。 規則 (2) は右辺に非終端記号 S∈N を含むから、これを適用しても文は未完成で、書換えが続く。 この結果、文 b, ab, aab, aaab, ... が生成される。 この文法が受理する言語は、L={ anb } である。 (n は 0 以上の整数で、anは a が n個続くことを表す)
チョムスキー階層 文法 G が受理する言語は、文法規則 α → β で許される形式に応じて区別・分類できる。 形式文法のチョムスキー階層(1956) 3型文法(正規文法・言語) 2型文法(文脈自由文法・言語) BNF記法 1型文法(文脈依存文法・言語) 0型文法(帰納可算言語)
チョムスキー階層(2) 3型文法規則 2型文法規則 以下で α、β、γは任意の記号列(空列でもよい)を表す。 A→a, A→bB の形の規則だけ。 (実際には、左辺は非終端記号1個だけ、右辺の非終端記号はたかだか1個であればよい) 2型文法規則 A→α の形のもの(左辺は非終端記号1個だけ)
チョムスキー階層(3) 1型文法規則 0型文法規則 αAβ→αγβ の形のもの (左辺の A がα、βの「文脈」の中でγに書換わる) 「α→β」(|α|≦|β|)という制約に置き換えても、実質的には同じ(|α| はαの長さ)。 0型文法規則 制約は一切なく、任意の「α→β」でよい。 (0, 1 型とも、左辺のαは必ず非終端記号を含み、また非終端記号だけからなるとしてかまわない)
チョムスキー階層(4) 例 { an } は3型文法(で受理できる) { anbn } は2型文法で受理できるが、3型ではできない。 (1) S→ab (2) S→aSb とすればよい。 { anbncn }、 { anbncndn }、... は1型文法で受理できるが、2型ではできない。 { ap }(p は素数)は1型で受理できる。
自然言語の文法形式(1) 3型文法(正規文法)はマルコフ過程と関係する。 マルコフ過程: 系列データで、データ an はその前の k 個のデータによって決定される(k は正の定数)。 ただし、一般のマルコフ過程では決定が確率的であることが前提となる。 正規文法は自然言語の記述文法としては不適切・不十分 ⇒ 再帰的構造(埋込構造、入れ子構造)が扱えない。
自然言語の文法形式(2) 再帰的構造を持つ文 The cheese the rat the cat the dog the boy held bit chased ate was rotten. (男の子が押さえていた犬が噛みついた猫が追いかけたネズミが食べたチーズは腐っていた) Dorothy, who met the wicked Witch of the West in Munchkin Land where her wicked Witch sister was killed, liquidated her with a pail of water. 逆茂木文 「我々は、腐った政府が昨年のテロ事件で被害にあった人たちの家族が歎願したにも関わらず、なかなか着手しない救済法案の制定を推進する。」
自然言語の文法形式(3) 再帰的構造は、2型文法(文脈自由文法:context-free grammar)でなら扱える。 いわゆる「句構造文法(phrase-structure grammar)」と同義と考えてよい。 経験的に言って、文脈自由文法は自然言語を近似的に表わすには十分である。 しかしチョムスキー(初期)によれば、これも自然言語記述には不十分 平叙文と疑問文、能動態と受動態といった相互に関連する文のつながりが表せず、文法が無意味に複雑になる。
“colorless green ideas sleep furiously” (直訳(?):「無色の緑の考えは猛々しく眠る」) チョムスキー(1957)が示した有名な例文で、言語における構文論の自立性、重要性を端的に示すことが意図されている。
(Jabberwocky) 'Twas brillig, and the slithy toves Did gyre and gimble in the wabe; All mimsy were the borogoves, And the mome raths outgrabe. "Beware the Jabberwock, my son! The jaws that bite, the claws that catch! Beware the Jubjub bird, and shun The frumious Bandersnatch!“ He took his vorpal sword in hand: Long time the manxome foe he sought— So rested he by the Tumtum tree, And stood awhile in thought. And as in uffish thought he stood, The Jabberwock, with eyes of flame, Came whiffling through the tulgey wood, And burbled as it came! One, two! One, two! and through and through The vorpal blade went snicker-snack! He left it dead, and with its head He went galumphing back. "And hast thou slain the Jabberwock? Come to my arms, my beamish boy! O frabjous day! Callooh! Callay!“ He chortled in his joy. 'Twas brillig, and the slithy toves Did gyre and gimble in the wabe; All mimsy were the borogoves, And the mome raths outgrabe.
構文による曖昧性の解消 曖昧文(複数の意味を持つ文)は、異なる構文構造を持つことで差別化される。 Flying planes can be dangerous. Time flies like an arrow. I eat the apples in the garden. 赤い屋根の大きな家 逆に表面上似てはいるが、意味・構造が違う文の差別化にも関係する。 John is easy to please. John is eager to please. ここではきものをぬいでください
自然言語の文法形式(4):変形 句構造文法では平叙文と疑問文、能動態と受動態といった相互に関連する文のつながりが表せない。 そのために「変形(transformation)」を導入する。 関連のある文同士は、共通の「基本形」(いわゆる「深層構造(deep structure)」を持ち、それに変形を加えることによって「表層構造(surface structure)」である実際の文(単語列)になる。 一挙に文脈依存文法まで行かなくても、句構造文法+変形で対応できる。
自然言語の文法形式(5) 変形の例:受動態を作る。 “John loves Mary”(ジョンはメリーを愛する)に対し、 (日本語) 動詞を “is loved” の分詞形に変形 主語(John)と目的語(Mary)を交換 により、“Mary is loved by John” を得る。 (日本語) 「愛する」→「愛される」(受動の助動詞) 主語・目的語の交換 ⇒「メリーはジョンに愛される」
生成文法(Generative Grammar) だいたい、「標準理論」(~1965)ぐらいのうちは、この「句構造文法+変形規則」による構文論構築が行われ、様々な変形規則が導入・吟味された。 これを「生成文法(理論)」と呼ぶ。 「生成(generative)」の意味はわかりにくいが、 「文を生成するための文法」といった意味ではなく、可能な文すべてを生成するための理論、といった意味合いを持つ。
普遍文法(Universal Grammar) 「プラトン問題」 「知識は生得的なものか」(『メノン』) ⇒「言語は(どこまで)生得的か」 子供(幼児)が、自分が接する言語環境から極めて短期間に(2~3年)、しかもほぼ完全な言語(母国語)の知識の獲得ができるのはなぜか? 完全な「白紙状態(tabula rasa)」から学習するのは極めて非効率的かつ不完全 知識の少なくともある部分は生得的(生まれついてのもの)でなければならない。 cf. 「本能」
普遍文法(2) プラトン問題解決のためには、人間(子供)は生得的に言語を処理するための知識やメカニズムを備えていなければならない。 そのような言語知識を総称して、 「普遍文法(Universal Grammar)」と呼ぶ。 では普遍文法はどのような内容か? 特定の言語やその文法ではないのは明らか。 特定の文法類型というわけでもない。 構文解析器の基本メカニズム? 普遍文法の追究は、どんどん抽象化していき、「構文論」からは離れていくことになる。
チョムスキー理論の変遷(1) 「標準理論(Standard theory)」(1957~1965) 「拡大標準理論(Extended standard theory)」 (1965~1973)とその改訂(1973~1976) 「(関係文法)(Relational grammar)」 (1975 頃~1990) 「統率・束縛理論(Government & binding)」、 「原理とパラメタ理論(Principles & parameters)」 (1981~1990) 「ミニマリストプログラム(Minimalist program)」 (1990~現在)
チョムスキー理論の変遷(2) 全体として、初期の「構文論至上主義」は影を潜めた結果となっている。 初期の頃に重要視された「変形」概念は、事実上、放逐されたに等しい。 構文よりは語彙論重視(単語の持つ意味や構文的役割に大きなウェイトがかけられる)に転じている。 ここらは句構造文法主体の、他の文法研究と同じ方向になっている。
チョムスキー理論の変遷(3) 一方、普遍文法探究に向けての理論化は、どんどん抽象的・一般論的になっていき、そもそもの構文論からも離れるものになっている。 「ミニマリストプログラム」は非本質的な部分を徹底的に切り捨て(「オッカムの剃刀」)、中核となる部分を抽出しようというアプローチである。 初期の熱狂的な反響に比べ、現在ではそのままの形での支持者は大幅に少なくなっているが、まだ隠然たる影響力は有している。
認知科学における言語研究(一般) チョムスキーを中心とする言語学研究は、Competence(言語能力)に立脚し、構文論に偏した感がある。 ⇒言語学の自立性を目指したもの これに対し、言語の認知科学的研究一般では、言語を閉じた対象として扱うのではなく、思考・行動・知識表現(表象)などと連動して考える。 Competence より performance の側面に目を向ける。 構文論至上ではなく、意味論・語用論を対象とする。 特にコンピュータによる自然言語処理では、理論的な完備性よりは、実用的な意義が重視される。
その他の文法理論(1) 主としてコンピュータによる言語処理を意識した観点から、文脈自由文法(句構造文法)をベースにした様々な文法理論が提案されている。 チョムスキー階層において、3型から0型に進むにつれ、コンピュータによる解析処理は(飛躍的に)難しくなる。 3型・2型文法では効率的な解析が可能 1型になると、解析効率は大幅にダウンする 0型(チューリングマシンと等価)では(一般には)処理が停止する保証さえない。
その他の文法理論(2) 句構造文法(Phrase structure grammar) ベースの文法の例 LFG(Lexical Functional Grammar:語彙機能文法) 1970 年代、Bresnan & Kaplan GPSG(Generalized Phrase Structure Grammar:一般化句構造文法) 1970年代後半、Gazdar HPSG(Head-driven Phrase Structure Grammar: 主辞駆動句構造文法) 1985~、Pollard & Sag
その他の文法理論(3) 生成文法理論とは別系統の、最初から意味論を意識した文法理論としては次のものがある。 格文法(case grammar) 1968, Fillmore (形式文法の属性文法とも関連する) システミック文法(systemic functional grammar) 1960 年代~、M. Halliday
参考: 言語の「格(case)」 動詞(用言)を中心において文を考えると、各名詞(句)は、動詞に対してどのような役割を持つかで区別される。それをその名詞の「格」と呼ぶ。 例: 主格、目的格、与格、所有格、... 格は、フランス語、ドイツ語などでは語尾の格変化で表わされ、日本語では助詞がその役割を果たす。(格の標識) 英語(や中国語)は特定の格標識があまりなく、語順で表わす。
参考:日本語の文法(1) 日本語は、英語など印欧系言語と比べて著しい相違点がいろいろある。 膠着語である(分かち書きをしない場合)。したがって単語の境界を決める「形態素解析」が大きなウェイトを占める。 「ここではきものをぬいでください」 「ウラニワニワニワニワニワニワニワトリガイル」 上は、同音異義語が多いことを示してもいる。
参考:日本語の文法(2) こういった特徴のため、句構造文法による解析は必ずしも有効ではなく、係り受け解析その他の手法が用いられる。 語順が比較的自由である 「太郎は花子に本を贈った」 「太郎は本を花子に贈った」 主語を含め、省略が多い。 「花子に本を贈った」 「私はウナギだ」 こういった特徴のため、句構造文法による解析は必ずしも有効ではなく、係り受け解析その他の手法が用いられる。
意味論(Semantics) 文・文章の意味内容を扱う言語学の部門。 構文論・語用論とまたがる部分もある。 そもそも「意味」をどう定義・記述するか。 言葉で記す(辞書の語釈など) 堂々巡りになりそう。 記された文章自体を解釈する必要がある。 言語で示された内容(特に命令)を実際に実行する (操作的意味論) 何らかの形式的な知識表現の枠組で意味を表す (記号論理、Montague grammar など)
意味論(2) “Every man loves a woman.” この文は、構文的な曖昧性はないが、意味的には曖昧性(2通りの解釈)がある。 その違いを日本語に訳すのは難しい。 述語論理で表わすと、次の違いになる。 ∀x ∃y love(x,y) 「どんな男性 x でも、愛する女性 y が1人は存在する」 ∃y ∀x love(x,y) 「どんな男性 x もが愛する特別な女性 y が存在する」
意味論(3) 真理値的な意味論 生成意味論(Ross, Postal, McCawley, Lakoff) 認知的意味論 Tarski 等の論理学のモデル論から発し、 Montague Grammarなど 生成意味論(Ross, Postal, McCawley, Lakoff) Chomsky の deep structure を意味表現の根幹におく。 意味構造を言語外に持ち出すといった点で Chomsky 学派と対立。 認知的意味論 生成意味論の発展形 Jackendoff の生成理論的な意味論の扱い 状況意味論(Barwise, Perry)
語用論(Pragmatics) 実際の言語使用は、表わされる意味内容そのものを伝達することそのものというよりは、様々な効果・影響・要求などを示すことが目的。 ⇒ 語用論:言語のそういった側面に着目する 比喩・暗喩(metaphor) ⇒類推 「立てば芍薬座れば牡丹、...」、「男はみんな狼よ」 標語、ことわざなど 「言語ゲーム」(Wittgenstein) 言語行為 談話構造の分析(会話者同士の発話をゲームに おける「着手」とみなす)
言語行為論(Speech Act Theory) J.L. Austin により創始され、J.R.Searle により発展・拡張された言語の「語用論」に属する理論。 言語によってどのような事実や主張が述べられているかではなく、それがどういう効果をもたらすかという観点に立った言語使用の理論。 談話分析、コンピュータによる会話構造の構成・分析などに応用される。 参考: L. Wittgenstein 「言語ゲーム」
言語行為論(2) 「発話内行為」(illocutionary act) 「何かを言うことで何かを行うこと 」 発話内行為の分類(Searle) assertives 話者が命題が真であることを主張する言語行為 directives 相手に何らかの行動をとらせる言語行為(要求、命令、助言など) commissives 話者が将来の行動を約束する言語行為(約束、誓いなど) expressives ある提案・命題に対する話者の態度や感情を表現する言語行為(祝辞、謝罪、感謝など) declaratives 何らかの宣言を現実化する言語行為(洗礼、判決、結婚式での聖職者など)
日常会話の例 「冷蔵庫に水はあるかい?」 「部屋が暗いね」 「ないから水道水を使ってくれ」 「水はないけど冷えた麦茶なら入っている」 「霜取りの受け皿に溜まっているはず」 「食品にも水蒸気としても水分子は存在する」 「部屋が暗いね」 「明るさは XX ルクスだ」 「もう日が暮れたから」 「暗い電球しかつけてないんだ」 「電気つけようか?」
認知的言語研究の現状 (特に自然言語処理の観点から) 認知的言語研究の現状 (特に自然言語処理の観点から) HPSG など、辞書項目と文法規則を融合する構文理論とそのコンピュータ上での実現 大規模コーパスの利用 それに基づく、統計的・確率モデル的な言語分析 ⇒ 理論よりは実践、事例ベース 参考:二宮崇・宮尾佑介 「自然言語処理における文法開発の軌跡と展望」 http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/
言語発達・獲得 個体における言語発達・獲得 (Piaget 他) 言語の発生・発達 「1語期」、「2語期」、... 母国語と獲得臨界 概念獲得との関係 言語の発生・発達 言語の起源論 ピジン(Pidgin)とクレオール(Creole) D. Bickerton: “Roots of Language” (1981)
付録: 追加資料 いずれも田中克彦「チョムスキー」(岩波書店、1983)より。 現在は新装丁のものがある。 付録: 追加資料 いずれも田中克彦「チョムスキー」(岩波書店、1983)より。 現在は新装丁のものがある。 次のトゥウォデルは構造主義言語学・音韻学者で、反チョムスキー的な立場からの記述。続く2スライドはチョムスキー革命に対する田中の立場からの述懐。
W. F. トゥウォデル「音素の定義について」(1939) [音素についての]こうした定義は失格である。なぜなら、第一に、手にとってみることのできない「ココロ」(mind) の言語的はたらきについて、当て推量する権利は私たちにはないし、第二に、このような当て推量から何か利益を得ることはできないからである。「ココロ」の言語的過程の内省などというものは、ひどいたとえで言うと、木造りのストーヴの中で火を燃やすようなものだ。我々にとって、「ココロ」に関する唯一の情報は、そのココロが住まっている当人の行動からのみ引き出せるのだ。その行動を「ココロ」に拠りかかって説明することは、未知の原因に名を与えておいた上で、ある事実の原因として、その x という名を掲げるという、あの、なにかわからぬ不明の原因によいってあることを「説明」しようという、論理の誤りを犯すことになる。「ココロ」とは、じつに、そのような x、つまり、人間行動の未知の原因を引っくるめた呼び名である。
田中克彦「チョムスキー」(岩波) もしチョムスキー理論が、苦悩の変革の過程を通って、近代言語学を内部から食い破り、必然の結果としてあらわれたのであったら、数多くの構造主義者や記述主義者が、すすんでチョムスキーにならって自己変革をとげ、革命家としてめざめることになったであろう。かれの教条も、より説得的に、多方面から根拠づけられることができたであろう。しかし事実はそうではなかった。確信に満ちた構造主義者が、激しい抵抗を示したのは、かれらが、ただ頑迷であったからというのではなく、むしろ、かれらを内部からゆり動かして変革に参加させる力を欠いていたからと見るべきである。だからチョムスキー理論は構造主義者の転向によってではなく、まったく新しいマーケットに信奉者を見出すことによって普及の圏を広げていったのである。
田中克彦「チョムスキー」(岩波)続 チョムスキーとその信奉者の関心をとらえたのは、何よりも一般的な類としての言語の性質であったから、多様という仮象を一般に還元することに異様な執念を示したのである。このような執念は、言語そのものからではなく、むしろ、言語以外の何かに動機づけられて現れたように思われる。伝統的に言語学者は、もちろんこのような一般性、普遍性への関心を忘れてはいないが、エキゾチックで、名もない小さなことばのすみずみにいたるまで探索の情熱を燃やし、そのような点にこそ、人間性や文化との接点を見出すことに喜びを感じる習性をもっているものなのである。かれらは普通、ことばをことば以外の何かにしようとは企てない。
(曖昧文について) “Flying planes can be dangerous” (形容詞) A flying plane can be dangerous. (動名詞) Flying a plane can be dangerous. “The shooting of the hunters disturbed me.”も同様 “I saw a man with a telescope” “I ate the apples in the garden” は?
英語の特徴: 語形変化が少ない(孤立語に近い)ため、単語が多品詞的にな “Time flies like an arrow” 英語の特徴: 語形変化が少ない(孤立語に近い)ため、単語が多品詞的にな “Time flies like an arrow” “time” 名詞、“flies” 動詞、“like” 前置詞 「時は矢のように飛ぶ」(光陰矢のごとし) (通常の解釈) “time” 形容詞、“flies” 名詞(ハエ)、 “like” 動詞(好む) 「時ハエは矢を好む」 “time” 動詞(命令形:「計時する」)、 “flies” 名詞(ハエ)、“like” 前置詞 「ハエを矢のように計時しろ」
(以下3枚は望月先生(東京外大)の資料より) 文法(4) (以下3枚は望月先生(東京外大)の資料より) http://www.tufs.ac.jp/ts/personal/motizuki/ lecture/ls2k62/lsandc06.ppt 文脈自由文法の例 PP :句構造規則の集合 PD :辞書規則の集合 (1)S→NP VP (4)NP→DET N (7)VP→VP NP (2)NP→N (5)VP→V (8)VP→VP PP (3)NP→NP PP (6)VP→V NP (9)PP→Prep NP N→ I, apples, garden V→ ate Det → the Prep→ in
文の構造の曖昧性2(5) S NP VP VP PP NP NP N V Det N Prep Det N I ate the apples in the garden . 私は庭でりんごを食べた
文の構造の曖昧性2(8) S NP VP NP VP PP NP NP N V Det N Prep Det N I ate the apples in the garden . 私は庭のりんごを食べた
「赤い屋根の大きな家」 修飾語(用言:赤い、大きな)が被修飾語(体言:屋根、家)のどちらを修飾するか。 単純な組み合わせでは 2×2 = 4 通りある。 ○ 赤い→屋根、大きな→屋根 ○ 赤い→屋根、大きな→家 ○ 赤い→家、大きな→屋根 × 赤い→家、大きな→家 しかし「屋根の家」という言い方は、普通の日本語ではできないから、最後のものは除外される。 1番目も若干不自然ではある。
×「屋根の家」 「赤い屋根の家」 「屋根の大きな家」 「『赤い屋根の大きな』家」 「赤い、『屋根の大きな』家」 「『赤い屋根』の『大きな家』」 ×「屋根の家」 「赤い屋根の家」 「屋根の大きな家」
「黒い瞳の大きな女の子」 前例の「赤い屋根の大きな家」と同じ構造に見えるが、実際にはもう少し複雑。 「女の子」 (girl → female child) 「『女の』子」 (woman’s child) 「黒い瞳の大きな『女の子』」とすれば、 「赤い屋根...」同様、3通り 「 『黒い瞳の大きな女』の子」も同様に3通り あと、交差的なケース(「子」が修飾されるケース)がある。 ただし、「屋根の家」と同様、「女」が単独で「子」を修飾するのは少し不自然。
(図は望月先生(東京外大)のものを改変) 「黒い瞳の大きな『女の子』」 (図は望月先生(東京外大)のものを改変) http://www.tufs.ac.jp/ts/personal/motizuki/lecture/ls2k62/lsandc06.ppt
「 『黒い瞳の大きな女』の子」
「黒い『瞳の大きな女』の子」 「 『黒い瞳』の『大きな女』の子」 ×「 『黒い瞳の大きな』、『女』の子」 ×「 『瞳の大きな』、『黒い女』の子」 ×「 『黒い瞳の女』の『大きな子』 」 (あとの2つは係り受けが交差している)
問題(期末試験等にも出すかも) “I saw a man with a telescope” の文を同様に構文解析してみよ 文法規則を加えて他の文も解析してみよ 「黒い瞳の大きな女の子」は何通りの解釈・解析が可能か(少なくとも8通り) (加減乗除とカッコよりなる)数式の文法を定義してみよ。(あるいは調べてみよ) (プログラミング言語の基礎部分でもある。)
自然言語処理・理解
自然言語処理 自然言語(英語、日本語、...)に関わる研究は人工知能の当初から最重要課題の1つ。 内容的には非常に多岐にわたり、また他の人工知能研究とも様々な形で密接に結びつくほか、関連研究・スピンオフも多い。 例: 数学の文章題を解くには書かれている文章をまず理解しなければならない。 ⇒「ロボットは東大に入れるか」(東ロボくん) NII 他 現在の web 上の様々な機能(検索等)も広い意味では自然言語処理研究の一環 人間とのコミュニケーションの最も重要な方法(?)
自然言語処理(2) 知覚レベル 記号レベル 応用例 文字認識(印刷、手書き、...) ex) 郵便番号 音声認識 音声合成(歌声合成) 形態素・構文解析(文法、解析システム) ex) juman、茶筅 意味論、意味理解。 談話理解、談話モデル・支援 (語用論: pragmatics) 応用例 機械翻訳(machine translation) 質問応答システム 人間との対話システム 各種のテキスト処理 ......
自然言語処理(3) 研究は長期間・多岐にわたるので一概に分類は困難 1960年代: 統計的言語処理に基づく機械翻訳研究が中心 1960年代: 統計的言語処理に基づく機械翻訳研究が中心 1970年代: 構文解析、意味理解(対象世界の理解、文脈理解等を含む)を取り入れた「AI システム」の開発(SHRDLU、Schank (CD, MOPs) 等々) 1990年代~: 大規模コーパスに基づく事例ベース、確率的言語モデル(HMM 等)、機械学習の導入による統計的言語処理 データマイニング等への応用
機械翻訳 機械翻訳 内容を理解していなくても、かなりの部分は機械的な言語置換え作業で間に合う。 ⇒ デモ 1960 年代後半の ALPAC レポート(それまでの研究成果への批判的報告)で一時頓挫する。 最近では Systran ベースの Yahoo! / Babelfish、Google 翻訳など、実用(に供される)レベルの翻訳サービスも存在する。が、 現在(2014)では統計的手法を用いたものが主流 (Google 翻訳は 2007年以降、こちらに移行) 内容を理解していなくても、かなりの部分は機械的な言語置換え作業で間に合う。 ⇒ デモ
機械翻訳(続き) 前述のように、現在では統計的手法に基づく確率モデル、機械学習を用いる手法が主流となっている。 ある意味では60年代の手法に逆戻り。 しかし...... 違うのは: 大規模なコーパス マシン性能の飛躍的向上 モデル化手法・理論の進歩 「理解」はしているか? cf. 「中国語の部屋」
自然言語「理解」へ ALPAC 報告等による機械翻訳研究の頓挫により、70年代には高度の構文解析、意味内容や場面理解を取り入れた自然言語理解システムの転向が始まる。 SHRDLU Winograd による自然言語理解システム(1970) 対象領域についての知識の重要性を強調し、質問応答を行う。 以後、自然言語理解研究は着実に進められるが、90 年代以降は事例ベース、確率モデルを用いる手法などが(実用的目的から)中心となる。
何ができればいいか 機械翻訳 質疑応答システム 汎用コンピュータインタフェース ロボット等への組込み 人間の「対話相手」 各種問い合わせへの応答(特定分野) 一般的な質問への応答 汎用コンピュータインタフェース 柔軟・高機能な情報検索 各種サービスのインタフェース ロボット等への組込み 人間の「対話相手」
(特異な)事例: ELIZA (Weizenbaum 1966) [ELIZA 1, 2] パターン照合ベースの自然言語「応答」システム Weizenbaum: Computer Power & Human Reason Winograd & Flores: Understanding Computers and Cognition ⇔Winograd, Terry: Understanding Natural Language (1972): SHRDLU まともな構文解析はしない 文中からキーワードを拾ってきて、それに対して定型的パターンの中から応答を組み立てる。 (添付会話例参照 [ELIZA 2] からの抜粋)
ELIZA (続き) 例: 文中に mother があれば「家族の話」と解して、”tell me more about your family” のような応答文を組み立てる。 プログラムと本気で応答を始める人が出てきてしまった(!?) (Rogers 学派精神分析の応用) DOCTOR: 精神分析医のような応答を行なうプログラム PARRY: 精神分裂症的症状の応答を行なうプログラム DOCTOR vs. PARRY
事例: SHRDLU (Winograd) 統合的な言語理解システム(~1970年) Blocks World (積木の世界)対象 当時の MIT における AI 研究の共通課題・舞台 詳細な構文解析(systemic grammar に基づく) 意味・文脈理解の導入 それによる、対象世界の完全な「理解」と、それに基づく人間との対話機能(添付の対話例参照) 自然言語理解研究を革新するものとして一斉を風靡した(今でも影響力は強い)。 Winograd 自身は、80年代まで自然言語理解研究を続けるが、様々な限界・問題点を感じて「転身」。以後はコンピュータによる人間の共同作業支援の研究などに関わる。
一般知識の利用とのつながり WATSON http://www-03.ibm.com/innovation/us/watson/ 常識推論、一般的な質疑応答システム Cyc, OpenCyc (1984~) Open Mind Common Sense, ConceptNet (1999~) …. WATSON http://www-03.ibm.com/innovation/us/watson/ 2011年、クイズ番組 Jeopardy! で人間のクイズ王と対戦し、総合優勝した。 現在では IBM の汎用サービスとして実用化されている。 Wolfram Alpha 等、多くの検索・応答システムも自然言語インタフェースを備えている。
期末試験について(6/26 森田分、平賀分(別々の試験)を 一緒に実施する どちらも持ち込み不可 平賀分については、授業で取り上げた内容について、事項知識、発展的な内容(自由記述:研究の動向や展望等について)を取り上げるので、項目の復習とともに関連事項について調べておくこと。
期末試験について(6/26) (続) 平賀分について 期末試験について(6/26) (続) 平賀分について 事項知識についてはあまり細かいことは問わない(授業資料で大項目になっている事項の内容説明、語句穴埋めなど)。 項目・分野の英語名などを問う英語問題も出題する可能性があるので、重要項目については英語名も確認しておくこと。 問題解決型の設問として、命題論理、自然言語の解釈・曖昧性などの簡単なものを出題する可能性がある。 認知科学におけるコンピュータ・人工知能の役割や功罪などに関する記述式設問も出題する。
授業評価アンケート 森田分、平賀分についての記述を 合わせて記入する 授業終了時までに記入・提出 提出は前方机の白封筒に。 マークシートは提出必須 A4 用紙は、自由記入欄に記入した場合にのみ提出。記入がない場合は持って帰る。
自由課題(レポート) テーマは自由:授業に関係あれば何でも 提出は自由:加点要因としてのみ考慮 提出期限: 7/13 頃(予定) ゲーム・パズルを行うプログラムの作成 (パズル解決、問題作成等) 授業で取り上げたトピックについて、詳しく掘り下げたサーベイ、分析、評論等 提出は自由:加点要因としてのみ考慮 提出期限: 7/13 頃(予定) 詳しくは manaba で案内する。