自然言語処理入門 「痛い?」「痛い」 東京大学 情報基盤センター (情報理工学系研究科、情報学府 兼担) 中川裕志 nakagawa@dl.itc.u-tokyo.ac.jp http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/

Slides:



Advertisements
Similar presentations
日語文法研究 (大学院) 5月7日(木)~ 担当 神作晋一. 第7章 ヴォイス1 ―― 受け 身 ねらい: ある事態をどのように捉えて伝え るかは、話し手の視点に依存しま す。 日本語の受け身文の特徴を理解し、 スルとサレルが表す話し手の事態 の捉え方の違いを考えます。
Advertisements

1 情報処理 II 第12回の 教材 高知大学理学部 数理情報科学科 1 回生い組対 象 数理情報科学科 1 回生い組対 象担当:塩田 プレゼンテーションソフト プレゼンテーションソフト PowerPoint.
ムードⅠ ムードとは、事態や相手に対する話し手 ( 表現者)の判断や伝達 の仕方を表す形式。 話し手が、文をコミュニケーションの道具として使う場合、ある特定の事態の 表現だけでなく、その事態や相手に対する話し手の様々な判断・態度が同時に 表現される。 このように表現する人の判断や伝達の仕方に関係する要素が文末.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
システム開発におけるユーザ要求の 明示的表現に関する一検討
人工知能特論2011 No.4 東京工科大学大学院 担当教員:亀田弘之.
人工知能特論2007 No.4 東京工科大学大学院 担当教員:亀田弘之.
プログラミング演習II 2004年11月 30日(第6回) 理学部数学科・木村巌.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
読解力・思考力を鍛える.
国内線で新千歳空港を利用している航空会社はどこですか?
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
データ構造と アルゴリズム 理工学部 情報システム工学科 新田直也.
三重大学教育学部 附属教育実践総合センター 須曽野 仁志
プログラミング基礎I(再) 山元進.
連体修飾節 欧志豪 南台科技大学応日所院生.
演習3 最終発表 情報科学科4年 山崎孝裕.
情報とコンピュータ 静岡大学工学部 安藤和敏
敬語を含む文体を敬体と言い、含まない文体を常体という
統率・束縛理論2.
講評:1500字ドラフト.
第十八課 条件を表す従属節 ねらい:条件とその帰結を表す形式のト、 キーワード: 条件節、条件文、前件、後件、論理式、
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
補助動詞 補助動詞とは助詞「て」「で」を通して他の語の後につけて一定の文法的な意味を付加する働きをする動詞のことである。
今日の目標 情報理論の概略を説明できる 情報とは何かを説明できる ニュースバリューの要因を示せる 科学的に扱う情報を確率の概念で説明できる
プレゼンテーションの仕方 学籍番号:?? 名前:?? 2017/3/17.
日英逐次通訳演習 通訳とは何か?  通訳教材データベース  [DB003A].
レポート課題2(2010中村) 理科二類8組 050100H 小山奈々.
第6章 ユニフィケーション解析 ユニフィケーション解析とは?
情報教育論 第9回 仮定文の仕組み 政策・メディア研究科 岡田 健.
形態素解析および係り受け解析・主語を判別
主格3形式と客格と「は」 -主語と客語- [1-2] 日本語構造伝達文法 この項は『日本語構造伝達文法(05版)』の
【会議の進め方】会議の定義:問題を解決する場であり情報を共有する場ではない 作成:増永寛之
日本語統語論:構造構築と意味 No.2 構造と意味解釈
個体記述型・事態記述型・理由供給型の違いについて
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
第34回応用言語学講座公開講演会 講師:金水 敏先生(大阪大学大学院教授) 直示とは何か:日本語を例に、その体系と歴史について
松岡葵・宮本ひかる・岩下千咲・村田葵・劉テイテイ
シミュレーション論 Ⅱ 第15回 まとめ.
自然言語処理及び実習 第11回 形態素解析.
6.2.4 辞書項目(1) 辞書項目にも、語に対するDAGを与える。
フーコー 言説の機能つづき: ある者・社会・国の「排除」
千葉大学とJSPS北京研究連絡センターとの共同シンポジウム
アマルティヤ・センの「財とその利用」 財、その特性と機能 p21~p22 特性 =財がもつ望ましい性質・利用。
日本語統語論:構造構築と意味 No.8 連体修飾
後期復習 概要 形態論 統語論 文字論 語用論 形態素 形態論的プロセス 単文の構造 格について ヴォイス・テンス・アスペクト・モダリティ
東京工科大学 コンピュータサイエンス学部 亀田弘之
競争の戦略 マイケル・E・ポーター 藤井 海太.
井上郁菜 原田祐介 福井優志 白チリゲル 平川絢瑚 井上恵利佳
0. ディジタル回路 五島 正裕.
絶対テンスと相対テンス(1) [4-3] 日本語構造伝達文法 絶対テンスと相対テンス(1)
ディジタル回路 五島 正裕.
理論研究:言語文化研究 担当:細川英雄.
第2章・補足 ソシュールの言語学 構造主義と記号論 記号の恣意性.
理論研究:言語文化研究 担当:細川英雄.
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
構造的類似性を持つ半構造化文書における頻度分析
5.チューリングマシンと計算.
「21世紀型コミュニケーション力の育成」研修モジュール A1 概要解説モジュール
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理2015 Natural Language Processing 2015
4.プッシュダウンオートマトンと 文脈自由文法の等価性
計算の理論 I NFAとDFAの等価性 火曜3校時 大月 美佳 平成16年5月18日 佐賀大学理工学部知能情報システム学科.
コンパイラ 2012年10月11日
情報とコンピュータ 静岡大学工学部 安藤和敏
自然言語処理2016 Natural Language Processing 2016
テクニカル・ライティング 第4回 ~文章の設計法「KJ法」について~.
話し言葉における「け(れ)ど(も)」の使用 ―「が」との比較を通じて― 1.研究目的及び研究方法 ◆研究目的
2010応用行動分析(3) 対人援助の方法としての応用行動分析
Presentation transcript:

自然言語処理入門 「痛い?」「痛い」 東京大学 情報基盤センター (情報理工学系研究科、情報学府 兼担) 中川裕志 nakagawa@dl.itc.u-tokyo.ac.jp http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/

参考文献 岩波講座 言語の科学 全11巻 東大出版会 言語と計算 対話、談話、語用論の書物は数え切れないほど多い 談話、対話は第7巻 岩波講座 言語の科学 全11巻 談話、対話は第7巻 東大出版会 言語と計算 談話、対話は第3巻、 対話、談話、語用論の書物は数え切れないほど多い あえて代表的古典といえば、 久野すすむ「談話の文法」 大修館

語用論と談話(省略と照応) 「痛い?」=「あなたは痛い?」 「痛い」 = 「私が(頭が)痛い」 わざわざ主語を言わなくても「痛い」のが誰かは分かる。 これは、省略(ellipsis)と照応(anaphora)と呼ばれる問題 省略(日本語では日常的。省略しないとかえって不自然) 「同社」「同容疑者」なども一種の省略 照応: 代名詞や省略されたものが何を指し示すかを推定する理論。英語においては代名詞は省略されないが、代名詞の指示対象を決める照応は、文理解にとって必須。

語用論と談話(省略と照応) 談話とは「連続する複数の文」。照応は談話の理解において各文(あるいは発話)の理解に必要。 視点 話し手自身も含め、話し手が最も共感している人。 「痛い」 = 「私は(頭が)痛い」: 私(=話し手)が視点 わざわざ主語を言わなくても「痛い」のが誰か分かるのは、「痛い」という述語がデフォールトで話し手を視点にする性質の述語だから。日本語の主観述語(かゆい、眠い、..)はこのような性質がある。 「痛い?」=「あなたは痛い?」 「?」が疑問を表わすので、話し手が「痛い」ことを知らないから、次の候補は聞き手=「あなた」になる。

語用論と談話(省略と照応) つづき 談話とは「連続する複数の文」。照応は談話の理解において各文(あるいは発話)の理解に必要。 視点 話し手自身も含め、話し手が最も共感している人。 「痛い」 = 「私は(頭が)痛い」: 私(=話し手)が視点 わざわざ主語を言わなくても「痛い」のが誰か分かるのは、「痛い」という述語がデフォールトで話し手を視点にする性質の述語だから。日本語の主観述語(かゆい、眠い、..)はこのような性質がある。 「痛い?」=「あなたは痛い?」 「?」が疑問を表わすので、話し手が「痛い」ことを知らないから、次の候補は聞き手=「あなた」になる。

視点 やる、あげる、くれる、もらう(久野の理論) 視点 やる、あげる、くれる、もらう(久野の理論) (1)高いスーツを買ってくれた。満足だ。 第2文の「満足だった」人は、(1)だと話し手、あるいは買ってもらった人。 ?(2)高いスーツを買ってやった。満足だ。(おかしな談話) (3)高いスーツを買ってやった。満足したようだ。 (3)では、「満足した」のはスーツを買ってもらった人。 このような現象をどうやって説明するのか。 「やる」「あげる」のガ格主語、「もらう」「くれる」の二格目的語 を視点といい、話し手が最も共感している人。(久野理論) 原則:主観述語の主語(=経験者)は視点

(2)話し手 (1)話し手 スーツを買ってやった人 スーツを買ってもらった人 =視点

視点 やる、くれる、もらう (1)高いスーツを買ってくれた。満足だ。 ?(2)高いスーツを買ってやった。満足だ。(おかしな談話) (3)高いスーツを買ってやった。満足なようだ。 「やる」「あげる」のガ格主語、「もらう」「くれる」の二格目的語 を視点といい、話し手が最も共感している人。 「満足だ」というような感覚を表わす述語は視点の感覚となる。(1) 「満足だ」は主観述語。第3者(=買ってもらった人)が主語になりにくい。(2)は視点=ガ格主語=話し手なのでおかしい。 (3)のように「ようだ」をつけて、第3者の感覚であることを明示すれば素直な日本語(モダリティの理論)

モダリティの理論(さわり) モダリティとは、文で記述されている事態(「命題」という)を話し手がどのような態度で記述するかを記述する理論。 命題への態度 話し手への態度 命題 聞き手 話し手

モダリティの理論(さわり) モダリティとは、文で記述されている事態(「命題」という)を話し手がどのような態度で記述するかを記述する理論。 「痛い」  モダリティなし。命題(=痛い)を直接表現。 「痛いらしい/みたい/そうだ」伝聞 「痛いようだ」話し手の観察した結果を判断 「痛いのだ」話し手が命題をわざと客観化して伝える婉曲 「痛いよお」終助詞も聞き手へのモダリティ

談話における照応の計算 -中心化理論ー 談話例 太郎は花子を映画に誘いました。 φ一日中何も手につきませんでした。 φは省略された代名詞を意味し、ゼロ代名詞という。さて問題はφは太郎と花子のどちらを指示するか? そして、その直観を説明するアルゴリズムは? ここでは、80年代後半から90年代にかけて主にアメリカで発展した中心化理論を説明する。

中心化理論 談話の局所的 結束性(=意味的なまとまりの良さ)を表す理論 談話単位=発話  U 前向き中心 Cf(U): Uにおいて実現されている体言のリスト 後ろ向き中心 Cb(U): Cfのうちの話の中心になっている要素 優先中心 max Cf(U): Cfを序列の高い順に並べたときの最高位の要素。 Cbは現在の発話の中心 vs. Cfは次の発話の中心(の候補) Cfの序列(日本語の場合) トピック(主題=ハ格)>視点>ガ格>二格>ヲ格>その他

continue smooth-shift retain rough-shift 発話 U1,U2,….で以下の制約が成り立つ ただひとつのCb(Ui)が存在 Cf(Ui)の全要素はUiで実現(文字として現れるかゼロ代名詞かゼロトピック(ZTA)) Cb(Ui)はCf(Ui-1)のうちから選ばれるなら、最高位の序列のもの Cf(Ui-1)のある要素がUi中で代名詞として実現しているなら、Cb(Ui)も代名詞としてUi中で実現される Cbの遷移には次の優先順序あり    continue > retain > smooth-shift > rough-shift Cb(Ui)=Cb(Ui-1) Or Cb(Ui-1)=不定 Cb(Ui)=max Cf(Ui) continue smooth-shift retain rough-shift

U0: 太郎はやっと試験が終わりました。 U1: φ1花子を映画に誘いました。 U2: φ2一日中何も手につきませんでした。 発話U中のゼロ代名詞φ1, φ2は、Uで実現されているとされる。    Cb Cf     遷移 U1 太郎   φ1=太郎(ガ)、花子(ヲ)    continue U2-a 太郎  φ2=太郎(ガ)     continue U2-b 花子  φ2=花子(ガ)  smooth-shift

例 continue > retain 太郎はパーティに招待された。 φ(ガ)花子をとても気に入った φ(ガ) φ(ヲ)昨日映画に誘ったらしい。

中心化理論によれば Cb=太郎、Cf={太郎、パーティ}、 Cb=太郎、 Cf={太郎(ガ)、花子(ヲ)}、 continue 太郎はパーティに招待された。 φ(ガ)花子をとても気に入った φ(ガ) φ(ヲ)昨日映画に誘ったらしい。 中心化理論によれば Cb=太郎、Cf={太郎、パーティ}、 Cb=太郎、 Cf={太郎(ガ)、花子(ヲ)}、 continue Cb=太郎、Cf={太郎(ガ)、花子(ヲ)} continue Cb=太郎、Cf={花子(ガ)、太郎(ヲ)} retain

Ui中のゼロ代名詞がCb(Ui-1)を指すとき、continueを得る手段が他にないなら、このゼロ代名詞をUiのゼロ主題にできる 太郎はデータの入力をしはじめた。 φ(ガ)やっと半分終わった 次郎がφ(二)古いデータを見せた φ(ガ)φ(二)いくつかの間違いを指摘してくれた

中心化理論によれば 太郎はデータの入力をしはじめた。 φ(ガ)やっと半分終わった 次郎がφ(二)古いデータを見せた φ(ガ)φ(二)いくつかの間違いを指摘してくれた 中心化理論によれば Cb=太郎、Cf={太郎、データ}、 Cb=太郎、 Cf={太郎(ガ)}、 continue Cb=太郎、Cf={次郎、太郎} retain Cb=次郎、Cf={次郎(視点)、太郎(ガ)} smooth-shift Cb=太郎、Cf={太郎(主題:二ハ)、次郎(ガ)} ゼロ主題-continue Cb=太郎、Cf={太郎(視点)、次郎(ガ)} continue

複文の場合 複文の場合の照応は、従属節と主節を単文化して談話として扱う。ただし、接続助詞の意味によってはいろいろな現象が現れる。接続助詞の種類による南不二夫の分類 A類:φ1電車に乗ってφ2学校に行った  φ1=φ2 B類:φ1早く帰ったのでφ2助かった  φ1=?φ2 C類:φ1高かったがφ2買った  φ1?φ2

複文の場合 複文の場合の照応は、従属節と主節を単文化して談話として扱う。ただし、接続助詞の意味によってはいろいろな現象が現れる。 (1)φ1苦しかったのでφ2早く寝た  φ1=φ2 ?(2)φ1苦しがったのでφ2早く寝た  φ1=φ2 (3)φ1苦しがったのでφ2早く寝させた  φ1=φ2 その他にもいろいろな要素が関連してくる。 主節、従属節の述語、アスペクト辞、時制 なお、現在の自然言語処理技術では、照応の計算機による推定はおよそ80%程度の正確さ

複文の場合 工業製品の取り扱い説明書の場合 (1)φガφヲ 押すと φ2出ます。 φガ=使用者、 φ2=製品の何かの部分 φガ=使用者、 φ2=製品の何かの部分 (2) φガφヲ押すとφ2出られます φガ= φ2=使用者 「と」は客観的な因果関係を表わす。さらに製品の説明だから、主節に製品の記述が必要。だから(1)の照応になる。 製品について確定的に記述すべき。よって「られます」という可能性は製品ではなく、使用者(=自由意志を持つ)が主語になるはず。 このようにドメインを限定すれば照応の手がかりがつかめることあり。

談話の大域的構造 太郎:生協で昼ご飯にしようぜ。 次郎:渋谷にうまいパスタ屋見つけたんだ。渋谷まで行く? 太郎:午後1の物理は出たいんだ? 次郎:あの物理、つまらないぜ。 太郎:お、知らないの?今日、レポートの問題がでるっていう噂だぜ。 次郎:そうか。物理はでなきゃならないか。 太郎:ところで、そうなると昼は? 次郎:生協でいいです。

談話の大域的構造 Groz & Sidner の意図構造 intentional structure 理論 談話の構造は、 言語構造=発話 の連続したもの(談話単位)を要素とする 意図構造(intentional structure)=談話目的 注意状態(attentional state)=焦点スタック からなる。 談話目的は、談話の進行によってさらに談話単位毎に談話副目的を生み出す。 談話目的A1は、それから派生した談話副目的A2を支配している。 A2の方がA1より先に充足されなければならない。 いくつかの談話(副)目的の間の関係を示すのが注意状態

談話の大域的構造 談話の構造は、 言語構造=談話単位 意図構造(intentional structure)=談話目的 注意状態(attentional state)=焦点スタック からなる。 焦点の要素は その談話単位の中で直接言及された要素 その談話単位の生成、理解の過程で参照された要素 その談話単位の談話(副)目的

談話の大域的構造 談話の構造は、目的と焦点スタックからなる。 太郎:生協で… 談話単位1(昼ご飯の場所) 太郎:生協で… 談話単位1(昼ご飯の場所) 次郎:渋谷に…    談話単位1 (1の対案の説得) 太郎:午後1… 談話単位1の達成のために副目的を出す。ここか                ら談話単位2が開始 次郎:あの物… 談話単位2 太郎:お、知… 談話単位2 次郎:そうか… 談話単位2(サブ目的達成) 太郎:ところ… 談話単位1へ戻る。 談話単位2のサブ目的達成、あ るいは、 cue phrase 「とろこで」によるものである。 次郎:生協で… 談話単位1の目的達成

1 2 3 4 5 6 7 8 談話の大域的構造 談話の構造は、目的と焦点スタックからなる。 焦点スタックは談話の進行につれて次のようになる。 1.で談話単位1の目的: DSP1をスタックの push 3. で談話単位2の目的をDSP2スタックの push 7. で談話単位2の目的:DSP2をスタックから pop して捨てる。再び、談話単位1の目的:DSP1がスタックのトップにあり、話題の焦点になる。 1 2 3 4 5 6 7 8 DSP1 DSP2

談話の構造を把握する手がかり 話題の転換: 例えば、中心化理論におけるCbの変化 助詞ハによる話題の設定 合図句(cue phrase) 「ところで」「さて」:焦点スタックのpop、新しい焦点の導入 「そのためには」「例えば」:新たな焦点を導入し、談話副目標を立てる 「...し終わったよ」「これでOK」:副目標の達成。焦点スタックの pop

グライスの理論 グライスは協調的対話における言外の情報伝達の仕組みを説明する4つの格率を提案した。 質の格率(maxim of quality):真なる発言をすること 嘘を言わない。 十分な根拠のないことは言わない 量の格率(maxim of quantity) 要求に見合うだけの情報は与える 要求された以上の情報は与えない 関係の格率(maxim of relation): 関連性のあることを言う

グライスの理論 様態の格率(maxim of manner): 曖昧さの排除。多義性の排除。簡潔性。整然と 例: きのうは5人来た。 5人以上来ていても、論理的には正しいが、ちょうど5人と解釈。話し手が量の格率と様態の格率を満たすように話していると仮定しているから成立する。