Presentation is loading. Please wait.

Presentation is loading. Please wait.

日本語文章の事象に対する 判断情報アノテーション

Similar presentations


Presentation on theme: "日本語文章の事象に対する 判断情報アノテーション"— Presentation transcript:

1 日本語文章の事象に対する 判断情報アノテーション
奈良先端科学技術大学院大学 江口 萌, 松吉 俊, 佐尾 ちとせ, 乾 健太郎, 松本 裕治 今から「日本語文章の事象に対する判断情報アノテーション」と題しまして、奈良先端大学、江口が発表させて頂きます。 2009/09/28 NL   

2 背景 文には事象だけではなく、事象に対する態度表明者の表明する態度や価値判断、真偽判断(モダリティ情報)が含まれている
山口県に旅行に行きたいなぁ。 噂によると太郎は旅行に行ったらしい。 明日雨が降ったら、外出しません。 仮想的なこと? 欲求?叙述? 働きかけ? 文には誰がどこで何をしたという事象に対する、態度表明者の表明する態度や価値判断、真偽判断などの情報が含まれています。 例えば行為の成立を欲求していたり、ただ単に叙述しているのか。 テキストが誰の発言なのか、この事象が実際に起きたことなのか、未来に起こりそうなことなのか、 それとも、ただ単に仮定しているだけの現実世界とは関係のない仮想的なことなのかなどです。 本研究ではこれらの情報をモダリティ情報と呼んでおり、 我々はこのモダリティ情報を解析する事を最終目標としています。 実際に起きたこと? これから起こりそうなこと? 誰の発言?

3 モダリティ情報解析の重要性 情報に対する確信度ごとに分類可能 情報抽出や質問応答、含意認識など 製品Eには発がん性がある
推量 N博士によると製品Eには発がん性があるらしい。 伝聞 製品Eには発がん性があるって噂だよね。 伝聞 製品Eには発がん性があるんじゃないかな。 推量 製品Eには発がん性があるのはたしかだ。 断定 おそらく製品Eには発がん性があるのだろう。 推量 例えば、ここに挙げた全ての文は、「製品Eには発がん性があるコト」という事象の成立を肯定していますが、 (エンター) 「断定」「推量」「伝聞」と事象に対するモダリティが異なります。 にもかかわらず、現在の情報検索では、「製品E 発がん性」で検索した場合、 ここで挙げたようなモダリティの異なる情報が混在して表示されます。 もしも、モダリティ情報が解析されれば、事象の成立に関して確信度の異なる記述を分類して出力する事ができます。 また、誰による態度表明なのかなどを解析する事により情報の信憑性を判断する手がかりになることもできます。 さらに、モダリティ情報の解析は、情報検索だけではなく、含意認識や質問応答などにも重要な技術だといえます。 情報に対する確信度ごとに分類可能 情報抽出や質問応答、含意認識など

4 システム構築の順序 モダリティ情報を解析するシステムの構築 Step1:モダリティ情報タグ体系の設計 Step2:タグ付与コーパスの構築
過度に複雑な体系ではなく、広範囲の自然言語処理に有用で、現実的なタグ体系 事象に対するモダリティ情報を解析するシステムを構築するためには、 まずタグ体系の設計、そのタグ体系に基づいたコーパスの構築、最後に解析モデルというステップが必要となります。 今回は、 (エンター) タグ設計と、コーパスの構築について報告いたします。

5 システム構築の順序 モダリティ情報を解析するシステムの構築 Step1:モダリティ情報タグ体系の設計 Step2:タグ付与コーパスの構築
過度に複雑な体系ではなく、広範囲の自然言語処理に有用で、現実的なタグ体系

6 言語学におけるモダリティと肯定・否定 モダリティの分類[現代日本語文法4, 益岡2007] 肯定と否定[現代日本語文法3] 真偽判断
種 類 説 明 真偽判断 断定か、推量かの確信度 価値判断 必要か、許可できるか、そうでないか 表現類型 叙述、意志、疑問、感嘆、行動要求、勧誘 丁寧さ 普通体か、丁寧体か 伝達態度 聞き手の存在に対する話し手の意識のありよう 説明 文と先行文脈の関係づけ 次に、言語学におけるモダリティについてまとめます。 言語学では、大きくわけてこちらの6種類に分類されています。 断定されているか、推量しているのかを表す真偽判断のモダリティ、 必要か、許可、許容できるのかという、事象の成立に対して書き手が望む態度を表す価値判断、 意志、疑問なのどの感情や、行動要求や勧誘などの相手に対し行動を促すような態度を表す表現類型、 そのほか、聞き手に対する丁寧さを表すもの、 話し手の意識のありようを表すもの、先行文脈との関係づけを表すモダリティが存在します。 本研究では、下の3つのモダリティは情報抽出において、あまり重要でないと思われるので扱いません。 また、事象の成立は肯定、不成立は否定で表わされます。 ・ていねいさのモダリティ:聞き手に対する話し手の態度を表す。「~です」「~ます」等の形式が用いられる。不特定多数の人々を対象とした文章にも用いることができる。 ・伝達態度のモダリティ:聞き手に対する話し手の態度を表す。「~よ」「~ね」等の形式が用いられる。特定の聞き手に対して発話される「対話文」にのみ現れる。 ・説明のモダリティ:当該の記述がある事柄に対する説明として用いられることを表す。「~のだ」「~のです」「~わけだ」「~わけです」等の形式が用いられる。 肯定と否定[現代日本語文法3] 種 類 説 明 肯否極性 事象の成立、不成立 6 6

7 情報の信憑性判断に有用な項目 態度表明者 態度を表明している人物や団体など 時制 未来、過去、現在かどうか 仮想性
種 類 説 明 態度表明者 態度を表明している人物や団体など 時制 未来、過去、現在かどうか 仮想性 仮想世界の話であるのかどうか 真偽 アスペクト 真偽が一方から他方へ変化するアスペクトを持っているかどうか 焦点 どの部分が否定、推量や疑問の焦点となっているのか 次に、モダリティと否定以外に、情報の信憑性を判断するための情報として有用であると考えられる項目をこちらに挙げます。 こちらの項目については、後ほど説明するので軽く説明いたしますが、 まず、モダリティの態度を表明している人などを表す態度表明者、 次に時制、 次に、事象が仮定的に述べられただけの仮想世界の話であるか、現実世界と関係があるのかどうかを捉える仮想性、 真偽アスペクトは、真偽が一方から他方へ変化するアスペクトを事象が持っているかどうかを、 焦点は、どの部分が否定、推量や疑問の焦点となっているのかを表します。 我々は、これらのモダリティとその周辺項目を考慮しタグ設計を行いました。

8 関連研究 ○ × タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点
推量の Rubinら 語や句 × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら 次に、先ほどの項目を関連研究がどの様に網羅しているのかをまとめたものを示します。 現在、これらの項目について全て網羅しているものはありません。 この中から、比較的○の多い2つの研究について詳しく述べます。

9 関連研究 ○ ○ 文中の事象、時間情報、事象間の関係を表すためのマークアップ言語 × ×
タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の Rubinら 語や句 × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の TimeML 事象 × 文中の事象、時間情報、事象間の関係を表すためのマークアップ言語 John must not teach twice. John must not <EVENT> teach</EVENT> <MAKEINSTANCE tense=“PRESENT” modality =“must”/> twice. ・表現類型(modality)は、述語に接続する助動詞を  直接記述 ・日本語に直接適用できない まず、TimeMLです。 これは、文中の事象や時間情報、また事象間の関係を表す為のマークアップ言語であり、 例えばこの様な文の場合、Eventタグで事象を、tenseで時制、モダリティで表現類型を扱っています。 TimeMLにおいて、表現類型は、述語に接続する助動詞をこの例ではmustのように直接記述しており、 日本語に直接適応はできません。 日本語は述語の後にたいてい複数の助動詞が接続する言語であるため。

10 関連研究 ○ ○ 文中の事象に対して態度表明者ごとに <確信度, 肯否極性>を記述 - TimeMLの体系の上に付与 × ×
タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の Rubinら 語や句 × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の FactBank 事象 × 文中の事象に対して態度表明者ごとに <確信度, 肯否極性>を記述 - TimeMLの体系の上に付与 She failed to follow the rules.      <確信度, 肯否極性> = <CT(断定的), -(否定)> ・否定の焦点や推量の焦点を扱っていない 次に、FactBankです。これは、文中の事象に対して態度表明者ごとにその事象に対する確信度と肯否極性を記述したもので、これはTimeMLの体系の上に付与されます。 例えば、この様な文では、これは断定的に事象は不成立だと述べられているというタグが付与されます。 また、FactBankでは、部分否定などの否定や推量の焦点を扱っていません。

11 関連研究 ○ ○ × 本研究 タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト
否定の 焦点 推量の Rubinら 語や句 × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら このように、モダリティ情報を部分的にカバーした研究はあるものの、これらの項目について包括的に捉えたタグ体系はいまだなく、 (エンター) そこで我々はこれらの項目について網羅的にカバーしたタグ体系の設計を行いました。 本研究 事象

12 本研究のタグ体系 態度 表明者 時制 仮想性 真偽判断 価値判断 焦点 態度 表明者
確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の 態度 表明者 時制 仮想性 真偽判断 価値判断 焦点 項目 説明 態度 表明者 対象とする事象の成否の判断や、他者への働きかけや問いかけをしている人物や団体など 時制 態度表明時から見た、対象事象の相対的な時制 仮想 仮定された条件の有無 叙述、意志、働きかけ、問いかけなどの伝達的態度 真偽判断 態度表明者による対象事象の真偽判断 価値判断 態度表明者による対象事象の価値判断 焦点 対象事象に関する否定や疑問などの焦点 我々は先ほどあげた項目を整理してこちらの7つ組のモダリティ情報タグを作成いたしました。 これらは、態度表明者、自制、仮想、態度、真偽判断、価値判断、焦点からなります。 今回は、特に重要な態度、真偽判断、焦点について詳しく述べていきます。 その他の項目については要旨を参照してください。

13 本研究のタグ付与対象・タグ付与例 文に存在する事象を対象とする 事象:行為、出来事、状態の総称 情報抽出への応用を考慮 しようと思う
                 しようと思う 来週から         を中止 この雑誌の購入 ①事象[この雑誌を購入するコト] ②事象[来週からこの雑誌の購入を中止するコト] ③事象[来週からこの雑誌の購入を中止しようと思うコト] 各項目の説明の前に、まず、タグを付与する対象について説明します。 本研究では、事象を付与対象としています。これは、情報抽出への応用を考慮したためです。 例えば「来週からこの雑誌の購入を中止しようと思う」という文があった場合、 「この雑誌を購入するコト」という事象 「来週から購入を中止するコト」、「来週から購入を中止しようと思うコト」という3事象が抽出されます。 この様な事象に対して、(エンター) 行為の例(雑誌を購入する) 出来事の例(地震が起こる) 状態の例(洗濯機はきれいだ) 来週からこの雑誌の購入を中止させるそうだという文の場合は、「~せる」という受動のヴォイスを含め、 「来週からこの雑誌の購入を中止させるコト」という事象となる。

14 本研究のタグ付与対象・タグ付与例 文に存在する事象を対象とする 事象:行為、出来事、状態の総称 情報抽出への応用を考慮 しようと思う
                 しようと思う 来週から         を中止 この雑誌の購入 ①事象[この雑誌を購入するコト] ②事象[来週からこの雑誌の購入を中止するコト] ③事象[来週からこの雑誌の購入を中止しようと思うコト] 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 意志 高確率から低確率 ネガティブ 7つの項目について、この様なイメージでタグが付与されます。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 未来 意志 高確率 ポジティブ 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 成立

15 <態度>(8種類) 態度表明者の中心的な態度を表す 叙述 京都には銀閣寺がありますし、歴史を感じます。 意志
タグ 例文 叙述 京都には銀閣寺がありますし、歴史を感じます。 意志 今夏、京都に行く予定です。 欲求 私は舞妓さんを見に行きたい。 働きかけ-直接 ぜひ心の都、京都に来て下さい! 働きかけ-間接 この京菓子をみんなに食べてもらいたい。 働きかけ-勧誘 是非私と一緒に古都へ行きましょう。 許可 明日、あなたは京都タワー見学を休んでもよい。 問いかけ あの店には何種類の金平糖があるのでしょうか。 今から、各項目について説明します。 まず態度です。これは、態度表明者の中心的な態度を表します。 タグとしてはこれらの8種類用意いたしました。 例えば「今夏、京都に行く予定です」という文は「今夏、京都に行くコト」という事象を成立させるという書き手の意志が記述されているために“意志”というタグを付与します。 他にも、欲求や、働きかけなどがあります。

16 <真偽判断>(9種類) 真偽判断のモダリティと肯否極性、一部のアスペクト情報を表す
事象の真偽に対する態度表明者の確信度を表現する “成立から不成立” “不成立から成立” “成立” “高確率” “0” “低確率” “不成立” 肯定の断定 肯定の推量 詳細不明 否定の推量 否定の断定 “高確率から低確率” “低確率から高確率” 次に、真偽判断です。これは真偽判断のモダリティと事象の肯否極性、そして成立から不成立のような一部のアスペクト情報を表しており、 事象の真偽に対する態度表明者の確信度を表現しています。 事象の肯否極性に関する軸にそって、タグを並べると、詳細不明を表す“0”を中心として、 肯定の推量を表す“高確率”、肯定の断定を表す“成立”のような並びとなります。 また、「不成立」から「成立」へと変化するような遷移も、“不成立から成立”のようなタグで表現しています。 例えば、「竜王山に行きたいです」は行く事を欲求はしていますが、未来に起こるかどうかは分からないので詳細不明を表す0を付与します。 「今後の山口県での活動は中止しました」は「今後、山口県で活動するコト」という事象が中止された事により成立から不成立へと変化したというタグが付与します。 吸うのを控えている は・・・成立から低確率の例。 学校を欠席した。 学校を欠席するっていう事象 不参加だった。 不参加って事象と考える。 事象そのものの真偽を言っているわけではないからか、不参加っていうのも成立。 タグ 例文 不成立 私は山口県には行ってません。 竜王山に行きたいです。 高確率 今夏、山口県に行く予定です。 成立から不成立 今後の山口県での活動は中止しました。

17 <焦点>(7種類) 対象事象の否定や推量などの焦点を表す
推量等の焦点になっている部分を除いた事象は成立していることが含意されることがある 含意認識への応用を考慮すると有用 太郎は仕事で行ったのではない。 事象[太郎が仕事で行くコト]は不成立 事象[太郎が行くコト]は成立 タグ 例文 真偽判断 否定(仕事で) 太郎は山口に仕事で行ったのではない。 不成立 推量(誰が) この夏みかんは誰が届けてくれたのだろうか。 詳細不明 問いかけ(何を) あの時、彼は何をお土産に買ったのですか? 最後に焦点です。これは、対象事象の否定や推量などの焦点を表します。 例えば、この様な文があった場合、これは太郎が仕事で行く事は否定していますが、太郎が行く事は肯定しています。 この様に、推量等の焦点になっている部分を除いた事象というのは、成立していることが含意されることがあります。 そのため、焦点を記述する事は含意認識への応用を考慮すると非常に有用だといえます。 例えば、「太郎は山口に仕事で行ったのではない」という文は「仕事で」行く事を否定しているために否定(仕事で)というタグが付与されます。

18 タグ付与例 それ以来、医師たちはその薬を使い始めました。 あの時彼女に真実を伝えるべきだった。
態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立から成立 あの時彼女に真実を伝えるべきだった。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立 ポジティブ こちららが、先ほども挙げましたが、実際のタグ付与例です。 一文目はその薬を使うことが、不成立から成立へと変化したという真偽判断を表現していますし、 二文目は、実際にはあの時彼女に真実を伝えることなく、不成立だったが、書き手は成立することを望んでいたという事を表現できています。 また、三文目は、三月からという推量の焦点を含む真偽は不確かであるが、そこから焦点のみを取り除いた事象の真偽は確かであることを表します。 おそらく3月から薬の使用をしていたと思われる。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 高確率 推量(3月から)

19 システム構築の順序 モダリティ情報を解析するシステムの構築 Step1:モダリティ情報タグ体系の設計 Step2:タグ付与コーパスの構築
過度に複雑な体系ではなく、広範囲の自然言語処理に有用で、現実的なタグ体系 次に、コーパスの構築について述べます。

20 モダリティ情報タグ付与コーパス 3種類のテキストを対象としてコーパスを構築 事象数 タグ付対象数 対象テキスト ブログ記事 一般Web 記事
村上らの コーパス 事象数 20,000 (5,687文) 4,858 (4,858文) 14,402 (2,878文) タグ付対象数 19,259(100%) 4,428(100%) 13,674(100%) 叙述 18,303(95%) 4,202(95%) 13,060(96%) 意志 394(2%) 89(2%) 244(2%) 欲求 261(1%) 21(0%) 51(0%) 働きかけ-直接 85(0%) 23(1%) 22(0%) 働きかけ-間接 131(1%) 53(1%) 218(2%) 働きかけ-勧誘 26(0%) 15(0%) 18(0%) 許可 3(0%) 0(0%) 7(0%) 問いかけ 56(0%) 25(1%) 54(0%) 現在、ブログ記事、一般Web記事、ならびに日本語言明間意味的関係コーパスという村上らのコーパスを対象としてコーパスを作成しました。 全てを合わせると、現在約4万事象に対してタグ付与が終了しています。 また、7項目の中でも態度のタグ分布を示します。 これを見るように、「叙述」というタグに偏っており、他の項目においても一つのタグに偏るという同様の傾向が見られます。

21 タグ付与の一致度 ランダムに選択された300事象に対してもう一名がタグ付与を行った Κ統計量は高い一致率を示した 態度 表明者 時制 仮想
真偽 判断 価値 焦点 左記の平均 7つ組全体 0.69 0.76 0.68 0.66 0.70 0.72 0.75 0.71 0.58 Κ統計量 一致の度合の目安 0.0~0.4 低い 0.4~0.6 中程度の一致 0.6~0.8 良い一致 0.8~1.0 ほぼ完全な一致 タグ体系を評価するためにランダムに選択した事象を対象に一致度の測定を行いました。 その結果、平均して0.71というカッパ統計量を示し、これはタグ付与しやすい体系だといえます。

22 タグ体系の問題点 動詞の可能形の扱い 態度表明者の意志が含まれていることがある アレルギーのため彼は酒が飲めません。
時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立 明日出張で今日は飲めません。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立 現状のタグ体系の問題点として、動詞の可能形の扱い、が挙げられます。 動詞の可能形で書かれた文には実は態度表明者の意志性が含まれていることがあります。 現在は、アレルギーの為お酒が飲めない、明日出張で今日はお酒が飲めないという2文に対して、同じ、叙述、不成立というタグを付与しています。 しかし、下の「明日出張で今日は飲めません」という例は、「今日は飲まないことにする」という態度表明者の意志性が含まれているように見えます。 このようなものに対して、現体系ではうまく区別することができていません。 上は、「彼は酒が飲めない体質です」という文であるのに対し、 下は「さあ、もっと飲んで飲んで」と言われたような場合に、 「すみません。明日出張だものですから、今日は飲めないんです」と答えた というような状況を想定して考えておけばよいと思います。 人は、文脈までを読んで意志性の有無を判断してタグ付与したくなりますが、 そういうことを廃するために、今はどちらも叙述としてしまっているけれど、 それで果たしてよいのかということですよね。 「今日は飲まないことにする」という意志

23 まとめと今後の課題 まとめ モダリティ情報タグ体系の提案 モダリティ情報タグ付与コーパスの構築 今後の課題
〈態度表明者, 時制, 仮想, 態度, 真偽判断, 価値判断, 焦点〉 仕様書を公開中( モダリティ情報タグ付与コーパスの構築 39,260事象(13,423文) 今後公開予定 今後の課題 国語研究所の日本語書き言葉コーパス(約5000万語)へのタグ付け モダリティ情報解析器の構築と洗練 まとめです。 本発表では、広義のモダリティ情報を表すタグ体系の提案を行い、コーパスの構築について報告させて頂きました。 今回発表させていただいた、モダリティ情報タグの詳しい仕様書は、こちらのURLで現在公開しています。 このURLは要旨の方にも記載しています。 また、構築したコーパスも今後同じURLについて公開する予定です。 また今後は、今回構築したコーパスに加え、国語研の日本語書き言葉コーパスについてもタグ付与を行い公開する予定です。 更に、コーパスを学習に用い、解析器の構築と洗練を行う予定です。


Download ppt "日本語文章の事象に対する 判断情報アノテーション"

Similar presentations


Ads by Google