日本語文章の事象に対する 判断情報アノテーション

Slides:



Advertisements
Similar presentations
日語文法研究 (大学院) 6月4日(木)~ 担当 神作晋一. 第 11 章 テンス ―― 述語のル形とタ形 ねらい: 述語のルとタは発話現在を基準に したテンス(時制)と見ることも プロセスの側面を捉えるアスペク ト(相)と見ることもできます。 ここでは、まずテンスとしてのル 形とタ形の対立について考えます。
Advertisements

第 23 課 花見の 人々は 楽しそうです 二 回 目. 1.助動詞そうだ:様態を表す 接続: § 形容詞語幹+そうだ ☆ない → なさそうだ ☆よい → よさそうだ § 形容動詞語幹+そうだ § 動詞Ⅰ連用形+そうだ.
CMU2005 海外エンジニアリングワークショップ参加報告書 1 「真の要求を見極めろ!」: teamB 要求定義をどう捉えるか ● 要求定義とは何か? 製品には、顧客の望むことを正しく反映させる必要がある。 そのために必要なものが要求仕様である。 すなわち、要求仕様とは、顧客と製品を結ぶものであり、これを作ることが要求定義である。
ムードⅠ ムードとは、事態や相手に対する話し手 ( 表現者)の判断や伝達 の仕方を表す形式。 話し手が、文をコミュニケーションの道具として使う場合、ある特定の事態の 表現だけでなく、その事態や相手に対する話し手の様々な判断・態度が同時に 表現される。 このように表現する人の判断や伝達の仕方に関係する要素が文末.
中級日本語 第8課 心を伝えるあいさつ 本 文 吉林華橋外国語学院 日本語学部 製作. 第8課 形式段落 第1段落 (ヨーロッパ旅行の経験談1) 外国人の人々は、自国の言葉で声をかけてくれる。 第2段落 (ヨーロッパ旅行の経験談2 ) 日本語で声をかけてくれる人もいて、大変親しみを感じた。 第3段落.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
日本人のリズム感.
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
日語会話  .
E-Testing 問題 戸田正明(上越・春日小).
動詞第三変化+から 動詞第四変化+ので cf:中止形「て」
001.「~っす」は敬語か? 2007年度国語学概説Ⅰ研究発表 野浪正隆.
国際政治経済特殊研究Ⅷ  飯野光浩 本・資料の読み方(英語編).
国内線で新千歳空港を利用している航空会社はどこですか?
「ICT社会におけるコミュニケーション力の育成」 研修モジュール C-6:ポスターセッション
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
実証分析の手順 経済データ解析 2011年度.
4.「血液透析看護共通転院サマリーVer.2」 の説明
経営学部 キャリアマネジメント学科 宮前 駿史
ユースケース図 FM12012 比嘉久登.
クイズ 「インターネットを使う前に」 ネチケット(情報モラル)について学ぼう.
重点目標 ことばを 大切にし  共に高まろう 受信→熟考→発信.
敬語を含む文体を敬体と言い、含まない文体を常体という
命令文.
モダリティ、真偽情報、価値情報を統合した拡張モダリティ解析
形態素解析および係り受け解析・主語を判別
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
ユースケース図2-4~ FM11012 中島拓也.
CSP記述によるモデル設計と ツールによる検証
「自分を理解し、理解してもらいたい」 自然な感情
物流への興味向上のためのVRを用いた近未来流通センターの構築
吉田 第三回 ヴァーチャル・ワールドでの倫理の可能性
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
松岡葵・宮本ひかる・岩下千咲・村田葵・劉テイテイ
スライド資料 C4 ICT機器を活用した授業づくり ④特別支援学校における ICT活用 兵庫教育大学の小川です。一応作者です。
練習問題アイテムバンクの開発研究 ~再生形式~
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
環境リスクマネジメントに関する 検索システム
薬の相互作用 G 中学・高校・一般 くすりの適正使用協議会 テーマG「薬の相互作用」の概略
投稿: 投稿前に考えよう レッスン#2:投稿 - 投稿する前に考えよう!
緑茶の興味向上のためのキャッチフレーズの提案
心のバリアフリー研修 基本プログラム例C 00:00.
対話による 日記継続作成支援システム なぜ日記か 提案システム BUT 利点を把握していても、 一人で日記を継続作成するのは難しい
フーコー 言説の機能つづき: ある者・社会・国の「排除」
ゲームの秘密を探ろう 第1時 小学校 学年 ひみつ さぐ ぼくはミクシって いうんだ。 いっしょにゲームのことかんがえようね
第 九 課 2019/4/6.
音声認識・翻訳 Android アプリケーション制作
シリーズ:著者の回答  質問 (韓国 K社、L.Y氏 開発・設計 )
音声分析 フーリエ解析の定性的理解のために.
4.「血液透析看護共通転院サマリーVer.2」
小学部児童が友だちに要求を 受け入れられなかったときに自傷をせず 言葉で伝えることができるための支援
役割課題への対処方法 参考資料.
井上郁菜 原田祐介 福井優志 白チリゲル 平川絢瑚 井上恵利佳
コンピュータにログイン 第1章 コンピュータにログイン 啓林館 情報A最新版 (p.6-13)
ダスキン サービスマスターの仕事 清潔で快適な環境づくりのお手伝い! 業務向け もっと たくさんある
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
本日のスケジュール 14:45~15:30 講義 15:30~16:15 企画書レビューシート記入 16:15~16:30 休憩
構造的類似性を持つ半構造化文書における頻度分析
演習1に関する講評 ~ 業務仕様を書く難しさ ~
学習成果ごとの評価方法 授業中の評価 ペーパーテスト 言語情報 運動技能 知的技能 認知的方略 態度 ・一問一答の発問
Googleマップを活用した 生物調査データベースの構築
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
情報ネットワークと コミュニケーション 数学領域3回 山本・野地.
テクニカル・ライティング 第4回 ~文章の設計法「KJ法」について~.
情報処理の概念 #0 概説 / 2002 (秋) 一般教育研究センター 安田豊.
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
映像を用いた 「からだ気づき」実習教材の開発
話し言葉における「け(れ)ど(も)」の使用 ―「が」との比較を通じて― 1.研究目的及び研究方法 ◆研究目的
Presentation transcript:

日本語文章の事象に対する 判断情報アノテーション 奈良先端科学技術大学院大学 江口 萌, 松吉 俊, 佐尾 ちとせ, 乾 健太郎, 松本 裕治 今から「日本語文章の事象に対する判断情報アノテーション」と題しまして、奈良先端大学、江口が発表させて頂きます。 2009/09/28 NL-193-5   

背景 文には事象だけではなく、事象に対する態度表明者の表明する態度や価値判断、真偽判断(モダリティ情報)が含まれている 山口県に旅行に行きたいなぁ。 噂によると太郎は旅行に行ったらしい。 明日雨が降ったら、外出しません。 仮想的なこと? 欲求?叙述? 働きかけ? 文には誰がどこで何をしたという事象に対する、態度表明者の表明する態度や価値判断、真偽判断などの情報が含まれています。 例えば行為の成立を欲求していたり、ただ単に叙述しているのか。 テキストが誰の発言なのか、この事象が実際に起きたことなのか、未来に起こりそうなことなのか、 それとも、ただ単に仮定しているだけの現実世界とは関係のない仮想的なことなのかなどです。 本研究ではこれらの情報をモダリティ情報と呼んでおり、 我々はこのモダリティ情報を解析する事を最終目標としています。 実際に起きたこと? これから起こりそうなこと? 誰の発言?

モダリティ情報解析の重要性 情報に対する確信度ごとに分類可能 情報抽出や質問応答、含意認識など 製品Eには発がん性がある 推量 N博士によると製品Eには発がん性があるらしい。 伝聞 製品Eには発がん性があるって噂だよね。 伝聞 製品Eには発がん性があるんじゃないかな。 推量 製品Eには発がん性があるのはたしかだ。 断定 おそらく製品Eには発がん性があるのだろう。 推量 例えば、ここに挙げた全ての文は、「製品Eには発がん性があるコト」という事象の成立を肯定していますが、 (エンター) 「断定」「推量」「伝聞」と事象に対するモダリティが異なります。 にもかかわらず、現在の情報検索では、「製品E 発がん性」で検索した場合、 ここで挙げたようなモダリティの異なる情報が混在して表示されます。 もしも、モダリティ情報が解析されれば、事象の成立に関して確信度の異なる記述を分類して出力する事ができます。 また、誰による態度表明なのかなどを解析する事により情報の信憑性を判断する手がかりになることもできます。 さらに、モダリティ情報の解析は、情報検索だけではなく、含意認識や質問応答などにも重要な技術だといえます。 情報に対する確信度ごとに分類可能 情報抽出や質問応答、含意認識など

システム構築の順序 モダリティ情報を解析するシステムの構築 Step1:モダリティ情報タグ体系の設計 Step2:タグ付与コーパスの構築 過度に複雑な体系ではなく、広範囲の自然言語処理に有用で、現実的なタグ体系 事象に対するモダリティ情報を解析するシステムを構築するためには、 まずタグ体系の設計、そのタグ体系に基づいたコーパスの構築、最後に解析モデルというステップが必要となります。 今回は、 (エンター) タグ設計と、コーパスの構築について報告いたします。

システム構築の順序 モダリティ情報を解析するシステムの構築 Step1:モダリティ情報タグ体系の設計 Step2:タグ付与コーパスの構築 過度に複雑な体系ではなく、広範囲の自然言語処理に有用で、現実的なタグ体系

言語学におけるモダリティと肯定・否定 モダリティの分類[現代日本語文法4, 益岡2007] 肯定と否定[現代日本語文法3] 真偽判断 種 類 説 明 真偽判断 断定か、推量かの確信度 価値判断 必要か、許可できるか、そうでないか 表現類型 叙述、意志、疑問、感嘆、行動要求、勧誘 丁寧さ 普通体か、丁寧体か 伝達態度 聞き手の存在に対する話し手の意識のありよう 説明 文と先行文脈の関係づけ 次に、言語学におけるモダリティについてまとめます。 言語学では、大きくわけてこちらの6種類に分類されています。 断定されているか、推量しているのかを表す真偽判断のモダリティ、 必要か、許可、許容できるのかという、事象の成立に対して書き手が望む態度を表す価値判断、 意志、疑問なのどの感情や、行動要求や勧誘などの相手に対し行動を促すような態度を表す表現類型、 そのほか、聞き手に対する丁寧さを表すもの、 話し手の意識のありようを表すもの、先行文脈との関係づけを表すモダリティが存在します。 本研究では、下の3つのモダリティは情報抽出において、あまり重要でないと思われるので扱いません。 また、事象の成立は肯定、不成立は否定で表わされます。 ・ていねいさのモダリティ:聞き手に対する話し手の態度を表す。「~です」「~ます」等の形式が用いられる。不特定多数の人々を対象とした文章にも用いることができる。 ・伝達態度のモダリティ:聞き手に対する話し手の態度を表す。「~よ」「~ね」等の形式が用いられる。特定の聞き手に対して発話される「対話文」にのみ現れる。 ・説明のモダリティ:当該の記述がある事柄に対する説明として用いられることを表す。「~のだ」「~のです」「~わけだ」「~わけです」等の形式が用いられる。 肯定と否定[現代日本語文法3] 種 類 説 明 肯否極性 事象の成立、不成立 6 6

情報の信憑性判断に有用な項目 態度表明者 態度を表明している人物や団体など 時制 未来、過去、現在かどうか 仮想性 種 類 説 明 態度表明者 態度を表明している人物や団体など 時制 未来、過去、現在かどうか 仮想性 仮想世界の話であるのかどうか 真偽 アスペクト 真偽が一方から他方へ変化するアスペクトを持っているかどうか 焦点 どの部分が否定、推量や疑問の焦点となっているのか 次に、モダリティと否定以外に、情報の信憑性を判断するための情報として有用であると考えられる項目をこちらに挙げます。 こちらの項目については、後ほど説明するので軽く説明いたしますが、 まず、モダリティの態度を表明している人などを表す態度表明者、 次に時制、 次に、事象が仮定的に述べられただけの仮想世界の話であるか、現実世界と関係があるのかどうかを捉える仮想性、 真偽アスペクトは、真偽が一方から他方へ変化するアスペクトを事象が持っているかどうかを、 焦点は、どの部分が否定、推量や疑問の焦点となっているのかを表します。 我々は、これらのモダリティとその周辺項目を考慮しタグ設計を行いました。

関連研究 ○ × タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の Rubinら 語や句 ○ × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら 次に、先ほどの項目を関連研究がどの様に網羅しているのかをまとめたものを示します。 現在、これらの項目について全て網羅しているものはありません。 この中から、比較的○の多い2つの研究について詳しく述べます。

関連研究 ○ ○ 文中の事象、時間情報、事象間の関係を表すためのマークアップ言語 × × タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の Rubinら 語や句 ○ × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の TimeML 事象 ○ × 文中の事象、時間情報、事象間の関係を表すためのマークアップ言語 John must not teach twice. John must not <EVENT> teach</EVENT> <MAKEINSTANCE tense=“PRESENT” modality =“must”/> twice. ・表現類型(modality)は、述語に接続する助動詞を  直接記述 ・日本語に直接適用できない まず、TimeMLです。 これは、文中の事象や時間情報、また事象間の関係を表す為のマークアップ言語であり、 例えばこの様な文の場合、Eventタグで事象を、tenseで時制、モダリティで表現類型を扱っています。 TimeMLにおいて、表現類型は、述語に接続する助動詞をこの例ではmustのように直接記述しており、 日本語に直接適応はできません。 日本語は述語の後にたいてい複数の助動詞が接続する言語であるため。

関連研究 ○ ○ 文中の事象に対して態度表明者ごとに <確信度, 肯否極性>を記述 - TimeMLの体系の上に付与 × × タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の Rubinら 語や句 ○ × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の FactBank 事象 ○ × 文中の事象に対して態度表明者ごとに <確信度, 肯否極性>を記述 - TimeMLの体系の上に付与 She failed to follow the rules.      <確信度, 肯否極性> = <CT(断定的), -(否定)> ・否定の焦点や推量の焦点を扱っていない 次に、FactBankです。これは、文中の事象に対して態度表明者ごとにその事象に対する確信度と肯否極性を記述したもので、これはTimeMLの体系の上に付与されます。 例えば、この様な文では、これは断定的に事象は不成立だと述べられているというタグが付与されます。 また、FactBankでは、部分否定などの否定や推量の焦点を扱っていません。

関連研究 ○ ○ × 本研究 タグ 付与対象 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の Rubinら 語や句 ○ × TimeML 事象 Prasadら 談話関係と事象 Medlockら Bioscope FactBank 川添ら このように、モダリティ情報を部分的にカバーした研究はあるものの、これらの項目について包括的に捉えたタグ体系はいまだなく、 (エンター) そこで我々はこれらの項目について網羅的にカバーしたタグ体系の設計を行いました。 本研究 事象 ○

本研究のタグ体系 態度 表明者 時制 仮想性 真偽判断 価値判断 焦点 態度 表明者 確信度 価値 判断 表現 類型 肯否 極性 態度 表明者 時制 仮想性 真偽 アスペクト 否定の 焦点 推量の 態度 表明者 時制 仮想性 真偽判断 価値判断 焦点 項目 説明 態度 表明者 対象とする事象の成否の判断や、他者への働きかけや問いかけをしている人物や団体など 時制 態度表明時から見た、対象事象の相対的な時制 仮想 仮定された条件の有無 叙述、意志、働きかけ、問いかけなどの伝達的態度 真偽判断 態度表明者による対象事象の真偽判断 価値判断 態度表明者による対象事象の価値判断 焦点 対象事象に関する否定や疑問などの焦点 我々は先ほどあげた項目を整理してこちらの7つ組のモダリティ情報タグを作成いたしました。 これらは、態度表明者、自制、仮想、態度、真偽判断、価値判断、焦点からなります。 今回は、特に重要な態度、真偽判断、焦点について詳しく述べていきます。 その他の項目については要旨を参照してください。

本研究のタグ付与対象・タグ付与例 文に存在する事象を対象とする 事象:行為、出来事、状態の総称 情報抽出への応用を考慮 しようと思う                  しようと思う ③ 来週から         を中止 ② この雑誌の購入 ① ①事象[この雑誌を購入するコト] ②事象[来週からこの雑誌の購入を中止するコト] ③事象[来週からこの雑誌の購入を中止しようと思うコト] 各項目の説明の前に、まず、タグを付与する対象について説明します。 本研究では、事象を付与対象としています。これは、情報抽出への応用を考慮したためです。 例えば「来週からこの雑誌の購入を中止しようと思う」という文があった場合、 「この雑誌を購入するコト」という事象 「来週から購入を中止するコト」、「来週から購入を中止しようと思うコト」という3事象が抽出されます。 この様な事象に対して、(エンター) 行為の例(雑誌を購入する) 出来事の例(地震が起こる) 状態の例(洗濯機はきれいだ) 来週からこの雑誌の購入を中止させるそうだという文の場合は、「~せる」という受動のヴォイスを含め、 「来週からこの雑誌の購入を中止させるコト」という事象となる。

本研究のタグ付与対象・タグ付与例 文に存在する事象を対象とする 事象:行為、出来事、状態の総称 情報抽出への応用を考慮 しようと思う                  しようと思う ③ 来週から         を中止 ② この雑誌の購入 ① ①事象[この雑誌を購入するコト] ②事象[来週からこの雑誌の購入を中止するコト] ③事象[来週からこの雑誌の購入を中止しようと思うコト] 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 意志 高確率から低確率 ネガティブ 7つの項目について、この様なイメージでタグが付与されます。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 未来 意志 高確率 ポジティブ 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 成立

<態度>(8種類) 態度表明者の中心的な態度を表す 叙述 京都には銀閣寺がありますし、歴史を感じます。 意志 タグ 例文 叙述 京都には銀閣寺がありますし、歴史を感じます。 意志 今夏、京都に行く予定です。 欲求 私は舞妓さんを見に行きたい。 働きかけ-直接 ぜひ心の都、京都に来て下さい! 働きかけ-間接 この京菓子をみんなに食べてもらいたい。 働きかけ-勧誘 是非私と一緒に古都へ行きましょう。 許可 明日、あなたは京都タワー見学を休んでもよい。 問いかけ あの店には何種類の金平糖があるのでしょうか。 今から、各項目について説明します。 まず態度です。これは、態度表明者の中心的な態度を表します。 タグとしてはこれらの8種類用意いたしました。 例えば「今夏、京都に行く予定です」という文は「今夏、京都に行くコト」という事象を成立させるという書き手の意志が記述されているために“意志”というタグを付与します。 他にも、欲求や、働きかけなどがあります。

<真偽判断>(9種類) 真偽判断のモダリティと肯否極性、一部のアスペクト情報を表す 事象の真偽に対する態度表明者の確信度を表現する “成立から不成立” “不成立から成立” “成立” “高確率” “0” “低確率” “不成立” 肯定の断定 肯定の推量 詳細不明 否定の推量 否定の断定 “高確率から低確率” “低確率から高確率” 次に、真偽判断です。これは真偽判断のモダリティと事象の肯否極性、そして成立から不成立のような一部のアスペクト情報を表しており、 事象の真偽に対する態度表明者の確信度を表現しています。 事象の肯否極性に関する軸にそって、タグを並べると、詳細不明を表す“0”を中心として、 肯定の推量を表す“高確率”、肯定の断定を表す“成立”のような並びとなります。 また、「不成立」から「成立」へと変化するような遷移も、“不成立から成立”のようなタグで表現しています。 例えば、「竜王山に行きたいです」は行く事を欲求はしていますが、未来に起こるかどうかは分からないので詳細不明を表す0を付与します。 「今後の山口県での活動は中止しました」は「今後、山口県で活動するコト」という事象が中止された事により成立から不成立へと変化したというタグが付与します。 吸うのを控えている は・・・成立から低確率の例。 学校を欠席した。 学校を欠席するっていう事象 不参加だった。 不参加って事象と考える。 事象そのものの真偽を言っているわけではないからか、不参加っていうのも成立。 タグ 例文 不成立 私は山口県には行ってません。 竜王山に行きたいです。 高確率 今夏、山口県に行く予定です。 成立から不成立 今後の山口県での活動は中止しました。

<焦点>(7種類) 対象事象の否定や推量などの焦点を表す 推量等の焦点になっている部分を除いた事象は成立していることが含意されることがある 含意認識への応用を考慮すると有用 太郎は仕事で行ったのではない。 事象[太郎が仕事で行くコト]は不成立 事象[太郎が行くコト]は成立 タグ 例文 真偽判断 否定(仕事で) 太郎は山口に仕事で行ったのではない。 不成立 推量(誰が) この夏みかんは誰が届けてくれたのだろうか。 詳細不明 問いかけ(何を) あの時、彼は何をお土産に買ったのですか? 最後に焦点です。これは、対象事象の否定や推量などの焦点を表します。 例えば、この様な文があった場合、これは太郎が仕事で行く事は否定していますが、太郎が行く事は肯定しています。 この様に、推量等の焦点になっている部分を除いた事象というのは、成立していることが含意されることがあります。 そのため、焦点を記述する事は含意認識への応用を考慮すると非常に有用だといえます。 例えば、「太郎は山口に仕事で行ったのではない」という文は「仕事で」行く事を否定しているために否定(仕事で)というタグが付与されます。

タグ付与例 それ以来、医師たちはその薬を使い始めました。 あの時彼女に真実を伝えるべきだった。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立から成立 あの時彼女に真実を伝えるべきだった。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立 ポジティブ こちららが、先ほども挙げましたが、実際のタグ付与例です。 一文目はその薬を使うことが、不成立から成立へと変化したという真偽判断を表現していますし、 二文目は、実際にはあの時彼女に真実を伝えることなく、不成立だったが、書き手は成立することを望んでいたという事を表現できています。 また、三文目は、三月からという推量の焦点を含む真偽は不確かであるが、そこから焦点のみを取り除いた事象の真偽は確かであることを表します。 おそらく3月から薬の使用をしていたと思われる。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 高確率 推量(3月から)

システム構築の順序 モダリティ情報を解析するシステムの構築 Step1:モダリティ情報タグ体系の設計 Step2:タグ付与コーパスの構築 過度に複雑な体系ではなく、広範囲の自然言語処理に有用で、現実的なタグ体系 次に、コーパスの構築について述べます。

モダリティ情報タグ付与コーパス 3種類のテキストを対象としてコーパスを構築 事象数 タグ付対象数 対象テキスト ブログ記事 一般Web 記事 村上らの コーパス 事象数 20,000 (5,687文) 4,858 (4,858文) 14,402 (2,878文) タグ付対象数 19,259(100%) 4,428(100%) 13,674(100%) 態 度 叙述 18,303(95%) 4,202(95%) 13,060(96%) 意志 394(2%) 89(2%) 244(2%) 欲求 261(1%) 21(0%) 51(0%) 働きかけ-直接 85(0%) 23(1%) 22(0%) 働きかけ-間接 131(1%) 53(1%) 218(2%) 働きかけ-勧誘 26(0%) 15(0%) 18(0%) 許可 3(0%) 0(0%) 7(0%) 問いかけ 56(0%) 25(1%) 54(0%) 現在、ブログ記事、一般Web記事、ならびに日本語言明間意味的関係コーパスという村上らのコーパスを対象としてコーパスを作成しました。 全てを合わせると、現在約4万事象に対してタグ付与が終了しています。 また、7項目の中でも態度のタグ分布を示します。 これを見るように、「叙述」というタグに偏っており、他の項目においても一つのタグに偏るという同様の傾向が見られます。

タグ付与の一致度 ランダムに選択された300事象に対してもう一名がタグ付与を行った Κ統計量は高い一致率を示した 態度 表明者 時制 仮想 真偽 判断 価値 焦点 左記の平均 7つ組全体 0.69 0.76 0.68 0.66 0.70 0.72 0.75 0.71 0.58 Κ統計量 一致の度合の目安 0.0~0.4 低い 0.4~0.6 中程度の一致 0.6~0.8 良い一致 0.8~1.0 ほぼ完全な一致 タグ体系を評価するためにランダムに選択した事象を対象に一致度の測定を行いました。 その結果、平均して0.71というカッパ統計量を示し、これはタグ付与しやすい体系だといえます。

タグ体系の問題点 動詞の可能形の扱い 態度表明者の意志が含まれていることがある アレルギーのため彼は酒が飲めません。 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立 明日出張で今日は飲めません。 態度表明者 時制 仮想 態度 真偽判断 価値判断 焦点 wr 非未来 叙述 不成立 現状のタグ体系の問題点として、動詞の可能形の扱い、が挙げられます。 動詞の可能形で書かれた文には実は態度表明者の意志性が含まれていることがあります。 現在は、アレルギーの為お酒が飲めない、明日出張で今日はお酒が飲めないという2文に対して、同じ、叙述、不成立というタグを付与しています。 しかし、下の「明日出張で今日は飲めません」という例は、「今日は飲まないことにする」という態度表明者の意志性が含まれているように見えます。 このようなものに対して、現体系ではうまく区別することができていません。 上は、「彼は酒が飲めない体質です」という文であるのに対し、 下は「さあ、もっと飲んで飲んで」と言われたような場合に、 「すみません。明日出張だものですから、今日は飲めないんです」と答えた というような状況を想定して考えておけばよいと思います。 人は、文脈までを読んで意志性の有無を判断してタグ付与したくなりますが、 そういうことを廃するために、今はどちらも叙述としてしまっているけれど、 それで果たしてよいのかということですよね。 「今日は飲まないことにする」という意志

まとめと今後の課題 まとめ モダリティ情報タグ体系の提案 モダリティ情報タグ付与コーパスの構築 今後の課題 〈態度表明者, 時制, 仮想, 態度, 真偽判断, 価値判断, 焦点〉 仕様書を公開中(http://cl.naist.jp/nltools/modality/) モダリティ情報タグ付与コーパスの構築 39,260事象(13,423文) 今後公開予定 今後の課題 国語研究所の日本語書き言葉コーパス(約5000万語)へのタグ付け モダリティ情報解析器の構築と洗練 まとめです。 本発表では、広義のモダリティ情報を表すタグ体系の提案を行い、コーパスの構築について報告させて頂きました。 今回発表させていただいた、モダリティ情報タグの詳しい仕様書は、こちらのURLで現在公開しています。 このURLは要旨の方にも記載しています。 また、構築したコーパスも今後同じURLについて公開する予定です。 また今後は、今回構築したコーパスに加え、国語研の日本語書き言葉コーパスについてもタグ付与を行い公開する予定です。 更に、コーパスを学習に用い、解析器の構築と洗練を行う予定です。