シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム 堂腰裕明 小山聡 栗原正仁 (北海道大学大学院情報科学研究科) 近年の,コンピュータの能力の進化や応用の拡大に伴い,人とコンピュータをつなぐインタフェースも,より高度なものや扱いやすいものなど,幅広く求められるようになっている. そのインタフェースの多機能化の方向の一つとして,人間の感情の情報を利用しようというものがある.コンピュータによる人間の感情情報の読み取りや,コンピュータからの感情情報の発露など,感情の情報にはさまざまな利用法が考えられる. 本手法では,文章とその受信者の感情に焦点を当てる.具体的には,小説文章からの感情移入などを想定する.小説文章に人間がどのように感情移入し,自身の感情へと反映させるかを推測するため,その前段階として、文章表現が単純で易しめな類の文章を童話文と定義し,それら童話文での登場人物の感情を推測する. 研究背景と目的 本手法では,シソーラス情報として日本語Wordnetを利用した.日本語Wordnetでは,単語をsynsetと呼ばれる同義語のグループに分類しており,このsynsetごとに簡単な意味を付加し,それぞれのsynset同士の関係を記述している.synsetごとの関係としては,上位語,下位語などがある. 大規模シソーラスについて joy (嬉しさ) emotion (情感) feeling (感) state (動静) 上位語 synset構造の例 synset: joy(嬉しさ) 喜び、歓び、悦楽、楽しさ、愉悦… 提案手法 前処理 与えられた小説文章 形態素解析および係り受け解析・主語を判別 文1:おじいさん 文2:おとうさん 文3:近所のおじさん 文章ごとに主語を判別 登場人物ごとにそれぞれの場面の感情を推測 各文ごとに感情を示す語を判別 悲しい… 楽しい! 嬉しい! 1.対象となる文章への前処理 本手法で用いる小説文章は,「青空文庫」内で「児童書」とカテゴライズされた中で,「文学」の分野とされたものに対して,読解の敷居を下げるためにいくつかの前処理をしたものを用いる.前処理とは以下の四点である. 主語が曖昧な場合に補う 平仮名を自然な程度に漢字に直す 時系列がバラバラな場合正しく直す 登場人物のリストを予め与える 2.一文ごとに主語を判別 文章を係り受け解析し,さらに以下のような処理を行うことで,一文ごとに主語を判別する. 3.感情を示す語を判別 文章中の各語が属するsynsetに関して,上位語をたどる. このとき,名詞においてはemotion(情感)やfeeling(感)のsynsetが上位語に発見できる語を,感情を示している語とする.同様に動詞については,feel(感じる)やexperience(感じる)を上位語に探す. そうして,感情を表しているとされた語を判別することで,各文について,それぞれ対応する登場人物がどのような感情でいるか推測する. 1.句点を持つ文節を主たる述語とする 2.述語文節に係る文節を主語候補とする 3.主語候補の中から、格助詞「は」や 「が」を見つける 4.格助詞「は」「が」を持つ主語候補の 中で,述語に係るものを主語と判定 「おおかみと七ひきの子やぎ」について,全体を十一の場面に分割し,提案手法を用いて,各場面における登場人物の感情をそれぞれ推測した. また,大学生及び大学院生計九名に,十一の場面に分割した小説文章を読んで,同様に場面ごとの登場人物の感情を推測してもらい,提案手法がどれだけ人間の感性と近い結果を出せているか検証した. 推測する感情については,「喜び」「悲しみ」「怒り」「楽しさ」の四つに,判断不能という意味での「無」を加えた五つのうち,どれにあてはまるかという形で判定した. 実験 右図が実験の結果である.黒字が人間の推測した場面ごとの登場人物の感情であり,横のパーセンテージが,実験者のうちどれだけがその感情を推測したかを示している.赤字がシステムの出力である. システムが拾い切れなかった感情については,このシステムが直接的に感情を示す語にのみ反応し,文脈などで間接的に示している部分を見逃しているためと思われる. また、「喜び」以外の感情の反応の弱さに関して,日本語Wordnet内に収録されている語や,実験に用いた文章内の語が,必ずしも上位語にたどり着いていない場合が考えられる. 結果と考察 出力結果一覧