多品詞語カギリのアノテーションとガイドライン 宮岡 大(九州大学文学部) 上山あゆみ(九州大学大学院人文科学研究院) 要旨 カギリという語は、名詞や接続助詞もしくは動詞など、いくつかの品詞にまたがる、さまざまな用法を持っている。このようなカギリのさまざまな用法について、分類ガイドラインを作成し、またそれにあたって、どのような困難な点があったかを明らかにする。実際にこのガイドラインに沿って、『現代日本語書き言葉均衡コーパス』(BCCWJ)によってアノテーションを試み、カッパ値を計算することで、ある程度信頼性のあるガイドラインが作成できたと結論づけた。 右のような分類ガイドラインができるまでに、以下のような問題点があった。 それぞれの問題について考察を行い、解決策を分類ガイドラインに反映させている。 問題となりうる点 カギリの分類ガイドライン A 時・条件 カギリを「~時」「~間は」「~ならば」 「~以上」「~からには」に置き換えられる 重さは記載がない限り、電池等を含まない本体 のみの数値です 今後,本書の数値計算では,断りのないかぎり g=9. B 限定 「期間の始点と終点+カギリ」の形式 カギリをダケに置き換えられる 「今日限りの特売」 「その場限り」「1回限り」など その場かぎりの人物が行きあたりばったりに選ばれる 最初から一晩かぎりだと思っていた C 期限 「期間の終点+カギリ」の形式 カギリをマデに置き換えられる 「今日限りで打ち切り」 「今季限りでの引退」など 楽屋に何日限りで公演を打切りにするという掲示を出す。 今期限りでの勇退を表明した三原市の山本清治市長(七十) D 極限 「感情・知覚した印象を表す語+カギリ」の 形式 「嬉しい限り」「うらやましい限り」 「愚かしい限り」など ☖8一歩などはつらい限りだ。 だが、肝心の歌唱力はお寒い限り。 E 範囲内 主に「知覚動詞+カギリ」の形式 「見た限り」「知る限り」 「参照する限り」など もっとも、「表2」を見るかぎり、今日でも地域系の団体は多い 気がついたかぎりでは一ヶ所ことばが変えてあるだけだ。 F 限度 いっぱい 主に「可能表現+カギリ」の形式 「できる限り」「声の限り」 「見渡す限り」など でも、当時だってできるかぎりのことをしたのよ。 丘の上は見渡す限り、墓、墓、墓の集落である。 G 制限 「この限り」「その限り」のみ そのかぎりで、創造性と個性と記念碑性とが一体となったゲームだ。 但し、これを拒絶した場合は、この限りでない」 (刑事訴訟法第百九十八条5項) H 慣用表現 「限り(助詞)ある」「限り(助詞)ない」 (下線部は活用する) その頃の日記の記述は、〈悔恨かぎりなし〉と惨憺たるものである。 その方のおやつの世界も限りあるものに留まる。 区別することが困難であった、「~時」「~間は」に置き換えられる時文,条件文と、「~からには」に置き換えられる原因・理由文のアノテーション 「今週限りの大安売り」「今週限りで引退する」といった、「期間+カギリ」という表現のアノテーション 前節する語が、感情を表すことや形容詞に限定されない「D:極限」の内容 「見た限り」「知る限り」といった場合の「E:範囲内」・「F:限度いっぱい」の区別 コーパス内で多用されている、「この限り」「その限り」,「限り(助詞)ある」「限り(助詞)ない」のアノテーション A0サイズ=A4サイズの4倍 よって単純計算で、 フォントサイズ 5p=実際の大きさ 20p フォントサイズ 7.5p=実際の大きさ 30p フォントサイズ 10p=実際の大きさ 40p フォントサイズ12.5p=実際の大きさ 50p フォントサイズ 15p=実際の大きさ 60p フォントサイズ17.5p=実際の大きさ 70p フォントサイズ 20p=実際の大きさ 80p フォントサイズ22.5p=実際の大きさ 90p フォントサイズ 25p=実際の大きさ100p アノテーション結果 『現代日本語書き言葉均衡コーパス』(BCCWJ)からカギリを含んだ例文を抽出し、上記の分類ガイドラインにしたがって、実際にアノテーションを行った。 ガイドライン設計者1人(評価者1)と九州大学文学部の学生1人(評価者2)で500件のアノテーションを行ない、それぞれのアノテーション結果からカッパ値を計算したところ、0.798 となった。ある程度、信頼性のあるガイドラインが作成できたことになる。 (出典の内訳は、PBから300,PMから61,LBaから57,PNから52,OTから30) 参照文献 宇津木舞香, 佐藤未歩, 青木花純, 田中リベカ, 川添愛, 戸次大介 (2014) 「MCNコーパスにおける形式名詞「はず」「わけ」「つもり」のアノテーション」, 言語処理学会第20回年次大会発表論文集, pp.1067-1070. 川添愛, 齊藤学, 片岡喜代子, 崔栄殊, 戸次大介 (2011) 「言語情報の確実性に影響する表現およびそのスコープのためのアノテーションガイドライン Ver.2.4」, Technical Report of Department of Information Science, Ochanomizu University, OCHA-IS 10-4. 田中リベカ, 小池恵里子, 戸次大介, 川添愛 (2012) 「言語学テストに基づく意味アノテーションのガイドライン設計―確実性判断に関わる表現を中心に」, 言語処理学会第18 回年次大会発表論文集, pp.401-404. 謝辞 本ガイドラインの原型は、九州大学文学部での授業の中で、第一著者がメンバーであるグループで作成されたものである。同じグループのメンバーである、吉武柚里氏、香月望美氏、井上郁菜氏に感謝する。また、本研究は科研費基盤研究(C) No.16K02631の助成を受けたものである。 仁田円 (2004) 「条件文の周辺形式「場合(には)」と「かぎり(は)」について-時間を表す文との関連を中心に-」, 『大阪大学留学生センター研究論集 多文化社会と留学生交流』8号, pp. 37-53. 1\2 A B C D E F G H 計 230 1 11 8 252 2 14 7 21 4 25 46 55 18 78 106 19 241 13 9 22 75 93 28 500