多品詞語カギリのアノテーションとガイドライン

Slides:



Advertisements
Similar presentations
11 月 17 日 インターネット検索の基礎 インターネット検索 最近の話題 宿題披露 興味を持っているものを検索してみ よう どんな時にインターネット検索するか 宿題 授業資料
Advertisements

第 23 課 花見の 人々は 楽しそうです 二 回 目. 1.助動詞そうだ:様態を表す 接続: § 形容詞語幹+そうだ ☆ない → なさそうだ ☆よい → よさそうだ § 形容動詞語幹+そうだ § 動詞Ⅰ連用形+そうだ.
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
メーリングリストにはHTMLメールは使わない HTML というのは、ホームページなどで使われる一種のプログラミング言語です。 この形式でメールを作成すると、文字の大きさや色を変えたり、カラフルな絵入りのメールを 簡単に作成できます。 けれども、対応していないメールソフトで受け取ると、せっかくの HTML.
1 通信教育学部 コンピュータ演習 Excel の書式設定と関数 授業ページ「コンピュータ演習(通信教育学 部)」を 開いてください。提出課題の一覧が掲載されてい ます。
「バリアフリーの心理学」(望月) 配布資料(10/ )
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
ひでき 平成17年4月12日 「日本教」モデルを ネットワーク分析する ひでき 平成17年4月12日.
背景と目的 結論と展望 材料と方法 結果と考察
001.「~っす」は敬語か? 2007年度国語学概説Ⅰ研究発表 野浪正隆.
言語体系とコンピュータ 第5回.
レポートの作成 効果的な発表の仕方.
【2.12】文字装飾機能内部設計書
日本語教育における 発音指導の到達目標を考える
L15 おいしいですね。 L16 私は野球が好きです。
相互評価システムの開発と大学情報科目における利用 柴田好章(名古屋大学大学院) 小川亮(富山大学教育学部)
地方公共団体オープンデータ推進ガイドライン および手引書の見直し(案)
神戸大学大学院国際文化学研究科 外国語教育論講座外国語教育コンテンツ論コース 神戸 花子
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
日本語統語論:構造構築と意味 No.1 統語論とは
情報とコンピュータ 静岡大学工学部 安藤和敏
日本語複合動詞の習得研究 ―使用実態の調査を中心に
日本語文章の事象に対する 判断情報アノテーション
情報基礎(Week7) ≪PowerPoint 2007を使ったドキュメント作成の基本≫
プレゼンテーションの仕方 学籍番号:?? 名前:?? 2017/3/17.
メンバー 香月望美・田平郁・中俣浪漫・山田歩実
形態素解析および係り受け解析・主語を判別
主格3形式と客格と「は」 -主語と客語- [1-2] 日本語構造伝達文法 この項は『日本語構造伝達文法(05版)』の
この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.
<参考資料> 文章の書き方 1)レポートの基本的構成 ①はじめに(ケースの全体像)・・・研究の動機 ②目的(研究の目的)
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
松岡葵・宮本ひかる・岩下千咲・村田葵・劉テイテイ
練習問題アイテムバンクの開発研究 ~再生形式~
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
自然言語処理及び実習 第11回 形態素解析.
受講日:   月  日 暗黙知の見える化ワーク 第3回 コミュニケーションと表情.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
当事者研究の記述の構造分析:向谷地・浦河べてるの家『安心して絶望できる人生』を対象として
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
日本の表音文字(ひらがな、かたかな)と漢字
日本語統語論:構造構築と意味 No.8 連体修飾
井上郁菜 原田祐介 福井優志 白チリゲル 平川絢瑚 井上恵利佳
 型推論3(MLの多相型).
依存関係の局所性を利用した プログラム依存グラフの 効率的な構築法
ProQuest Medical Evidence Matters
保守請負時を対象とした 労力見積のためのメトリクスの提案
東京工科大学 コンピュータサイエンス学部 亀田弘之
大規模コーパスに基づく同義語・多義語処理
大阪工業大学 情報科学部 情報科学科 学生番号 A 苧谷 真行
プログラミング言語論 第10回 情報工学科 篠埜 功.
自然言語処理2015 Natural Language Processing 2015
呂 雷寧 RO, Rainei (上海財経大学 外語学院・ 常勤講師)
第2章 統計データの記述 データについての理解 度数分布表の作成.
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
情報とコンピュータ 静岡大学工学部 安藤和敏
韓国人日本語学習者による多義動詞の習得における母語の影響 ―典型性と転移可能性の観点から―
自然言語処理2016 Natural Language Processing 2016
識別子の読解を目的とした名詞辞書の作成方法の一試案
探究科スライド 教材No.12.
東日本大震災後の子どもの津波体験と原発体験の特徴 ―小中高校生の作文のテキストマイニングより―
映像を用いた 「からだ気づき」実習教材の開発
話し言葉における「け(れ)ど(も)」の使用 ―「が」との比較を通じて― 1.研究目的及び研究方法 ◆研究目的
Presentation transcript:

多品詞語カギリのアノテーションとガイドライン                             宮岡 大(九州大学文学部)                             上山あゆみ(九州大学大学院人文科学研究院) 要旨       カギリという語は、名詞や接続助詞もしくは動詞など、いくつかの品詞にまたがる、さまざまな用法を持っている。このようなカギリのさまざまな用法について、分類ガイドラインを作成し、またそれにあたって、どのような困難な点があったかを明らかにする。実際にこのガイドラインに沿って、『現代日本語書き言葉均衡コーパス』(BCCWJ)によってアノテーションを試み、カッパ値を計算することで、ある程度信頼性のあるガイドラインが作成できたと結論づけた。  右のような分類ガイドラインができるまでに、以下のような問題点があった。  それぞれの問題について考察を行い、解決策を分類ガイドラインに反映させている。 問題となりうる点 カギリの分類ガイドライン A 時・条件 カギリを「~時」「~間は」「~ならば」 「~以上」「~からには」に置き換えられる    重さは記載がない限り、電池等を含まない本体 のみの数値です  今後,本書の数値計算では,断りのないかぎり g=9. B 限定 「期間の始点と終点+カギリ」の形式 カギリをダケに置き換えられる 「今日限りの特売」 「その場限り」「1回限り」など  その場かぎりの人物が行きあたりばったりに選ばれる  最初から一晩かぎりだと思っていた C 期限 「期間の終点+カギリ」の形式 カギリをマデに置き換えられる 「今日限りで打ち切り」 「今季限りでの引退」など  楽屋に何日限りで公演を打切りにするという掲示を出す。  今期限りでの勇退を表明した三原市の山本清治市長(七十) D 極限 「感情・知覚した印象を表す語+カギリ」の 形式 「嬉しい限り」「うらやましい限り」 「愚かしい限り」など  ☖8一歩などはつらい限りだ。  だが、肝心の歌唱力はお寒い限り。 E 範囲内 主に「知覚動詞+カギリ」の形式 「見た限り」「知る限り」 「参照する限り」など  もっとも、「表2」を見るかぎり、今日でも地域系の団体は多い  気がついたかぎりでは一ヶ所ことばが変えてあるだけだ。 F 限度 いっぱい 主に「可能表現+カギリ」の形式 「できる限り」「声の限り」 「見渡す限り」など  でも、当時だってできるかぎりのことをしたのよ。  丘の上は見渡す限り、墓、墓、墓の集落である。 G 制限 「この限り」「その限り」のみ  そのかぎりで、創造性と個性と記念碑性とが一体となったゲームだ。  但し、これを拒絶した場合は、この限りでない」 (刑事訴訟法第百九十八条5項) H 慣用表現 「限り(助詞)ある」「限り(助詞)ない」 (下線部は活用する)  その頃の日記の記述は、〈悔恨かぎりなし〉と惨憺たるものである。  その方のおやつの世界も限りあるものに留まる。 区別することが困難であった、「~時」「~間は」に置き換えられる時文,条件文と、「~からには」に置き換えられる原因・理由文のアノテーション 「今週限りの大安売り」「今週限りで引退する」といった、「期間+カギリ」という表現のアノテーション 前節する語が、感情を表すことや形容詞に限定されない「D:極限」の内容 「見た限り」「知る限り」といった場合の「E:範囲内」・「F:限度いっぱい」の区別 コーパス内で多用されている、「この限り」「その限り」,「限り(助詞)ある」「限り(助詞)ない」のアノテーション A0サイズ=A4サイズの4倍 よって単純計算で、 フォントサイズ 5p=実際の大きさ 20p フォントサイズ 7.5p=実際の大きさ 30p フォントサイズ 10p=実際の大きさ 40p フォントサイズ12.5p=実際の大きさ 50p フォントサイズ 15p=実際の大きさ 60p フォントサイズ17.5p=実際の大きさ 70p フォントサイズ 20p=実際の大きさ 80p フォントサイズ22.5p=実際の大きさ 90p フォントサイズ 25p=実際の大きさ100p アノテーション結果  『現代日本語書き言葉均衡コーパス』(BCCWJ)からカギリを含んだ例文を抽出し、上記の分類ガイドラインにしたがって、実際にアノテーションを行った。  ガイドライン設計者1人(評価者1)と九州大学文学部の学生1人(評価者2)で500件のアノテーションを行ない、それぞれのアノテーション結果からカッパ値を計算したところ、0.798 となった。ある程度、信頼性のあるガイドラインが作成できたことになる。 (出典の内訳は、PBから300,PMから61,LBaから57,PNから52,OTから30) 参照文献 宇津木舞香, 佐藤未歩, 青木花純, 田中リベカ, 川添愛, 戸次大介 (2014) 「MCNコーパスにおける形式名詞「はず」「わけ」「つもり」のアノテーション」, 言語処理学会第20回年次大会発表論文集, pp.1067-1070. 川添愛, 齊藤学, 片岡喜代子, 崔栄殊, 戸次大介 (2011) 「言語情報の確実性に影響する表現およびそのスコープのためのアノテーションガイドライン Ver.2.4」, Technical Report of Department of Information Science, Ochanomizu University, OCHA-IS 10-4. 田中リベカ, 小池恵里子, 戸次大介, 川添愛 (2012) 「言語学テストに基づく意味アノテーションのガイドライン設計―確実性判断に関わる表現を中心に」, 言語処理学会第18 回年次大会発表論文集, pp.401-404. 謝辞 本ガイドラインの原型は、九州大学文学部での授業の中で、第一著者がメンバーであるグループで作成されたものである。同じグループのメンバーである、吉武柚里氏、香月望美氏、井上郁菜氏に感謝する。また、本研究は科研費基盤研究(C) No.16K02631の助成を受けたものである。 仁田円 (2004) 「条件文の周辺形式「場合(には)」と「かぎり(は)」について-時間を表す文との関連を中心に-」, 『大阪大学留学生センター研究論集 多文化社会と留学生交流』8号, pp. 37-53. 1\2 A B C D E F G H 計 230 1 11 8 252 2 14 7 21 4 25 46 55 18 78 106 19 241 13 9 22 75 93 28 500