スルダノヴィッチ・イレーナ(国立国語研究所・リュブリャーナ大学) スホメル・ヴィット(マサリック大学言語処理センター) 小木曽智信(国立国語研究所) キルガリフ・アダム(レクシカルコンピューティング・リーズ大学) 第3回コーパス日本語学ワークショップ 2013 年 2 月 28 日

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

格成分から見た特許請求項の 概念モデリング 赤間 淳一(デジタル・インフォメー ション・ テクノロ ジー株式会社) 安彦 元(ミノル国際特許事務所) 綾木 健一郎(磯野国際特許商標事務 所) 片岡 敏光(株式会社パットブレーン) 2011/06/25.
日本語教育概論Ⅲ 日本語の語彙と意味 語彙とは? – 彙:集める、なかま – 語: word, 単語、一定の意味を持ち文を組み 立てる最小の独立した単位 – 語彙: vocabulary, 単語の集まり.
近代文語文を対象とした形態素 解析辞書・近代文語UniDic 小木曽智信・小椋秀樹・近藤明日子 (国立国語研究所) 日本語学会春季大会(於 日本大学)
日本語教授法 & 日本語教育とは  外国語としての日本語、 第二言語としての日本語 についての教育の総称である。
雑誌記事 DB の使用方法. 8-3 MAGAZINEPLUS データベース 38) 概要 MAGAZINEPLUS ( NICHIGAI/WEB サービス) – 約 30,000 誌、 11,000,143 件( 2010/01/22.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
Twitterの発言に基づくウェブページ推薦システム
言語体系とコンピュータ 第5回.
てやんでい!職人気質 株式会社ブースターテクノロジー
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
日本語教育における 発音指導の到達目標を考える
コーパス言語学 第1回.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
日本語統語論:構造構築と意味 No.1 統語論とは
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
東京工科大学 コンピュータサイエンス学部 亀田弘之
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
逆引き辞書の作成を可能にする 対訳辞書編集システムの構築
ことばとコンピュータ 2007年度1学期 第3回.
SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明)
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
日本語複合動詞の習得研究 ―使用実態の調査を中心に
部分形態素解析を用いた コーパスの品詞体系変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
セマンティックWebの現在 ISWC2005参加報告
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
日本語読解支援システム 『リーディング・チュウ太』の 難易度判定ツール
国語研日本語ウェブコーパス 検索系:梵天(BonTen)
日本語解析済みコーパス管理ツール 「茶器」
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
言語学 語のかたち② p.p
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
CSJセミナー参加報告 北村・徳田研究室 中村和寛.
 四段活用 動詞カード1 1 咲 「咲く」 命令形 已然形 連体形 終止形 連用形 未然形 け け く く き か.
明示的文法知識が 正確な言語使用に結びつかないケース 浦野 研(北海学園大学)
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
自然言語処理2016 Natural Language Processing 2016
東京工科大学 コンピュータサイエンス学部 亀田弘之
話し言葉における「け(れ)ど(も)」の使用 ―「が」との比較を通じて― 1.研究目的及び研究方法 ◆研究目的
Presentation transcript:

スルダノヴィッチ・イレーナ(国立国語研究所・リュブリャーナ大学) スホメル・ヴィット(マサリック大学言語処理センター) 小木曽智信(国立国語研究所) キルガリフ・アダム(レクシカルコンピューティング・リーズ大学) 第3回コーパス日本語学ワークショップ 2013 年 2 月 28 日

コーパス開発の背景 TenTen コーパス群ー JpTenTen コーパス構築 UniDic 短単位と長単位のアノテーション スケッチエンジンに載せた JpTenTen – コンコーダンス( + デモ) – 文法関係ファイルの整備・最新 語彙・文法情報のプロファイリングの例( + デモ) 2

コーパス開発の背景 3 ~ 100 万語 最初のコーパス ブラウン (1967) / 語彙調査、新聞データ、 EDR など 1 億語 大規模な均衡コーパス BNC(1994) / BCCWJ(2006 ~ 11) 1 億語以上 大規模なウェブコーパス WaCky プロジェクト( 2005 ~)/ JpWaC(4 億語、 2007), 5 億文のウェブコーパス (2009) な ど 100 億語 超大規模なウェブコーパス コーパスファクトリプロジェクト (2010) / 国研のプロジェクト、筑波大、 JpTenTen (2011,12) 、 16 億文のウェブコーパス (2013)

JpTenTen コーパス( 1 ) TenTen 群、「 Corpus Factory 」 (Kilgarriff 2010 ) –JpTenTen11 、 100 億語 ( Pomikalek&Suchomel 2012 ) 構築手順 1) 日本語言語モデル作成(ウィキペディア) ( Kilgarriff 2010 ) 2) このモデルを利用した日本語ウェべページのク ロール、 SpiderLing クローラー ( Pomikalek&Suchomel 2012 ) 3)JusText ( Pomikalek 2011 ) で、「文にあるテクスト だけ」( text in sentences only )の収集 4) 段落レベルで重複したデータの削除( de- duplicate ) ( Pomikalek 2011 ) 4

JpTenTen コーパス( 2 ) コーパスアノテーション 5 )形態素解析ツール MeCab 0.98 および電子化辞書 UniDic2.1.0 (短単位) (小木曽ら 2011 ) ‐品詞・活用形・活用型のマッピング(英訳) 6 ) Comainu 0.60 を利用し、 UniDic の長単位の処理および アノテーション(作業中、現時点サンプルコーパスだけ) コーパスからデータを抽出するための作業 7 ) 日本語の「文法関係ファイル」の作成 ‐以前の「文法関係ファイル」 ( Srdanović ら 2008 ) ‐ UniDic の英訳タグセットと正規表現を利用し、新しい関係 の 追加、ファイルの最新 8 )データの記号化と文法関係のコンパイルは、 SkE ( Kilgarriff 2004 ) が利用している Manatee というシステム 5

10,321,875,665 トークン (UniDic の短単位 ) 15,553,207 ウェブページ 734,758 ドメイン 443 GB (メタデータを含めて) ドメイン ComjpnetinfoOther ページ割 合 50%32%9%5%4% コーパスにあるトップ頻度の5ドメイ ン; ドメインごとのウェブページ割合 6

7

JpWaC コーパス ―ChaSen ‐ IPADIC – 単語の区切り方の揺れ 「株式会社」対「有限/会社」 – 表記のまとめ上げの問題 「ネギ」「ねぎ」「葱」 JpTenTen コーパスー MeCab ‐ UniDic – 揺れが少ない斉一な単位による解析 (小椋ら 2011 ) – 語彙素・語形・書字形・発音形という見出し語の階層構 造 – 短単位と長単位の付加 短単位:私 / は / 国立 / 国語 / 研究 / 所 / で / 日本 / 語 / を / 研究 / し / て / い る / 長単位:私 / は / 国立国語研究所 / で / 日本語 / を / 研究し / ている / 8

UniDic の品詞、活用形、活用型は英訳した上で コーパスに載せた 品詞 品詞 ( 英訳 ) 記述 代名詞 Pronpronoun 副詞 Advadverb 助動詞 Auxauxiliary_verb 助詞 - 係助詞 P.bindparticle(binding) 助詞 - 副助詞 P.advparticle(adverbial) 活用形 ( 英語 ) 記述 ク語法 ku_wrdku_wording 仮定形 - 一般 Cond.gconditional.general (katei) 仮定形 - 融合 Cond.intconditional.integrated (katei) 命令形 Impimperative (meirei) 已然形 - 一般 Real.grealis.general (izen) 活用型 活用形 (英 語)記述 カ行変格 ka_irrkahen_verb.irregular サ行変格 sa_irrsahen_verb.irregular ザ行変格 za_irrzahen_verb.irregular 上一段 - ア行 V1i.akamiichidan_verb_i_row.a_column 上一段 - カ行 V1i.kakamiichidan_verb_i_row.ka_column 9

スケッチエンジンに載せた JpTenTen (デモ) コンコーダンス 文法関係ファイルとワードスケッチ 10

検索方法:語彙素、語句、単語、文字、 CQL 機能 CQL ( Corpus Query Language 、コーパス検索言語) – 正規表現とデフォルト属性を基にした共起、文法的パターンな どの検索方法 – デフォルト属性の選択肢: 前 : 単語( word )、語彙素( lemma )、タグ( tag ) 今 : +語彙素読み( lemma_kana )、活用型( infl_type )、 活用形( infl_form ) 短単位で解析されたコーパスで短単位を指している 長単位で解析されたコーパスで長単位を指している 11 CQL の検索例 : [word=“ 研究 *"][word=" 者 "] [tag="N.*"][word=" 者 "] [tag="Ai.*" & infl_form="Attr.*" ]

キーワードのアノテーション、周りの単位のアノテーション、 様々なアノテーションタイプの表示選択 (1) キーワードの語彙素、 (2) キーワードの語彙素と品詞、 (3) キー ワードの単語・語彙素・読み方・品詞・活用型・活用形、 (4) キー ワードとコンテクストの語彙素と品詞 12

初めての日本語の「文法関係ファイル」 2007 年( Srdanović ら 2008 ) –Gahl ( 1998 )が提案した「 corpus query syntax ( コーパス検索シ ンタクス ) 」 – 主に ( 品詞)タグと正規表現を利用する 既存の「文法関係ファイル」を様々な面で整備・更新した。 (1) 「文法関係ファイル」に以前利用した ChaSen ‐ IPADIC のタグか ら MeCab-UniDic へのタグマッピングを行った。 (2) 品詞だけでなく、新たに活用型・活用形に基づいて正規表現で語 彙・文法パターンを作成した。 (3) 以前はカバーされなかった文法関係を新しく作成した。 13

連用形の活用形( infl_form=“Cont.*” )にある形容詞 ( tag="Ai.*" ) + 名詞‐普通名詞‐サ変可能( tag=“N.c.vs” ) *DUAL =modifier_Ai_cont/modifies_N+ する 2:[tag="Ai.*" & word!=" なく | 無く " & infl_form="Cont.*"] [tag="Pref"]? 1:[tag="N.c.vs"] 14 短単位 長単位

語彙・文法情報のプロファイリングの例( + デモ) 15

まとめた形のキーワードの プロファイリング 女性 WordSketch 女性 WordSketch 働く Word Sketch 働く Word Sketch 美しい Thesaurus 美しい Thesaurus WS Diff 女性 男性WS Diff 女性 男性 16

短単位により、言語単位がどのような部分か ら構成されているのか – 特に派生語と関連して、接尾辞、接頭辞、非自立 可能な品詞のそれぞれの特徴を調べる ( 例えば、形 + 「~らしい、~こい、~臭い」形 - 非自 立可能、「研究」 + 接尾辞) 長単位で、複数の単位からできている言語単 位の振る舞いを検討する – サ変動詞、複合名詞、複合動詞、のような複合語 ①キーワードの検索として、②検索結果として 17

18

19

20 頻度リスト 名詞 + 社

JpTenTen (長単位、サンプル)から取り出 した「研究者」および「興味深い」のプロ ファイリング 21 研究者 Word Sketch 長単位興味深い Word Sketch 長単位

語彙・品詞・活用形・活用型・パ ターンの頻度リスト ( UniDic 短単位) 名詞 - 普通名詞 - 一般 2. 助詞 ‐ 格助詞 3. 助動詞 4. 名詞 - 普通名詞 - サ変可 能 … 品詞活用形活用型 1. 連用形 - 一般 2. 終止形 - 一般 3. 連体形 - 一般 4. 連用形 - 促音便 … 1. 助動詞 - ダ 2. 五段 - ラ行 3. 助動詞 - タ 4. サ行変格 …

複数単位の抽出 マルチワードスケッチの例 新しく追加された機能 – それぞれのパターンにある単位からマルチワード スケッチページ( Multiword sketches )に飛ぶ – 例:最近の研究~、新たな研究~、とても興味深 い~ 23 研究 Word Sketch 最新_の_研究 ~ Word Sketch MWU

パターンの頻度リスト 「助詞‐接続助詞「て」+動詞‐非自立可能」 検索パターン : [tag="P.conj"& word=" て "] [tag="V.bnd"] 1964 年の国立国語研究所の「現代雑誌九十種の用語用字」のデータを基 にして、 日本語の補助動詞の相対頻度順 (Martin 2004, 512 ページ ) 24 類似しているが、微妙な違い 例:「てしまう」は Martin ( 2004 ) の表では「行く、くれる、くださ る」よりやや低い頻度、 JpTenTen の データでは「しまう」のほうがやや 頻度が高くなっている

100 億語の超大規模なコーパス構築 → – スケッチエンジンに載せたことで、今までできなかった言葉の組み合わ せなどの言語情報を取り出せるようになった。 長単位と短単位のアノテーション → – 以前より統一された短単位のデータ、以前にはなかった長単位のデータ が利用可能になった。 品詞タグだけでなく、活用形および活用型の英訳アノテーション → – 以前にはなかった活用形に関する詳細な情報を取り出せるようになった。 「文法関係ファイル」のデータの整備 → – 今まで取り出せなかった語と語の組み合わせおよびその振る舞いの情報 が抽出できるようになった。 可能な活用 – 日本語学、対照言語学、日本語辞書学、日本人学習者用英語辞書学、日 本語教育、日本語言語処理、心理学などの研究分野 25

ご清聴どうもありがとうございました 26

 スルダノヴィッチ・イレーナ, 仁科喜久子( 2008 )「コーパス検索ツール Sketch Engine の日本語版とその利用方法」『日本語科学』 23 号, 国書刊行会, 59–80  伝康晴・小木曽智信・小椋秀樹・山田篤・峯松信明・内元清貴・小磯花絵 ( 2007 )「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発 とその応用」『日本語科学』 22,  小椋秀樹・小磯花絵・冨士池優美・宮内左夜香・小西光・原裕( 2011 )国立国語 研究所内部報告書『『現代日本語書き言葉均衡コーパス』形態論情報規程集第 4 版 (上・下)』  小澤俊介, 内元清貴, 伝康晴( 2011 )「 BCCWJ に基づく中・長単位解析ツール」, 特定領域「日本語コーパス」平成 22 年度公開ワークショップ予稿集,  小木曽智信・伝康晴( 2011 )「 UniDic2.0: 言語資源としての電子化辞書」特定領 域研究「日本語コーパス」平成 22 年度全体会議予稿集,  Baroni, Marko & Kilgarriff, Adam (2006) Large linguistically-processed Web corpora for multiple languages, In Proceedings EACL Trento, Italy  Gahl, S., 1998, Automatic extraction of subcorpora based on subcategorization frames from a part-of-speech tagged corpus, ms., ICSI-Berkeley  Kilgarriff, Adam, Rychly, Pavel, Smrž, Pavel & Tugwell, David (2004). The Sketch Engine. Proceedings of EURALEX. France: Université de Bretagne

 Kilgarriff, A., Kovář, V., Krek, S., Srdanović, I., Tiberius, C. (2010). A Quantitative Evaluation  of Word Sketches. Proceedings of the XIV Euralex International Congress. Leeuwarden:Fryske Academy. 7pp.  Kilgarriff, Adam, Reddy, Siva, Pomikálek, Jan and Pvs, Avinesh (2010) A corpus factory for many languages. In proceedings of LREC, Malta  Martin, Samuel E. (2004) A reference grammar of Japanese. University of Hawai’i Press, Honolulu  Pomikalek, Jan (2011) Removing Boilerplate and Duplicate Content from Web Corpora. PhD thesis, Masaryk University, Brno  Pomikálek, Jan, Suchomel, Vít (2012) Efficient Web Crawling for Large Text Corpora. ACL SIGWAC Web as Corpus (at conference WWW)  Sharoff, S. (2006) Open-source corpora: using the net to fish for linguistic data, International Journal of Corpus Linguistics, 11 (4), pp. 435–462.  Srdanović, Irena, Erjavec Tomaz & Kilgarriff, Adam (2008). A web corpus and word-sketches for Japanese. Shizen gengo shori (Journal of Natural Language Processing) 15/  Srdanović, Irena, Ida, Naomi, Shigemori Bucar, Chikako, Kilgarriff, Adam, Kovar, Vojtech (2011). Japanese Word Sketches: Advantages and Problems. Acta Linguistica Asiatica, 1 (2) 28

国立国語研究所の言語コーパス整備計画 KOTONOHA スケッチエンジンツール Sketch Engine クローラ SpiderLing Comainu に関する参考文献 形態素解析辞書 UniDic MeCab: Yet Another Part-of-Speech and Morphological Analyzer 29