並列構造に着目した係り受け解析の改善に関する研究 H20805m 認知科学専攻 毛受義晴 2019/6/3
発表の流れ 研究の背景 研究の目的 京都大学テキストコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3
研究の背景 Web、書籍などのテキスト情報が膨大な量 テキスト情報を整理、検索する技術が必要 係り受け解析 要約や情報抽出の基礎技術のひとつ 文を構成する要素(格,述語)の係り受けを判定 既存の係り受け解析器 KNP-3.01 (京都大学) CaboCha-0.53 (奈良先端科学技術大学院大学) 学習データは京都大学テキストコーパス 2019/6/3
研究の背景 86.7% 87.2% CaboChaについて 「CaboCha-0.53」と「CaboCha-0.60Pre4」の比較 バックトラックしない決定的な係り受け解析器 係り判定には機械学習 CaboChaのバージョン メジャー版 (CaboCha-0.53) 最新版 (CaboCha-0.60Pre4) 「CaboCha-0.53」と「CaboCha-0.60Pre4」の比較 CaboCha-0.53 CaboCha-0.60Pre4 形態素解析器 ChaSen MeCab モデル性能 依存、並列、同格 依存 係り精度(教科書) 86.7% 87.2% 2019/6/3
研究の目的 係り精度の向上 係り受け解析器CaboChaの解析失敗を分析 分析を元に係り受け改善パターンを作成 →並列構造、部分並列構造に着目 小学校、中学校の国語教科書を評価対象 2019/6/3
発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3
京都大学テキストコーパスについて 京都大学テキストコーパス(2007年) 毎日新聞 95年度(社説、記事あわせて約4万文) 毎日新聞 95年度(社説、記事あわせて約4万文) 文節に分割され、それらの係り先、係り関係が付与 依存(D) 並列(P) 同格(A) 部分並列(I) 2019/6/3
京大コーパスが扱う関係 依存関係(D) 同格関係(A) 項・述語関係と修飾・被修飾関係を表す 例) 私は 日本の 車を 持っている 私は 日本の 車を 持っている 同格関係(A) 依存関係でなく、意味的に同じ対象を表す 本研究では対象としない プログラマー 40人が ストライキを した D D D 依存関係とは以下の例文で説明すると、「私は」と「持っている」が項・述語関係であり、「日本の」と「車を」が修飾・被修飾の関係である。 A 2019/6/3
京大コーパスが扱う関係 並列構造(P) P 語と語や句と句が等位な関係である構造 例) 太郎と 次郎が 参加をした。 太郎と 次郎が 参加をした。 述語同士の並列関係は本研究では対象としない チーズを 食べ、 ビールを 飲んだ P 述語と述語の間に時間の経過がある場合は並列関係を認めない P 2019/6/3
京大コーパスが扱う関係 ・ 部分並列構造(I) お爺さんは山へ柴刈りに、お婆さんは川へ洗濯に行きました。 共有する述語によって束ねられた等位構造 本来なら係り受け関係にない文節同士を結びつける 例) お爺さんは山へ柴刈りに、お婆さんは川へ洗濯に行きました。 一文一格とは一つの文には一つの格しか出現しないという原則であり、この文だったら「二格」が2つあるので原則では非文となる。 お爺さんは 山へ 柴刈りに、 お婆さんは 川へ 洗濯に 行きました。 I I I I D P 2019/6/3
発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3
CaboChaのアルゴリズム CaboChaの解析フロー 例文 彼は彼女の温かい真心に感動した 例文 彼は彼女の温かい真心に感動した 形態素解析 彼 は 彼女 の 温かい 真心 に 感動 し た チャンキング 彼は 彼女の 温かい 真心に 感動した 係り受け解析 形態素解析= 単語を構成する最小の単位に分割する 彼は 彼女の 温かい 真心に 感動した 2019/6/3
CaboChaのアルゴリズム 彼は 彼女の 温かい 真心に 感動した 彼は 彼女の 真心に 感動した 彼は 真心に 感動した 彼は 感動した タグ O O O D O O 彼は 彼女の 真心に 感動した タグ O D O O O 彼は 真心に 感動した タグ O D O O 彼は 感動した タグ D O O 2019/6/3
CaboChaの問題点 CaboChaの解析プロセス 例文 彼は彼女の温かい真心に感動した 彼 は 彼女 の 温かい 真心 に 感動 し た 例文 彼は彼女の温かい真心に感動した 形態素解析 彼 は 彼女 の 温かい 真心 に 感動 し た チャンキング 彼は 彼女の 温かい 真心に 感動した 係り受け解析 彼は 彼女の 温かい 真心に 感動した 2019/6/3
CaboChaの問題点 CaboChaの問題点 主題を表す係助詞「は・も」を含む文節の係り先 例文) 当時の人々は、同じ場所に、長い間定住生活をしていた事が分かる -正しい係り -誤った係り -修正した係り CaboChaの問題点は2つあり、一つ目が「係助詞」の係り先がよく間違うこと。 この文では、「ことが」をそれまでの文節を名詞化する働きがあるので、「人々は」の正しい係り先は「していた」になる。 先頭から決定的に係りを判定するCaboChaのアルゴリズムでは、「人々は」と「していた」の係り判定をする段階まで、1度も「事が」を着目しない。よって、「ことが」の存在が分からない。よってこうした間違った係りが生じる。 当時の 人々は、 同じ 場所に、 長い間 定住生活を していた 事が 分かる。 2019/6/3
CaboChaの問題点 CaboChaの問題点 2. 並列構造の学習不足 例文) その周りには四つか六つの丸い影が必ずあるのです。 2. 並列構造の学習不足 -正しい係り -誤った係り -修正した係り 例文) その周りには四つか六つの丸い影が必ずあるのです。 二つ目は並列構造の学習が不足していること。例えば「四つか」と「六つの」は並列構造だが、CaboChaでは係り先、係り関係ともに間違っている。 決定的アルゴリズムで「四つか」と「六つの」の間に係らないと判定するのは判定器の学習不足と考えられる。また「助詞-か」が並列構造を持つという学習も不足している考えられる。 P その 周りには 四つか 六つの 丸い 影が 必ず あるのです。 並列構造 2019/6/3
CaboChaの問題点の原因分析 →CaboChaの結果に対し、大局的な情報を用いて修正を行う( 2パス) 局所的な構造に限定したアルゴリズム 2文節間の情報で係り判定をしている 2文節間の係り判定だけでは解析に失敗する構造がある →CaboChaの結果に対し、大局的な情報を用いて修正を行う( 2パス) 部分並列構造の検出 係助詞を持つ主題文節の係り先の修正 新聞記事にチューニングした係り判定器 →特に並列構造に着目し、改善パターンを作成 一方で、2文節間の局所的な情報をもとに係りを判定している。また、新聞記事を元にした京大コーパスを学習データに用いているため、正しい係りが判定されない事がある。 2019/6/3
発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3
提案手法 CaboCha-0.60に結果に対して修正を行う 係り受け解析 入力文 解析結果 係り受けの修正 改良した解析 (提案部分) (CaboCha 0.60 Pre4) 解析結果 係り受けの修正 (提案部分) 改良した解析 結果の出力 入力文 2019/6/3
提案手法 並列構造の修正パターン 例) 牛や 馬は 哺乳類です。 並立助詞 接続助詞(並立助詞) 名詞+読点 P P P P 「か」「や」「と」「とか」 例) 牛や 馬は 哺乳類です。 接続助詞(並立助詞) 「~たり」(~だり) 例)昨夜は食べたり、飲んだりした。 名詞+読点 例)花子は鉛筆、 筆箱、 キャップを貰った P 並列構造のパターン はじめに、助詞-並立助詞が文節末にある場合は、その係り先と並列の関係を持つようにします つぎに、文節の末に「助動詞-~タ形連用タリ形」がある場合は、係り先に同じパターンを持つ場合に並列の関係を持つようにする 最後に、「名詞-一般+読点」が連続して出現する場合も並列構造が考えられるので並列の関係を持つようにします。 P P P 2019/6/3
提案手法 部分並列構造:大局的な情報が必要な構造 お小遣いを 太郎は 600円、 次郎は 800円 貰った。 [CaboCha0.60の係り受け解析結果] お小遣いを 太郎は 600円、 次郎は 800円 貰った。 共有する述語 [新しい係り受け結果] お小遣いを 太郎は 600円、 次郎は 800円 貰った。 D I P I D 2019/6/3
提案手法 部分並列構造検出アルゴリズム(簡略版) お小遣いを 太郎は 600円、 次郎は 800円 貰った。 先頭から「読点」を含む文節を探す 「読点」を含む文節をjとする jの前後に「係助詞・格助詞」を含む文節を探しk,mとする 類似するk,mが見つかった場合は、jと類似する文節をmより後方で探し、zとする 類似性は文節を構成する形態素の一致パターンで判断 kとj,mとzの間をI関係、jとzの間をP関係で結ぶ お小遣いを 太郎は 600円、 次郎は 800円 貰った。 i=0 1 2 3 4 5 j j お小遣いを 太郎は 600円、 次郎は 800円 貰った。 i=0 1 2 3 4 5 k m z P I I
発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3
評価実験 実験環境 実験設定 Ubuntu Linux 8.04 Ruby 1.8.6 Mecab -0.97(ChaboCha0.60) ChaSen-2.3(CaboCha0.53) 実験設定 評価データ 小学校,中学校の国語教科書、26タイトル、1,100文 対象とする係り関係は依存関係、並列関係、部分並列関係 使用する解析器 CaboCha0.60Pre4 CaboCha0.53 2019/6/3
評価実験 評価基準 係り先と係り関係の両方が一致したら正解とする 係り関係は依存関係、並列関係、部分並列関係とする 2019/6/3
評価実験 結果 京都大学テキストコーパス 国語教科書 CaboCha-0.53 208,695 85.6% 45.6% 総係り数 精度 文正解率 CaboCha-0.53 208,695 85.6% 45.6% CaboCha-0.53+P 90.7% 59.8% CaboCha-0.60 236,453 86.1% 46.0% CaboCha-0.60+提案手法 88.1% 49.9% 総係り数 係り精度 文正解率 CaboCha-0.53 7,187 86.7% 48.2% CoboCha-0.53 P 89.0% 53.5% CoboCha-0.60 8,581 87.2% 49.2% CaboCha-0.60 +提案手法 90.1% 56.9% 2019/6/3
考察 解析の失敗例1 並列構造の見直しが必要 並列構造に対するパターンでは意味的な類似性を考慮していない →「缶ビールや」に近い「缶に」に係る 缶ビールや 缶に 入った お酒に、 「ビール」「おさけ」などと点字で書かれているのを見たこ とがある人も居るでしょう。 P 「缶ビールや」の正しい係り先は「お酒に」であるが、CaboChaは「缶に」に係り先を決定する。しかし、正解は「缶ビール」と「缶に入ったお酒に」が並列構造をとる係り受けである。本研究では用いた並列構造のパターンでは係り先を変更するパターンは使用していないので、こうした並列構造を捉えるには並列構造の範囲の推定を行うパターンを取り入れる必要がある。 2019/6/3
考察 解析の失敗例2 部分並列の検出 読点を含む文節(テレフォンカード)とその対になる文節(乗り物)の間に並列構造があるため、アルゴリズムでは「乗り物」を検出できない さらに、丸い切り込みは テレフォンカード、 三角は 電車や バスなどの 乗り物、 四角は 買い物のカードと、 切り込みの形によって種類が区別できるようになっています。 P I これは提案した部分解析アルゴリズムにおいて、 2019/6/3
まとめ 係り受け解析を2段階 国語教科書を対象にした評価実験では精度が3%向上 CaboChaの間違いに基づいたパターンにより、並列構造の係り受けを改善 大局的な情報を用いた部分並列構造の検出 国語教科書を対象にした評価実験では精度が3%向上 2019/6/3
今後の課題 主題を表す係助詞を含む文節の係り受けの改善 並列構造の範囲の推定 部分並列構造のアルゴリズムの改良 提案手法を取り入れた解析の失敗を分析し、新しいパターンの追加 同格関係の推定を対応 2019/6/3
ありがとうございます 2019/6/3
補足スライド 2019/6/3
KNP-3.01と提案手法の比較 5,943 89.6% 8,581 90.1% 総係り数 精度 KNP-3.01 解析対象:教科書 総係り数 精度 KNP-3.01 5,943 89.6% CaboCha0.60+P(提案手法) 8,581 90.1% KNP3.01より0.5%精度が高い
評価実験 並列構造の分布 部分並列構造の分布 P 割合 総係り数 476 8,581 正解になった並列の係り数 250 2.9% 正解にならなかった並列の係り数 226 2.6% 文数 正解した文数 割合 部分並列構造 7文 1文 0.6% 2019/6/3
実験で用いた類似度の判定 60 % 1200 万 円 文節を構成する形態素の一致度を用いる 例) 6月に 1200万円、 8月に 全体の 60% 達成する 60 % 1200 万 円 名詞-数 名詞-数 名詞-接尾-助数詞 類似パターン 名詞-数 + 名詞-数 名詞-数 + 名詞-接尾-助数詞 名詞-数 名詞-接尾-助数詞 類似パターン 名詞-数 + 名詞-接尾-助数詞 2019/6/3