並列構造に着目した係り受け解析の改善に関する研究

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
LZ符号化 森田 岳史.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
Twitterの発言に基づくウェブページ推薦システム
国内線で新千歳空港を利用している航空会社はどこですか?
JavaによるCAI学習ソフトウェアの開発
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
重文・複文の基本文型に対する 文型パターン辞書のカバー率
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
セマンティクスを利用した 図書検索システム
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
Entity-Centricな述語項構造解析・ 共参照解析の同時学習
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
意味・談話解析勉強会 チュートリアル 小町守.
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
構造的類似性を持つ半構造化文書における頻度分析
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
設計情報の再利用を目的とした UML図の自動推薦ツール
大規模コーパスに基づく同義語・多義語処理
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

並列構造に着目した係り受け解析の改善に関する研究 H20805m 認知科学専攻 毛受義晴 2019/6/3

発表の流れ 研究の背景 研究の目的 京都大学テキストコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3

研究の背景 Web、書籍などのテキスト情報が膨大な量 テキスト情報を整理、検索する技術が必要 係り受け解析 要約や情報抽出の基礎技術のひとつ 文を構成する要素(格,述語)の係り受けを判定 既存の係り受け解析器 KNP-3.01 (京都大学) CaboCha-0.53 (奈良先端科学技術大学院大学) 学習データは京都大学テキストコーパス 2019/6/3

研究の背景 86.7% 87.2% CaboChaについて 「CaboCha-0.53」と「CaboCha-0.60Pre4」の比較 バックトラックしない決定的な係り受け解析器 係り判定には機械学習 CaboChaのバージョン メジャー版 (CaboCha-0.53) 最新版 (CaboCha-0.60Pre4) 「CaboCha-0.53」と「CaboCha-0.60Pre4」の比較 CaboCha-0.53 CaboCha-0.60Pre4 形態素解析器 ChaSen MeCab モデル性能 依存、並列、同格 依存 係り精度(教科書) 86.7% 87.2% 2019/6/3

研究の目的 係り精度の向上 係り受け解析器CaboChaの解析失敗を分析 分析を元に係り受け改善パターンを作成 →並列構造、部分並列構造に着目 小学校、中学校の国語教科書を評価対象 2019/6/3

発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3

京都大学テキストコーパスについて 京都大学テキストコーパス(2007年) 毎日新聞 95年度(社説、記事あわせて約4万文) 毎日新聞 95年度(社説、記事あわせて約4万文) 文節に分割され、それらの係り先、係り関係が付与 依存(D) 並列(P) 同格(A) 部分並列(I) 2019/6/3

京大コーパスが扱う関係 依存関係(D) 同格関係(A) 項・述語関係と修飾・被修飾関係を表す 例) 私は 日本の 車を 持っている 私は 日本の 車を  持っている 同格関係(A) 依存関係でなく、意味的に同じ対象を表す 本研究では対象としない プログラマー 40人が ストライキを した D D D 依存関係とは以下の例文で説明すると、「私は」と「持っている」が項・述語関係であり、「日本の」と「車を」が修飾・被修飾の関係である。 A 2019/6/3

京大コーパスが扱う関係 並列構造(P) P 語と語や句と句が等位な関係である構造 例) 太郎と 次郎が 参加をした。   太郎と 次郎が 参加をした。 述語同士の並列関係は本研究では対象としない チーズを 食べ、 ビールを 飲んだ P 述語と述語の間に時間の経過がある場合は並列関係を認めない P 2019/6/3

京大コーパスが扱う関係 ・ 部分並列構造(I) お爺さんは山へ柴刈りに、お婆さんは川へ洗濯に行きました。 共有する述語によって束ねられた等位構造 本来なら係り受け関係にない文節同士を結びつける 例)  お爺さんは山へ柴刈りに、お婆さんは川へ洗濯に行きました。 一文一格とは一つの文には一つの格しか出現しないという原則であり、この文だったら「二格」が2つあるので原則では非文となる。 お爺さんは 山へ 柴刈りに、 お婆さんは 川へ 洗濯に 行きました。 I I I I D P 2019/6/3

発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3

CaboChaのアルゴリズム CaboChaの解析フロー 例文 彼は彼女の温かい真心に感動した 例文 彼は彼女の温かい真心に感動した 形態素解析 彼  は  彼女  の  温かい  真心  に  感動  し  た  チャンキング 彼は 彼女の 温かい 真心に 感動した 係り受け解析 形態素解析= 単語を構成する最小の単位に分割する 彼は 彼女の 温かい 真心に 感動した 2019/6/3

CaboChaのアルゴリズム 彼は 彼女の 温かい 真心に 感動した 彼は 彼女の 真心に 感動した 彼は 真心に 感動した 彼は 感動した タグ O O O D O O 彼は 彼女の 真心に 感動した タグ O D O O O 彼は 真心に 感動した タグ O D O O 彼は 感動した タグ D O O 2019/6/3

CaboChaの問題点 CaboChaの解析プロセス 例文 彼は彼女の温かい真心に感動した 彼 は 彼女 の 温かい 真心 に 感動 し た 例文 彼は彼女の温かい真心に感動した 形態素解析 彼  は  彼女  の  温かい  真心  に  感動  し  た  チャンキング 彼は 彼女の 温かい 真心に 感動した 係り受け解析 彼は 彼女の 温かい 真心に 感動した 2019/6/3

CaboChaの問題点 CaboChaの問題点 主題を表す係助詞「は・も」を含む文節の係り先 例文) 当時の人々は、同じ場所に、長い間定住生活をしていた事が分かる -正しい係り -誤った係り -修正した係り CaboChaの問題点は2つあり、一つ目が「係助詞」の係り先がよく間違うこと。 この文では、「ことが」をそれまでの文節を名詞化する働きがあるので、「人々は」の正しい係り先は「していた」になる。 先頭から決定的に係りを判定するCaboChaのアルゴリズムでは、「人々は」と「していた」の係り判定をする段階まで、1度も「事が」を着目しない。よって、「ことが」の存在が分からない。よってこうした間違った係りが生じる。 当時の 人々は、 同じ 場所に、 長い間 定住生活を していた 事が 分かる。 2019/6/3

CaboChaの問題点 CaboChaの問題点 2. 並列構造の学習不足 例文) その周りには四つか六つの丸い影が必ずあるのです。 2. 並列構造の学習不足 -正しい係り -誤った係り -修正した係り 例文) その周りには四つか六つの丸い影が必ずあるのです。 二つ目は並列構造の学習が不足していること。例えば「四つか」と「六つの」は並列構造だが、CaboChaでは係り先、係り関係ともに間違っている。 決定的アルゴリズムで「四つか」と「六つの」の間に係らないと判定するのは判定器の学習不足と考えられる。また「助詞-か」が並列構造を持つという学習も不足している考えられる。 P その 周りには  四つか  六つの  丸い 影が  必ず あるのです。 並列構造 2019/6/3

CaboChaの問題点の原因分析 →CaboChaの結果に対し、大局的な情報を用いて修正を行う( 2パス) 局所的な構造に限定したアルゴリズム 2文節間の情報で係り判定をしている 2文節間の係り判定だけでは解析に失敗する構造がある →CaboChaの結果に対し、大局的な情報を用いて修正を行う( 2パス) 部分並列構造の検出 係助詞を持つ主題文節の係り先の修正 新聞記事にチューニングした係り判定器 →特に並列構造に着目し、改善パターンを作成 一方で、2文節間の局所的な情報をもとに係りを判定している。また、新聞記事を元にした京大コーパスを学習データに用いているため、正しい係りが判定されない事がある。 2019/6/3

発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3

提案手法 CaboCha-0.60に結果に対して修正を行う 係り受け解析 入力文 解析結果 係り受けの修正 改良した解析 (提案部分) (CaboCha 0.60 Pre4) 解析結果 係り受けの修正 (提案部分) 改良した解析 結果の出力 入力文 2019/6/3

提案手法 並列構造の修正パターン 例) 牛や 馬は 哺乳類です。 並立助詞 接続助詞(並立助詞) 名詞+読点 P P P P 「か」「や」「と」「とか」 例) 牛や 馬は 哺乳類です。 接続助詞(並立助詞) 「~たり」(~だり) 例)昨夜は食べたり、飲んだりした。 名詞+読点 例)花子は鉛筆、 筆箱、 キャップを貰った P 並列構造のパターン はじめに、助詞-並立助詞が文節末にある場合は、その係り先と並列の関係を持つようにします つぎに、文節の末に「助動詞-~タ形連用タリ形」がある場合は、係り先に同じパターンを持つ場合に並列の関係を持つようにする 最後に、「名詞-一般+読点」が連続して出現する場合も並列構造が考えられるので並列の関係を持つようにします。 P P P 2019/6/3

提案手法 部分並列構造:大局的な情報が必要な構造 お小遣いを 太郎は 600円、 次郎は 800円 貰った。 [CaboCha0.60の係り受け解析結果] お小遣いを 太郎は 600円、 次郎は 800円 貰った。 共有する述語 [新しい係り受け結果] お小遣いを 太郎は 600円、 次郎は 800円 貰った。 D I P I D 2019/6/3

提案手法 部分並列構造検出アルゴリズム(簡略版) お小遣いを 太郎は 600円、 次郎は 800円 貰った。 先頭から「読点」を含む文節を探す 「読点」を含む文節をjとする jの前後に「係助詞・格助詞」を含む文節を探しk,mとする 類似するk,mが見つかった場合は、jと類似する文節をmより後方で探し、zとする 類似性は文節を構成する形態素の一致パターンで判断 kとj,mとzの間をI関係、jとzの間をP関係で結ぶ お小遣いを 太郎は 600円、 次郎は 800円 貰った。    i=0          1        2        3        4        5 j j お小遣いを 太郎は 600円、 次郎は 800円 貰った。    i=0          1        2        3        4        5 k m z P I I

発表の流れ 研究の背景 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 評価実験 考察 まとめ 並列構造のパターン 部分並列構造のアルゴリズム 評価実験 実験設定 結果 考察 まとめ 2019/6/3

評価実験 実験環境 実験設定 Ubuntu Linux 8.04 Ruby 1.8.6 Mecab -0.97(ChaboCha0.60) ChaSen-2.3(CaboCha0.53) 実験設定 評価データ 小学校,中学校の国語教科書、26タイトル、1,100文 対象とする係り関係は依存関係、並列関係、部分並列関係 使用する解析器 CaboCha0.60Pre4 CaboCha0.53 2019/6/3

評価実験 評価基準 係り先と係り関係の両方が一致したら正解とする 係り関係は依存関係、並列関係、部分並列関係とする 2019/6/3

評価実験 結果 京都大学テキストコーパス 国語教科書 CaboCha-0.53 208,695 85.6% 45.6% 総係り数 精度 文正解率 CaboCha-0.53 208,695 85.6% 45.6% CaboCha-0.53+P 90.7% 59.8% CaboCha-0.60 236,453 86.1% 46.0% CaboCha-0.60+提案手法 88.1% 49.9% 総係り数 係り精度 文正解率 CaboCha-0.53 7,187 86.7% 48.2% CoboCha-0.53 P 89.0% 53.5% CoboCha-0.60 8,581 87.2% 49.2% CaboCha-0.60 +提案手法 90.1% 56.9% 2019/6/3

考察 解析の失敗例1 並列構造の見直しが必要 並列構造に対するパターンでは意味的な類似性を考慮していない →「缶ビールや」に近い「缶に」に係る 缶ビールや 缶に 入った お酒に、 「ビール」「おさけ」などと点字で書かれているのを見たこ とがある人も居るでしょう。 P 「缶ビールや」の正しい係り先は「お酒に」であるが、CaboChaは「缶に」に係り先を決定する。しかし、正解は「缶ビール」と「缶に入ったお酒に」が並列構造をとる係り受けである。本研究では用いた並列構造のパターンでは係り先を変更するパターンは使用していないので、こうした並列構造を捉えるには並列構造の範囲の推定を行うパターンを取り入れる必要がある。 2019/6/3

考察 解析の失敗例2 部分並列の検出 読点を含む文節(テレフォンカード)とその対になる文節(乗り物)の間に並列構造があるため、アルゴリズムでは「乗り物」を検出できない さらに、丸い切り込みは テレフォンカード、  三角は  電車や  バスなどの 乗り物、  四角は 買い物のカードと、  切り込みの形によって種類が区別できるようになっています。 P I これは提案した部分解析アルゴリズムにおいて、 2019/6/3

まとめ 係り受け解析を2段階 国語教科書を対象にした評価実験では精度が3%向上 CaboChaの間違いに基づいたパターンにより、並列構造の係り受けを改善 大局的な情報を用いた部分並列構造の検出 国語教科書を対象にした評価実験では精度が3%向上 2019/6/3

今後の課題 主題を表す係助詞を含む文節の係り受けの改善 並列構造の範囲の推定 部分並列構造のアルゴリズムの改良 提案手法を取り入れた解析の失敗を分析し、新しいパターンの追加 同格関係の推定を対応 2019/6/3

ありがとうございます 2019/6/3

補足スライド 2019/6/3

KNP-3.01と提案手法の比較 5,943 89.6% 8,581 90.1% 総係り数 精度 KNP-3.01 解析対象:教科書 総係り数 精度 KNP-3.01 5,943 89.6% CaboCha0.60+P(提案手法) 8,581 90.1% KNP3.01より0.5%精度が高い

評価実験 並列構造の分布 部分並列構造の分布 P 割合 総係り数 476 8,581 正解になった並列の係り数 250 2.9% 正解にならなかった並列の係り数 226 2.6% 文数 正解した文数 割合 部分並列構造 7文 1文 0.6% 2019/6/3

実験で用いた類似度の判定 60 % 1200 万 円 文節を構成する形態素の一致度を用いる 例) 6月に 1200万円、 8月に 全体の 60% 達成する  60   % 1200  万    円  名詞-数  名詞-数  名詞-接尾-助数詞 類似パターン 名詞-数 + 名詞-数 名詞-数 + 名詞-接尾-助数詞  名詞-数  名詞-接尾-助数詞 類似パターン 名詞-数 + 名詞-接尾-助数詞 2019/6/3