重文・複文の基本文型に対する 文型パターン辞書のカバー率

Slides:



Advertisements
Similar presentations
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
Advertisements

大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
意味属性の共起による 「AのB」型名詞句の翻訳規則
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
句法篇章四 助词.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
All Rights Reserved, Copyright (C) Donovan School of English
連体修飾節 欧志豪 南台科技大学応日所院生.
共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析
情報とコンピュータ 静岡大学工学部 安藤和敏
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
東京工科大学 コンピュータサイエンス学部 亀田弘之
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
第十八課 条件を表す従属節 ねらい:条件とその帰結を表す形式のト、 キーワード: 条件節、条件文、前件、後件、論理式、
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
文の成分.
4Y-4 印象に残りやすい日本語パスワードの合成法
事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成
形態素解析および係り受け解析・主語を判別
主格3形式と客格と「は」 -主語と客語- [1-2] 日本語構造伝達文法 この項は『日本語構造伝達文法(05版)』の
ワークショップ ユーザーとメーカーの公開相談会
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
個体記述型・事態記述型・理由供給型の違いについて
<参考資料> 文章の書き方 1)レポートの基本的構成 ①はじめに(ケースの全体像)・・・研究の動機 ②目的(研究の目的)
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
2016年上海師範大学・名古屋大学言語文化学術交流会 日本語の格助詞「を」と「から」の選択
プログラム実行履歴を用いたトランザクションファンクション抽出手法
シミュレーション論 Ⅱ 第15回 まとめ.
自然言語処理及び実習 第11回 形態素解析.
第4日目第3時限の学習目標 検査の信頼性(続き)を学ぶ。 妥当性について学ぶ。 (1)構成概念妥当性とは? (2)内容妥当性とは?
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
中国外専局・北京理工大学専門家講座項目(第1回) (2年生対象) 日本語の格助詞の魅力
Javaを対象としたソフトウェア部品 検索システムSPARS-Jの実験的評価
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
コードクローンの動作を比較するためのコードクローン周辺コードの解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
プログラミングコンテストシステムへの 提出履歴データとその分析
日本語統語論:構造構築と意味 No.8 連体修飾
後期復習 概要 形態論 統語論 文字論 語用論 形態素 形態論的プロセス 単文の構造 格について ヴォイス・テンス・アスペクト・モダリティ
不確実データベースからの 負の相関ルールの抽出
超大規模ウェブコーパスを用いた 分布類似度計算
管理画面操作マニュアル <メールマガジン配信> 第5版 改訂 株式会社アクア 1.
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
有効な主張のための ポイント TAKAHASHI Masaru Saitama Institute of Technology
意味・談話解析勉強会 チュートリアル 小町守.
東京工科大学 コンピュータサイエンス学部 亀田弘之
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
メソッドに用いられる 動詞-目的語関係を収録した 辞書構築手法の提案
データマイニングアルゴリズム「アプリオリ」と「ID3」の比較
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
大規模コーパスに基づく同義語・多義語処理
並列構造に着目した係り受け解析の改善に関する研究
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
Webページタイプによるクラスタ リングを用いた検索支援システム
議論の前提 ある人獣共通感染症は、野生動物が感染源となって直接又は媒介動物を通じて人に感染を起こす。
情報とコンピュータ 静岡大学工学部 安藤和敏
知的CAIの基本構成 ① 専門知識 ・・・ 学習の対象となる分野の知識。 ② 学習者モデル ・・・ 学習者の理解状態や過程など を表現。
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
数理論理学 最終回 茨城大学工学部情報工学科 佐々木 稔.
話し言葉における「け(れ)ど(も)」の使用 ―「が」との比較を通じて― 1.研究目的及び研究方法 ◆研究目的
Presentation transcript:

重文・複文の基本文型に対する 文型パターン辞書のカバー率 平成15年度研究状況報告会 徳久雅人(鳥取大学)

1.はじめに 日本語の重文・複文のパターン辞書の構築 パターンの詳細分析・強化・補充を今後実施 パターン辞書を構成する重文・複文の把握 SEMコーパス (Semantically Equivalent Mapping) (15万文 → 22万パターン ) パターンの詳細分析・強化・補充を今後実施 パターン辞書を構成する重文・複文の把握 一般性 網羅性 使用頻度 (コーパス) (パターン辞書) これらの調査が本稿の目的

2.重文・複文の基本的な構造 重文・複文の基本的な構造=益岡田窪分類 [基礎日本語文法(益岡・田窪1989)] 1.補足節 :主節の格要素 1.補足節 :主節の格要素 例) 漢字を覚えることは難しい 2.副詞節 :主節を修飾 例) 雨にならないうちに家に帰ろう 3.名詞修飾節:主節を構成する名詞を修飾 例) 魚が焼けるにおいがする 4.並列節 :主節と対等 例) 花子が詞を作って、太郎が作曲した

従属節の分類(一部) 補足節 形式名詞 コト型 可能,反復,経験,決定 ノ型 強調 トコロ型 疑問表現 真偽疑問,疑問語疑問 引用 直接引用,間接引用 - - -

従属節のパターン化 従属節を抽出するためのパターン知識 副詞節 名詞修飾節 同時 /CL1(時|際)[に]/ 私が16だった時、彼女は7つだった 原因 /CL1.te/ お腹が減って、口もきけなかった 名詞修飾節 内容 / CL1^rentaiNP2/ 魚を焼くにおい ほか,合計97パターン

従属節パターン作成の問題点 従属節の様相表現の吸収 従属節の範囲を正しく抽出 ダ文を正しく判定 ⇒ パターン定義で解決 (ダ文の判定例) 彼が留学生であれば許可する。 彼が留学生なら許可する。 ⇒ パターン定義で解決 局所的に構文情報を使う

3.従属節の抽出実験 実験条件 SEMコーパスの日本語文 126,203文を対象 2章で作成した97個の従属節パターンを照合 ただし,ダ文判定に「の」型,「に」型,「で」型は不使用

マッチした例 (文1) 僕は子供の頃サンタクロースは本当に 北極から来るものだと固く信じていた。 (文3) 車を止めてエンジンを切りなさい。 (適合1-1) /CL1と[、]/ 《副詞節・条件》 (適合1-2) /CL1と[、]/ 《補足節・間接引用》 (文3) 車を止めてエンジンを切りなさい。 (適合3-1) /CL1.te/ 《副詞節・因果》 (適合3-2) /CL1^genzai.te/ 《副詞節・付帯状況》 (適合3-3) /CLV1^genzai.te/ 《並列節・総記》 cl cl cl cl

マッチしなかった例 (文4) そのようなことをするには狡猾さが 必要だ。 (文5) 運が尽きてからでは遅い。 「節+には」パターンが益岡田窪分類に無し (文5) 運が尽きてからでは遅い。 「てから」が1つの形態素として解析 (文6) ドイツ人と日本人観光客が同じくらい目 立っていた。 単文

抽出実験の結果 従属節パターンの適合した文: 122,264文 非適合の文 : 3,939文 解釈の正解率: 非適合の文 : 3,939文 解釈の正解率: 適合,非適合の事例より各50個を検査 適合事例: 正しい解釈を含むならば正解 100% 非適合事例: 新しい従属節パターンが必要: 38% 従属節パターンのマッチに失敗: 32% 単文とみなすほうが妥当: 30%

4.カバー率 一般性 網羅性 SEMコーパスは基本的な表現で作られた文 基本的な表現の種類を網羅

従属節の出現頻度(上位9位) 順位 パターン概形 簡易解釈 頻度 1 CL^rentaiN 修飾 41,554 2 内容 3 CLて~ 原因 29,194 4 CL^genzaiて~ 総記 28,989 5 CLV^genzaiて~ 付帯状況 27,474 6 CL^rentai(こと|の) 23,995 7 CLと 引用 19,936 8 CLと~ 条件 16,235 9 CL^renyou 15,812

従属節の出現頻度 10位まで = 全体の 7 割

従属節の出現頻度(下位10位) 順位 パターン概形 簡易解釈 頻度 89 CL^genzaiた程 程度 19 90 仮想的 14 91 CLの(は|が)NP Jだ 強調 11 92 CL(一方|反面)~ 対比 9 93 CLくせに~ 非難 94 CL^genzai割に~ 程度違い 6 95 CL^genzaiたくらい~ 例示 2 96 CLかというのJ 内容節 1 97 CL^genzaiた割に~

大分類ごとの頻度 大分類名 出現割合 出現回数 補足節 15.6% 53,744 副詞節 35.4% 122,216 名詞修飾節 32.4% 111,635 並列節 16.6% 57,386 副詞節のバリエーションは多い(61種) 副詞節全体でみると無視できない

同形異義パターンの分布 各20サンプルの検査 ◎ 解釈の詳細分析が,今後必要 パターン 解 釈 連体節+名詞 《修飾節》 5 《内容節》 9 解 釈 連体節+名詞 《修飾節》 5 《内容節》 9 その他 6 節+て 《原因》 14 《総記》 1 《付帯状況》 2 3 節+と 《引用》 《条件》 11 仮定節+ば 15 《累加》 連用節+ながら 18 《逆接》 ◎ 解釈の詳細分析が,今後必要

5.おわりに まとめ 今後の課題 基本的な従属節の構造(益岡田窪分類)をパターン化 SEMコーパスとパターン照合で従属節を検査 基礎日本語文法に基づく 97 パターン SEMコーパスとパターン照合で従属節を検査 一般性 = 97 %,網羅性 = 99 % コーパスは,重文・複文の基本文型をカバー 従属節の出現頻度より 「連体修飾節」,「テ型節」,「ト型節」 は重要 ⇒ 重点改良の対象 ※ 副詞節は要注意 今後の課題 従属節の解釈の解析(方法の開発)が課題