重文・複文の基本文型に対する 文型パターン辞書のカバー率 平成15年度研究状況報告会 徳久雅人(鳥取大学)
1.はじめに 日本語の重文・複文のパターン辞書の構築 パターンの詳細分析・強化・補充を今後実施 パターン辞書を構成する重文・複文の把握 SEMコーパス (Semantically Equivalent Mapping) (15万文 → 22万パターン ) パターンの詳細分析・強化・補充を今後実施 パターン辞書を構成する重文・複文の把握 一般性 網羅性 使用頻度 (コーパス) (パターン辞書) これらの調査が本稿の目的
2.重文・複文の基本的な構造 重文・複文の基本的な構造=益岡田窪分類 [基礎日本語文法(益岡・田窪1989)] 1.補足節 :主節の格要素 1.補足節 :主節の格要素 例) 漢字を覚えることは難しい 2.副詞節 :主節を修飾 例) 雨にならないうちに家に帰ろう 3.名詞修飾節:主節を構成する名詞を修飾 例) 魚が焼けるにおいがする 4.並列節 :主節と対等 例) 花子が詞を作って、太郎が作曲した
従属節の分類(一部) 補足節 形式名詞 コト型 可能,反復,経験,決定 ノ型 強調 トコロ型 疑問表現 真偽疑問,疑問語疑問 引用 直接引用,間接引用 - - -
従属節のパターン化 従属節を抽出するためのパターン知識 副詞節 名詞修飾節 同時 /CL1(時|際)[に]/ 私が16だった時、彼女は7つだった 原因 /CL1.te/ お腹が減って、口もきけなかった 名詞修飾節 内容 / CL1^rentaiNP2/ 魚を焼くにおい ほか,合計97パターン
従属節パターン作成の問題点 従属節の様相表現の吸収 従属節の範囲を正しく抽出 ダ文を正しく判定 ⇒ パターン定義で解決 (ダ文の判定例) 彼が留学生であれば許可する。 彼が留学生なら許可する。 ⇒ パターン定義で解決 局所的に構文情報を使う
3.従属節の抽出実験 実験条件 SEMコーパスの日本語文 126,203文を対象 2章で作成した97個の従属節パターンを照合 ただし,ダ文判定に「の」型,「に」型,「で」型は不使用
マッチした例 (文1) 僕は子供の頃サンタクロースは本当に 北極から来るものだと固く信じていた。 (文3) 車を止めてエンジンを切りなさい。 (適合1-1) /CL1と[、]/ 《副詞節・条件》 (適合1-2) /CL1と[、]/ 《補足節・間接引用》 (文3) 車を止めてエンジンを切りなさい。 (適合3-1) /CL1.te/ 《副詞節・因果》 (適合3-2) /CL1^genzai.te/ 《副詞節・付帯状況》 (適合3-3) /CLV1^genzai.te/ 《並列節・総記》 cl cl cl cl
マッチしなかった例 (文4) そのようなことをするには狡猾さが 必要だ。 (文5) 運が尽きてからでは遅い。 「節+には」パターンが益岡田窪分類に無し (文5) 運が尽きてからでは遅い。 「てから」が1つの形態素として解析 (文6) ドイツ人と日本人観光客が同じくらい目 立っていた。 単文
抽出実験の結果 従属節パターンの適合した文: 122,264文 非適合の文 : 3,939文 解釈の正解率: 非適合の文 : 3,939文 解釈の正解率: 適合,非適合の事例より各50個を検査 適合事例: 正しい解釈を含むならば正解 100% 非適合事例: 新しい従属節パターンが必要: 38% 従属節パターンのマッチに失敗: 32% 単文とみなすほうが妥当: 30%
4.カバー率 一般性 網羅性 SEMコーパスは基本的な表現で作られた文 基本的な表現の種類を網羅
従属節の出現頻度(上位9位) 順位 パターン概形 簡易解釈 頻度 1 CL^rentaiN 修飾 41,554 2 内容 3 CLて~ 原因 29,194 4 CL^genzaiて~ 総記 28,989 5 CLV^genzaiて~ 付帯状況 27,474 6 CL^rentai(こと|の) 23,995 7 CLと 引用 19,936 8 CLと~ 条件 16,235 9 CL^renyou 15,812
従属節の出現頻度 10位まで = 全体の 7 割
従属節の出現頻度(下位10位) 順位 パターン概形 簡易解釈 頻度 89 CL^genzaiた程 程度 19 90 仮想的 14 91 CLの(は|が)NP Jだ 強調 11 92 CL(一方|反面)~ 対比 9 93 CLくせに~ 非難 94 CL^genzai割に~ 程度違い 6 95 CL^genzaiたくらい~ 例示 2 96 CLかというのJ 内容節 1 97 CL^genzaiた割に~
大分類ごとの頻度 大分類名 出現割合 出現回数 補足節 15.6% 53,744 副詞節 35.4% 122,216 名詞修飾節 32.4% 111,635 並列節 16.6% 57,386 副詞節のバリエーションは多い(61種) 副詞節全体でみると無視できない
同形異義パターンの分布 各20サンプルの検査 ◎ 解釈の詳細分析が,今後必要 パターン 解 釈 連体節+名詞 《修飾節》 5 《内容節》 9 解 釈 連体節+名詞 《修飾節》 5 《内容節》 9 その他 6 節+て 《原因》 14 《総記》 1 《付帯状況》 2 3 節+と 《引用》 《条件》 11 仮定節+ば 15 《累加》 連用節+ながら 18 《逆接》 ◎ 解釈の詳細分析が,今後必要
5.おわりに まとめ 今後の課題 基本的な従属節の構造(益岡田窪分類)をパターン化 SEMコーパスとパターン照合で従属節を検査 基礎日本語文法に基づく 97 パターン SEMコーパスとパターン照合で従属節を検査 一般性 = 97 %,網羅性 = 99 % コーパスは,重文・複文の基本文型をカバー 従属節の出現頻度より 「連体修飾節」,「テ型節」,「ト型節」 は重要 ⇒ 重点改良の対象 ※ 副詞節は要注意 今後の課題 従属節の解釈の解析(方法の開発)が課題