構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
意味属性の共起による 「AのB」型名詞句の翻訳規則
Note for How to Write an English Paper (2014 Second Semester)
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
All Rights Reserved, Copyright (C) Donovan School of English
英語勉強会.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
連体修飾節 欧志豪 南台科技大学応日所院生.
関係代名詞(目的格).
関係代名詞 目的格の関係代名詞.
中学3年 英語 主格の関係代名詞 (who, which).
情報とコンピュータ 静岡大学工学部 安藤和敏
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
Super-Functionに基づく日英機械翻訳
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
文の成分.
英語特別講座 代名詞・前置詞・形容詞・助動詞 #1   
重文・複文の基本文型に対する 文型パターン辞書のカバー率
関係代名詞の導入 Program 7-2~8-1.
形態素解析および係り受け解析・主語を判別
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
セマンティクスを利用した 図書検索システム
整合性尺度を用いた 構造的対訳文アラインメント
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
果物識別 マハラノビス距離を求める.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
自然言語処理及び実習 第11回 形態素解析.
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
結合価文法による動詞と 名詞の訳語選択能力の評価
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
雑音環境下における 非負値行列因子分解を用いた声質変換
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Unit 1 Starting Out 教科書 p.4 「…でした」 「ありました[いました]」 と過去のことについて
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
分詞 participle 文章の中で使ってみよう.
統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応用
日本語統語論:構造構築と意味 No.8 連体修飾
超大規模ウェブコーパスを用いた 分布類似度計算
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
Tag question Aoyama Shogo.
The difference between adjectives and adverbs
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
依存関係の局所性を利用した プログラム依存グラフの 効率的な構築法
オープンソースソフトウェアに対する コーディングパターン分析の適用
大規模コーパスに基づく同義語・多義語処理
Unit 6 Part 3 教科書 p.54~55 I, you以外の単数の人やもの について「…しません」と 説明するときの言い方を
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
情報とコンピュータ 静岡大学工学部 安藤和敏
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法 鳥取大学工学部 知能情報工学科 ○田中 康仁 村上 仁一 徳久 雅人 池原 悟

研究の背景 機械翻訳 翻訳精度向上のため用例を用いる方法 従来の検索手法 品詞の並びのみで類似度を判断する用例検索 翻訳する文に対して表現の類似した文と その対訳をデータベースから検索することが必要 従来の検索手法 品詞の並びのみで類似度を判断する用例検索 → 多くの不適切な用例を検索 対策 係り受け関係を利用する方法 (兵藤,河田,応,池田:構文つきコーパスの作成と類似用例検索システムの応用) (谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム)

係り受けを用いた検索手法 係り受けを利用した検索アルゴリズム[1] 文節単位の係り受けの一致で類似文を検索 ([1]谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム) 文節単位の係り受けの一致で類似文を検索 一致文節ペア数 文節ペア数    3 A B C D DB A B C D 3 入力 出力 文節ペア A B D 2 … 複数文抽出 構文的制約(係り受け構造)を利用して検索 ・ 不適切な用例の絞込み ・ 入力文と最も近い係り受け関係を持つ文を抽出

本研究 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証 (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対訳において類似性を判定(手動) (1) (1) 係り受け検索アルゴリズムを使用して、入力文に対するデータベースからの類似文抽出 (2) (1) 係り受け検索アルゴリズムを使用して、入力文に対するデータベースからの類似文抽出 (1) 係り受け検索アルゴリズムを使用して、入力文に対するデータベースからの類似文抽出 (1) (2) (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対訳において類似性を判定(手動) 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証 (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対訳において類似性を判定(手動) 抽出文   … 入力文 DB 入力文対訳 抽出文対訳 用例翻訳における、係り受け関係を用いた類似文検索の有効性検証

類似文抽出実験 入力文に対してデータベース中から類似文を抽出 検索対象データベース(DB) 重・複文の例文集[2](約8万文) 入力文 ([2]村上,池原,徳久:日本語英語の文対応の対訳データベースの作成) 入力文 例文集から100文を選択 抽出文 各入力文対、例文集全文(入力文そのものを除く)で  抽出された文

文節の分類 品詞で類似性を判断 → 文の品詞列への置き換え ・ 品詞を18種に分類→DB全体の文節の種類:1,738種 品詞で類似性を判断 → 文の品詞列への置き換え 例:母は父の帰りを寝ないで待っています 名/副助 名/格助  名/格助  動/助動/助動 動/動/助動 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます) ・ 品詞を18種に分類→DB全体の文節の種類:1,738種

品詞列に置き換えた文節区切りの文に係り受け情報を付加 係り受け情報の付加 品詞列に置き換えた文節区切りの文に係り受け情報を付加 日英翻訳ソフト ALT-J/E (NTT) 例 : 母は父の帰りを寝ないで待っています 1 2 3 4 名/副助 名/格助 名/格助 動/助動/助動 動/動/助動 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます)

類似文抽出結果の例 母は父の帰りを寝ないで待っています 連中は私の失敗を影で笑っているに違いない 1 3 2 4 1 3 2 入力文 : 抽出文 : 連中は私の失敗を影で笑っているに違いない 1 3 2 4 名/副助 名/格助 名/格助 動/助動/助動 動/動/助動 入力文 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます) 抽出文総数 41 1 3 2 名/副助 名/格助 名/格助 名/格助 動/動/助動 抽出文 (連中/は) (私/の) (失敗/を) (影/で) (笑っ/ている/に違いない)

類似文抽出実験の結果 黒字:抽出文のあった入力文の数  赤字:抽出文の総数 係り受けの一致が存在した文数 97 = 入力文数 100

対訳の類似性の判定 ~ 用例翻訳への利用(有効性)の検討 ~ 対象:入力文と抽出されたDB文(抽出文)の間で 係り受け関係が一致している部分 入力文、抽出文双方で                     ・ 対訳の文法構造が同様   ・ 日本語、対訳において主語の位置が同じ 対訳に類似性があると判定

対訳類似性が有る例 1 3 2 4 5 He bought the car at a reasonable price. S V O C 1 入力文 名/副助 副用語 名/格助 形容詞 名/格助 動/助動 (彼/は) (その) (車/を) (手ごろな) (値段/で) (買っ/た) (対訳) He bought the car at a reasonable price. S V O C 抽出文総数 3 1 3 2 4 5 抽出文 名/副助 副用語 名/格助 形容詞 名/格助 動/助動 (プリズム/は) (その) (光/を) (様々な) (色/に) (分解し/た) (対訳) The prism resolved the light into various colors. S V O C

対訳類似性が無い例 1 2 3 4 This is an island remote from the mainland. S V C 1 入力文 名/副助 名/格助 名 動/助動 動/助動 (ここ/は) (本土/を) (遠く) (離れ/た) (島/だ) (対訳) This is an island remote from the mainland. S V C 抽出文総数 1 1 2 3 4 抽出文 名/副助 名/格助 名 動/助動 動/助動 (これ/は) (彼/から) (直接) (聞い/た) (話/です) (対訳) I heard this story direct from him. S V O

対訳類似性の判定結果 対訳に類似性があると判定した文 33 = 100 入力文数 黒字:類似性ありと判断した文の数 赤字:抽出文のあった入力文の数 対訳に類似性があると判定した文 33 = 入力文数 100

考察 不適切な抽出文の抽出 → 品詞種の分類法 適切な抽出文の抽出漏れ → 複合語の品詞列の多様さ 類似文抽出 対訳類似性判定 入力文:100文 97文 33文 類似性あり 抽出文あり 不適切な抽出文の抽出 → 品詞種の分類法 適切な抽出文の抽出漏れ → 複合語の品詞列の多様さ

不適切な抽出文の抽出例 品詞種別の詳細な分類 1 2 3 My cheeks flush with wine. 格の違い S V C 1 2 名/格助 動/接続助 名/格助 動 入力文 (酒/を) (飲ん/で) (顔/が) (ほてる) My cheeks flush with wine. 格の違い S V C 1 2 3 名/格助 動/接続助 名/格助 動 抽出文 (風/が) (吹く/と) (穂波/が) (打つ) The rice-ears wave in the wind. S V C 品詞種別の詳細な分類 対策

複合語による抽出漏れの例 複合語の単品詞化 1 3 2 4 私/は 事故現場/を 見/て 嘔吐/を 催し/た 1 3 2 4 彼ら/は 入力文 1 3 2 4 抽出漏れ 彼ら/は 運転手/を 告訴し/て 損害/賠償/を 求め/た 字面 損害/補償/を 嘔吐/を 文節 (名詞)+格助詞 = 品詞列 名詞+名詞+格助詞 ≠ 名詞+格助詞 複合語の単品詞化 対策

まとめ 係り受け関係を用いた用例検索 検索で抽出された抽出文の対訳の中に適切な文が存在 用例翻訳への利用

今後の課題 問題点 : 検索精度の向上 ・ 適切な抽出文の抽出もれ の抑制 ・ 不適切な抽出文の抽出 対策: 品詞種別の詳細な分類 ・ 適切な抽出文の抽出もれ の抑制 ・ 不適切な抽出文の抽出 対策: 品詞種別の詳細な分類 複合語の単品詞化 類似文検索への係り受け種別を用いた判定の追加

入力文とDB文の一致文節ペア数 入力文の係り受け文節ペア数が大きくても一致文節ペア数は平均して一定

対訳類似性が有る例 3 1 2 4 5 あの 人が 来ると 一座が ドッと 高笑いする He sets the table 入力文 あの 人が 来ると 一座が ドッと 高笑いする (対訳) He sets the table in a roar. S V O C 3 1 2 4 5 抽出文 あの 先生が 来ると クラスが ドッと 高笑いする (対訳) He sets the class in a roar. S V O C

他用言:動詞以外の用言(形容詞、形容動詞) 対訳類似性が無い例 1 2 3 名/格助 他用言/接続助 名/格助 他用言 入力文 (彼/は) (有能だ/が) (資格/は) (ない) He is competent but (he) does not belong. S V C 主語の違い 1 2 3 名/格助 他用言/接続助 名/格助 他用言 抽出文 (外/は) (寒い/が) (中/は) (暖かい) It is cold outside but it is warm inside. S V C 他用言:動詞以外の用言(形容詞、形容動詞)