Super-Functionに基づく日英機械翻訳

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

Chapter 4 Review Chapter 5 Vocabulary 小テスト. え1 え2 え3.
だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
現在完了形 (present perfect tense)
構造的類似文検索アルゴリズムを応用した日本語文型パターン抽出法
英作文の コツ!(初級編) ①主語を見分ける。 ②主語に合う動詞を見つける。 はじまり.
Note for How to Write an English Paper (2014 Second Semester)
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
第十七か ぐちとうわさ話.
All Rights Reserved, Copyright (C) Donovan School of English
英語勉強会.
日本語の文法 文型(ぶんけい)をおぼえよう!
 辞書系(じしょけい).
Recognise, ask about and talk about purpose
Verb plain form + ことができます Abilities.
Nouns and Verbs (using particles).
今しましょう Translate the story on the next slide. せんせいは しゅくだいを みます。
から Because.
関係代名詞 目的格の関係代名詞.
中学3年 英語 主格の関係代名詞 (who, which).
関係代名詞 目的格の関係代名詞.
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
じょし Particles.
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
What did you do, mate? Plain-Past
G: Objectives Can I read all the hiragana? Can I understand Japanese in a movie? Agenda A: Renshu N: らりるれろ、わをん A: Flashcards, えいが G: Can I test.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
Only One Flower in the World
英語特別講座 代名詞・前置詞・形容詞・助動詞 #1   
There are 5 wearing verbs in Japanese depending on the part of body or the item being worn.
東京工科大学 コンピュータサイエンス学部 亀田弘之
関係代名詞の導入 Program 7-2~8-1.
How do you talk about Positions/ Locations?
A, An & The Exercises.
After (I) verbed & After (I) verb
Reasonので + Consequence clause
定期考査2 英語.
Presentation by Hiroshi Kaga
Handy Verbs Future Tense
Who Is Ready to Survive the Next Big Earthquake?
CRLA Project Assisting the Project of
know / knows(s) / ___________
VTA 02 What do you do on a weekend? しゅうまつ、何をしますか。
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
National adviser Japanese Yuriko Kayamoto
Causative Verbs Extensively borrowed from Rubin, J “Gone Fishin’”, Power Japanese (1992: Kodansha:Tokyo) Created by K McMahon.
くれます To give (someone gives something to me or my family) くれました くれます
一日目、二日目… Listing when things will happen.
My Favorite Movie I will introduce my favorite movie.
関係代名詞(接触節) 目的格の関係代名詞の省略.
ておく.
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
分詞 participle 文章の中で使ってみよう.
レビューとは (プロジェクト管理の観点から)
Get in/out of Get on/off
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Tag question Aoyama Shogo.
The difference between adjectives and adverbs
英語音声学(7) 音連結.
英語勉強会:川口英語 Supporting of Continuing Life Habit Improvement Using the Theory of Cognitive Dissonance : System Extension and Evaluation Experiment B4 渡邉.
SNS内のワームの早期検知システムの考案
第八課文法二 Chapter 8 Grammar 2
Grammar Point 2: Describing the locations of objects
Goal: I can understand more about the Japanese art of complaining
識別子の読解を目的とした名詞辞書の作成方法の一試案
アノテーションガイドラインの管理を行う アノテーションシステムの提案
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

Super-Functionに基づく日英機械翻訳 徳島大学 知能情報工学科 博士前期過程1年 篠山 学 ■挨拶 *Thank you chairperson. *My talk is about Super-Function based Japanese-English machine translation.

背景 外国語の文章に触れる機会の増加 違和感のない翻訳の必要性 Super-Function(SF) を用いた翻訳システムの提案 ■機械翻訳システムのユーザのほとんどはシステムに不満を持っています。 ■特に不自然な訳文の生成はユーザがシステムに対して信頼を損なう原因のひとつです。 ■そこで我々はSFを用いた機械翻訳を提案します。 ■SFはコーパスベースであるために訳文が非常に流暢です。 ■また構文解析や意味解析を必要としないので処理が早いです。 *Very few users are satisfied with machine translation systems. *Users lose faith in systems that generate unnatural-sounding translation. Then… *We proposed a machine translation method based on a Super-Function. *We do not feel the sense of incompatibility in the translation result because the SFs are automatically generated from a large corpus. Furthermore… *Because the detailed syntactic analysis and semantic analysis have not been used, translation speed is very fast.

SFとは(1/2) ある事象を別の事象に変換する関数 原言語と目標言語の対応を示す関数 文から名詞を取り除いたその他の文構造 彼は駅までタクシーに乗った。 彼 駅 タクシー SF φ は まで に乗った。 彼 駅 タクシー : Edge : Node

SFとは(2/2) 形態素解析 単語辞書 SFデータベース Node table Edge table 日本文 英文 Φ は took まで に乗った。 . 日本文 英文 条件 1 1p 2 3 the a ■SFを用いて翻訳するには形態素解析器、単語辞書、変形テーブル(SFデータベース)が必要です。 ■変形テーブルはノードテーブルとエッジテーブルに分けることができます。 ■ノードテーブルでノードを一対一に対応させておきます。 ■エッジテーブルで名詞の順序と条件を保持しておきます。 □日本語の名詞1,2,3に対して英語の名詞は1,3,2の順に並んでいるのが分かります。 □さらに日本語の名詞1,2,3に対して英語の条件がついています。 *We can translate by using the node and edge table, Morphological analysis, and a translation dictionary. *The transformation table consist of Node table and Edge table. *Node table is correspondence table of SF of source language and target language. *Edge table represents the order and the condition of nouns.

システムのアウトライン 原言語文の入力 形態素解析 SF SFの照合 単語辞書 対訳コーパス SFの抽出 対訳コーパス SFの抽出 名詞の翻訳 ■システムのアウトラインを示します。 ■まず入力文を形態素解析します。 ■名詞以外のノードの部分をSFデータベースと照合し目標言語のノードを取り出します。 ■SFデータベースは対訳コーパスから抽出します。 ■名詞部分は辞書で目標言語に翻訳します。 ■目標言語のノードと名詞を並べ替えて目標文とします。 ■これから翻訳処理を説明します。その後、対訳コーパスからのSFの抽出方法を説明します。 *We explain in these figures. *First, Morphemes in the source language sentence is analyzed. *Searching matches SF in Node table. *SF can extract from a bilingual corpus. *Nouns are translated using a dictionary. *SF and nouns are aligned. *We will describe SF based translation process. After that we will describe the extraction method of SF. 生成 目標言語文の出力

/彼/は/駅/まで/タクシー/に乗った。/ SFの仕組み-翻訳の流れ(1/3)- 彼は駅までタクシーに乗った。 形態素解析 /彼/は/駅/まで/タクシー/に乗った。/ φ は まで に乗った。 彼 駅 タクシー

SFの仕組み-翻訳の流れ(2/3)- 日本文 英文 Φ は took まで to に乗った。 . 彼(1,m) 駅(2,the) φ は まで に乗った。 took to . 彼(1,m) 駅(2,the) タクシー(3,a) 日本文 英文 条件 1 1p 2 3 the a 単語辞書 He(1) a taxi(3) the station(2)

He took a taxi to the station . SFの仕組み-翻訳の流れ(3/3)- --順番に並べていく-- φ took to . He a taxi the station φ took to . He a taxi the station He took a taxi to the station .

システムのアウトライン 単語辞書 生成 SF 原言語文の入力 目標言語文の出力 形態素解析 SFの照合 名詞の翻訳 単語辞書 生成 SF 対訳コーパス SFの抽出 ■システムのアウトラインを示します。 ■まず入力文を形態素解析します。 ■名詞以外のノードの部分をSFデータベースと照合し目標言語のノードを取り出します。 ■SFデータベースは対訳コーパスから抽出します。 ■名詞部分は辞書で目標言語に翻訳します。 ■目標言語のノードと名詞を並べ替えて目標文とします。 ■これから翻訳処理を説明します。その後、対訳コーパスからのSFの抽出方法を説明します。 *We explain in these figures. *First, Morphemes in the source language sentence is analyzed. *Searching matches SF in Node table. *SF can extract from a bilingual corpus. *Nouns are translated using a dictionary. *SF and nouns are aligned. *We will describe SF based translation process. After that we will describe the extraction method of SF.

SFの生成 EDR日英対訳コーパス(約20万対訳文) プログラムを作成し自動で生成(約14万) -日本語ノード別SF-

翻訳実験 実験目的 使用SF 評価用日本語文 翻訳結果と評価文の英語が一致していれば成功 名詞の翻訳結果は含まない EDRコーパスから生成したSF(約14万) 評価用日本語文 高校英語参考書例文の日本語文(256文) 翻訳結果と評価文の英語が一致していれば成功 名詞の翻訳結果は含まない

翻訳実験結果 翻訳成功 SFが一致 256文 216文(84%) 226文(88%) -- 成功例 -- 去年は雪が多かった。    256文 216文(84%) 但し86文に他候補あり 226文(88%) 日本語ノードと条件のみ -- 成功例 -- 去年は雪が多かった。 We had a lot of snow last year. 彼は大変早く走ったので私はついて行くことができなかった。 He ran too fast for me to keep up with him.

翻訳実験結果 違和感のない翻訳結果を出力した 86文に他候補が存在した 失敗した例で多かったのは、ひらがなと漢字の違いによる不一致や語尾の違いによる不一致であった -- 失敗例 -- (海)に行くよりは(山)にいきたい。 Z:に行くよりは:に行きたい。

次に一度SFになった文が元の文にどのくらい戻るかを調べるためにクローズドテストを行った 考察 生成したSFは固有のものが多い 生成したSFを使った翻訳でも競合する候補がある 語尾の統一で固有のものは減らすことができるが、競合する候補は増える 次に一度SFになった文が元の文にどのくらい戻るかを調べるためにクローズドテストを行った

クローズドテスト 実験目的 使用SF テストセット 成功条件 SFになった文がどれくらい元に戻るか EDRコーパスから生成したSF(約14万) テストセット SFを生成できた日本語文をランダムに選んだ256文 成功条件 翻訳結果が元の文と同じ場合 他候補が存在しても一つに特定できる場合

(私)は(アイスクリーム)が好きではない。 クローズドテスト結果 他候補なし 条件で特定を含む 256文 188文(73%) 202文(79%) (私)は(アイスクリーム)が好きではない。 Z:don’t care for:. Z:don’t like:. 同じ意味の英文 関係代名詞の省略、非省略

Z:got on:. He got on the train. 翻訳候補を限定するには 概念辞書を使う 列車(4447c9)→軌道に沿って走る乗り物(444863)→・・・ ラクダ(3be294)→哺乳類(30f6c5)→・・・ 概念辞書が有効な例 Z:は:に乗った。 Z:got on:. He got on the train. Z:rode:. He rode a camel. テストセットの数が少なすぎたので、数を増やして再実験し概念辞書が有効か判断

まとめ 生成したSFと翻訳実験の考察 考察に基づいてクローズドテストを実施 クローズドテスト結果を考察

進捗状況 翻訳システムの作成 SF抽出プログラムの作成 クローズドテストの実施 デモ用インターフェイスの作成

今後の予定 インターフェイスの改良 SF抽出プログラムの改良 単語辞書の改良 クローズドテスト テストセットを増やして再実験 再実験の結果を元に絞込み方法を検討

He took a taxi to the station . SFの生成(1/3) 対訳コーパス 単語辞書 彼は駅までタクシーに乗った。 He took a taxi to the station . 形態素解析 ■SFを抽出するには対訳コーパスと辞書を使います。 ■例えばこのような対訳文がコーパスにあったとします。 ■まず日本文と英文をそれぞれ形態素解析してノードとエッジに分けます。 *SF is made from the bilingual corpus. For example, look at these bilingual sentences. *These are each divided into nouns and others by morphological analysis. φ は まで に乗った。 彼 駅 タクシー φ took to . He a taxi the station

SFの生成(2/3) Node Edge φ took to . は まで に乗った。 名詞の翻訳 He a taxi the station 彼 1p 駅 the タクシー a 彼 駅 タクシー ■ノードはそのままノードテーブルを構成します。 ■名詞は英語名詞を辞書で翻訳し、日本語名詞と照合して順番を決めます。これでエッジテーブルを構成します。 ■次に実際にコーパスから抽出した結果を示します。 *The node table consists of node. *English noun is translated in a dictionary. *Next, It is matched with Japanese noun and an order is decided. *Therefore, Edge table has consisted. *Next, the result extracted from the corpus is shown. 順序の決定 1,1p 3,the 2,a 彼 1p 駅 the タクシー a