Download presentation
Presentation is loading. Please wait.
1
Super-Functionに基づく日英機械翻訳
徳島大学 知能情報工学科 博士前期過程1年 篠山 学 ■挨拶 *Thank you chairperson. *My talk is about Super-Function based Japanese-English machine translation.
2
背景 外国語の文章に触れる機会の増加 違和感のない翻訳の必要性 Super-Function(SF) を用いた翻訳システムの提案
■機械翻訳システムのユーザのほとんどはシステムに不満を持っています。 ■特に不自然な訳文の生成はユーザがシステムに対して信頼を損なう原因のひとつです。 ■そこで我々はSFを用いた機械翻訳を提案します。 ■SFはコーパスベースであるために訳文が非常に流暢です。 ■また構文解析や意味解析を必要としないので処理が早いです。 *Very few users are satisfied with machine translation systems. *Users lose faith in systems that generate unnatural-sounding translation. Then… *We proposed a machine translation method based on a Super-Function. *We do not feel the sense of incompatibility in the translation result because the SFs are automatically generated from a large corpus. Furthermore… *Because the detailed syntactic analysis and semantic analysis have not been used, translation speed is very fast.
3
SFとは(1/2) ある事象を別の事象に変換する関数 原言語と目標言語の対応を示す関数 文から名詞を取り除いたその他の文構造
彼は駅までタクシーに乗った。 彼 駅 タクシー SF φ は まで に乗った。 彼 駅 タクシー : Edge : Node
4
SFとは(2/2) 形態素解析 単語辞書 SFデータベース Node table Edge table 日本文 英文 Φ は took まで
に乗った。 . 日本文 英文 条件 1 1p 2 3 the a ■SFを用いて翻訳するには形態素解析器、単語辞書、変形テーブル(SFデータベース)が必要です。 ■変形テーブルはノードテーブルとエッジテーブルに分けることができます。 ■ノードテーブルでノードを一対一に対応させておきます。 ■エッジテーブルで名詞の順序と条件を保持しておきます。 □日本語の名詞1,2,3に対して英語の名詞は1,3,2の順に並んでいるのが分かります。 □さらに日本語の名詞1,2,3に対して英語の条件がついています。 *We can translate by using the node and edge table, Morphological analysis, and a translation dictionary. *The transformation table consist of Node table and Edge table. *Node table is correspondence table of SF of source language and target language. *Edge table represents the order and the condition of nouns.
5
システムのアウトライン 原言語文の入力 形態素解析 SF SFの照合 単語辞書 対訳コーパス SFの抽出 対訳コーパス SFの抽出
名詞の翻訳 ■システムのアウトラインを示します。 ■まず入力文を形態素解析します。 ■名詞以外のノードの部分をSFデータベースと照合し目標言語のノードを取り出します。 ■SFデータベースは対訳コーパスから抽出します。 ■名詞部分は辞書で目標言語に翻訳します。 ■目標言語のノードと名詞を並べ替えて目標文とします。 ■これから翻訳処理を説明します。その後、対訳コーパスからのSFの抽出方法を説明します。 *We explain in these figures. *First, Morphemes in the source language sentence is analyzed. *Searching matches SF in Node table. *SF can extract from a bilingual corpus. *Nouns are translated using a dictionary. *SF and nouns are aligned. *We will describe SF based translation process. After that we will describe the extraction method of SF. 生成 目標言語文の出力
6
/彼/は/駅/まで/タクシー/に乗った。/
SFの仕組み-翻訳の流れ(1/3)- 彼は駅までタクシーに乗った。 形態素解析 /彼/は/駅/まで/タクシー/に乗った。/ φ は まで に乗った。 彼 駅 タクシー
7
SFの仕組み-翻訳の流れ(2/3)- 日本文 英文 Φ は took まで to に乗った。 . 彼(1,m) 駅(2,the)
φ は まで に乗った。 took to . 彼(1,m) 駅(2,the) タクシー(3,a) 日本文 英文 条件 1 1p 2 3 the a 単語辞書 He(1) a taxi(3) the station(2)
8
He took a taxi to the station .
SFの仕組み-翻訳の流れ(3/3)- --順番に並べていく-- φ took to . He a taxi the station φ took to . He a taxi the station He took a taxi to the station .
9
システムのアウトライン 単語辞書 生成 SF 原言語文の入力 目標言語文の出力 形態素解析 SFの照合 名詞の翻訳 単語辞書 生成 SF
対訳コーパス SFの抽出 ■システムのアウトラインを示します。 ■まず入力文を形態素解析します。 ■名詞以外のノードの部分をSFデータベースと照合し目標言語のノードを取り出します。 ■SFデータベースは対訳コーパスから抽出します。 ■名詞部分は辞書で目標言語に翻訳します。 ■目標言語のノードと名詞を並べ替えて目標文とします。 ■これから翻訳処理を説明します。その後、対訳コーパスからのSFの抽出方法を説明します。 *We explain in these figures. *First, Morphemes in the source language sentence is analyzed. *Searching matches SF in Node table. *SF can extract from a bilingual corpus. *Nouns are translated using a dictionary. *SF and nouns are aligned. *We will describe SF based translation process. After that we will describe the extraction method of SF.
10
SFの生成 EDR日英対訳コーパス(約20万対訳文) プログラムを作成し自動で生成(約14万) -日本語ノード別SF-
11
翻訳実験 実験目的 使用SF 評価用日本語文 翻訳結果と評価文の英語が一致していれば成功 名詞の翻訳結果は含まない
EDRコーパスから生成したSF(約14万) 評価用日本語文 高校英語参考書例文の日本語文(256文) 翻訳結果と評価文の英語が一致していれば成功 名詞の翻訳結果は含まない
12
翻訳実験結果 翻訳成功 SFが一致 256文 216文(84%) 226文(88%) -- 成功例 -- 去年は雪が多かった。
256文 216文(84%) 但し86文に他候補あり 226文(88%) 日本語ノードと条件のみ -- 成功例 -- 去年は雪が多かった。 We had a lot of snow last year. 彼は大変早く走ったので私はついて行くことができなかった。 He ran too fast for me to keep up with him.
13
翻訳実験結果 違和感のない翻訳結果を出力した 86文に他候補が存在した
失敗した例で多かったのは、ひらがなと漢字の違いによる不一致や語尾の違いによる不一致であった -- 失敗例 -- (海)に行くよりは(山)にいきたい。 Z:に行くよりは:に行きたい。
14
次に一度SFになった文が元の文にどのくらい戻るかを調べるためにクローズドテストを行った
考察 生成したSFは固有のものが多い 生成したSFを使った翻訳でも競合する候補がある 語尾の統一で固有のものは減らすことができるが、競合する候補は増える 次に一度SFになった文が元の文にどのくらい戻るかを調べるためにクローズドテストを行った
15
クローズドテスト 実験目的 使用SF テストセット 成功条件 SFになった文がどれくらい元に戻るか
EDRコーパスから生成したSF(約14万) テストセット SFを生成できた日本語文をランダムに選んだ256文 成功条件 翻訳結果が元の文と同じ場合 他候補が存在しても一つに特定できる場合
16
(私)は(アイスクリーム)が好きではない。
クローズドテスト結果 他候補なし 条件で特定を含む 256文 188文(73%) 202文(79%) (私)は(アイスクリーム)が好きではない。 Z:don’t care for:. Z:don’t like:. 同じ意味の英文 関係代名詞の省略、非省略
17
Z:got on:. He got on the train.
翻訳候補を限定するには 概念辞書を使う 列車(4447c9)→軌道に沿って走る乗り物(444863)→・・・ ラクダ(3be294)→哺乳類(30f6c5)→・・・ 概念辞書が有効な例 Z:は:に乗った。 Z:got on:. He got on the train. Z:rode:. He rode a camel. テストセットの数が少なすぎたので、数を増やして再実験し概念辞書が有効か判断
18
まとめ 生成したSFと翻訳実験の考察 考察に基づいてクローズドテストを実施 クローズドテスト結果を考察
19
進捗状況 翻訳システムの作成 SF抽出プログラムの作成 クローズドテストの実施 デモ用インターフェイスの作成
20
今後の予定 インターフェイスの改良 SF抽出プログラムの改良 単語辞書の改良 クローズドテスト テストセットを増やして再実験
再実験の結果を元に絞込み方法を検討
22
He took a taxi to the station .
SFの生成(1/3) 対訳コーパス 単語辞書 彼は駅までタクシーに乗った。 He took a taxi to the station . 形態素解析 ■SFを抽出するには対訳コーパスと辞書を使います。 ■例えばこのような対訳文がコーパスにあったとします。 ■まず日本文と英文をそれぞれ形態素解析してノードとエッジに分けます。 *SF is made from the bilingual corpus. For example, look at these bilingual sentences. *These are each divided into nouns and others by morphological analysis. φ は まで に乗った。 彼 駅 タクシー φ took to . He a taxi the station
23
SFの生成(2/3) Node Edge φ took to . は まで に乗った。 名詞の翻訳 He a taxi
the station 彼 1p 駅 the タクシー a 彼 駅 タクシー ■ノードはそのままノードテーブルを構成します。 ■名詞は英語名詞を辞書で翻訳し、日本語名詞と照合して順番を決めます。これでエッジテーブルを構成します。 ■次に実際にコーパスから抽出した結果を示します。 *The node table consists of node. *English noun is translated in a dictionary. *Next, It is matched with Japanese noun and an order is decided. *Therefore, Edge table has consisted. *Next, the result extracted from the corpus is shown. 順序の決定 1,1p 3,the 2,a 彼 1p 駅 the タクシー a
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.