Super-Functionに基づく日英機械翻訳

Super-Functionに基づく日英機械翻訳
徳島大学　知能情報工学科博士前期過程１年　篠山　学 ■挨拶 *Thank you chairperson. *My talk is about Super-Function based Japanese-English machine translation.

背景外国語の文章に触れる機会の増加違和感のない翻訳の必要性 Super-Function(SF) を用いた翻訳システムの提案
■機械翻訳システムのユーザのほとんどはシステムに不満を持っています。 ■特に不自然な訳文の生成はユーザがシステムに対して信頼を損なう原因のひとつです。 ■そこで我々はSFを用いた機械翻訳を提案します。 ■SFはコーパスベースであるために訳文が非常に流暢です。 ■また構文解析や意味解析を必要としないので処理が早いです。 *Very few users are satisfied with machine translation systems. *Users lose faith in systems that generate unnatural-sounding translation. Then… *We proposed a machine translation method based on a Super-Function. *We do not feel the sense of incompatibility in the translation result because the SFs are automatically generated from a large corpus. Furthermore… *Because the detailed syntactic analysis and semantic analysis have not been used, translation speed is very fast.

SFとは(1/2) ある事象を別の事象に変換する関数原言語と目標言語の対応を示す関数文から名詞を取り除いたその他の文構造
彼は駅までタクシーに乗った。彼駅タクシー SF φ はまでに乗った。彼駅タクシー : Edge : Node

SFとは(2/2) 形態素解析単語辞書 SFデータベース Node table Edge table 日本文英文 Φ は took まで
に乗った。 . 日本文英文条件１ 1p ２３ the a ■SFを用いて翻訳するには形態素解析器、単語辞書、変形テーブル(SFデータベース)が必要です。 ■変形テーブルはノードテーブルとエッジテーブルに分けることができます。 ■ノードテーブルでノードを一対一に対応させておきます。 ■エッジテーブルで名詞の順序と条件を保持しておきます。 □日本語の名詞１，２，３に対して英語の名詞は１，３，２の順に並んでいるのが分かります。 □さらに日本語の名詞１，２，３に対して英語の条件がついています。 *We can translate by using the node and edge table, Morphological analysis, and a translation dictionary. *The transformation table consist of Node table and Edge table. *Node table is correspondence table of SF of source language and target language. *Edge table represents the order and the condition of nouns.

システムのアウトライン原言語文の入力形態素解析 SF ＳＦの照合単語辞書対訳コーパス SFの抽出対訳コーパス SFの抽出
名詞の翻訳 ■システムのアウトラインを示します。 ■まず入力文を形態素解析します。 ■名詞以外のノードの部分をSFデータベースと照合し目標言語のノードを取り出します。 ■SFデータベースは対訳コーパスから抽出します。 ■名詞部分は辞書で目標言語に翻訳します。 ■目標言語のノードと名詞を並べ替えて目標文とします。 ■これから翻訳処理を説明します。その後、対訳コーパスからのSFの抽出方法を説明します。 *We explain in these figures. *First, Morphemes in the source language sentence is analyzed. *Searching matches SF in Node table. *SF can extract from a bilingual corpus. *Nouns are translated using a dictionary. *SF and nouns are aligned. *We will describe SF based translation process. After that we will describe the extraction method of SF. 生成目標言語文の出力

/彼/は/駅/まで/タクシー/に乗った。/
SFの仕組み-翻訳の流れ(1/3)- 彼は駅までタクシーに乗った。形態素解析 /彼/は/駅/まで/タクシー/に乗った。/ φ はまでに乗った。彼駅タクシー

SFの仕組み-翻訳の流れ(2/3)- 日本文英文 Φ は took まで to に乗った。 . 彼(1,m) 駅(2,the)
φ はまでに乗った。 took to . 彼(1,m) 駅(2,the) タクシー(3,a) 日本文英文条件１ 1p ２３ the a 単語辞書 He(1) a taxi(3) the station(2)

He took a taxi to the station .
SFの仕組み-翻訳の流れ(3/3)- --順番に並べていく-- φ took to . He a taxi the station φ took to . He a taxi the station He took a taxi to the station .

システムのアウトライン単語辞書生成 SF 原言語文の入力目標言語文の出力形態素解析ＳＦの照合名詞の翻訳単語辞書生成 SF
対訳コーパス SFの抽出 ■システムのアウトラインを示します。 ■まず入力文を形態素解析します。 ■名詞以外のノードの部分をSFデータベースと照合し目標言語のノードを取り出します。 ■SFデータベースは対訳コーパスから抽出します。 ■名詞部分は辞書で目標言語に翻訳します。 ■目標言語のノードと名詞を並べ替えて目標文とします。 ■これから翻訳処理を説明します。その後、対訳コーパスからのSFの抽出方法を説明します。 *We explain in these figures. *First, Morphemes in the source language sentence is analyzed. *Searching matches SF in Node table. *SF can extract from a bilingual corpus. *Nouns are translated using a dictionary. *SF and nouns are aligned. *We will describe SF based translation process. After that we will describe the extraction method of SF.

SFの生成 EDR日英対訳コーパス(約20万対訳文) プログラムを作成し自動で生成(約14万) -日本語ノード別SF-

翻訳実験実験目的使用SF 評価用日本語文翻訳結果と評価文の英語が一致していれば成功名詞の翻訳結果は含まない
EDRコーパスから生成したSF(約14万) 評価用日本語文高校英語参考書例文の日本語文(256文) 翻訳結果と評価文の英語が一致していれば成功名詞の翻訳結果は含まない

翻訳実験結果翻訳成功 SFが一致 256文 216文(84%) 226文(88%) -- 成功例 -- 去年は雪が多かった。
　　　256文 216文(84%) 但し86文に他候補あり 226文(88%) 日本語ノードと条件のみ -- 成功例 -- 去年は雪が多かった。 We had a lot of snow last year. 彼は大変早く走ったので私はついて行くことができなかった。 He ran too fast for me to keep up with him.

翻訳実験結果違和感のない翻訳結果を出力した 86文に他候補が存在した
失敗した例で多かったのは、ひらがなと漢字の違いによる不一致や語尾の違いによる不一致であった -- 失敗例 -- (海)に行くよりは(山)にいきたい。 Z:に行くよりは:に行きたい。

次に一度SFになった文が元の文にどのくらい戻るかを調べるためにクローズドテストを行った
考察生成したSFは固有のものが多い生成したSFを使った翻訳でも競合する候補がある語尾の統一で固有のものは減らすことができるが、競合する候補は増える次に一度SFになった文が元の文にどのくらい戻るかを調べるためにクローズドテストを行った

クローズドテスト実験目的使用SF テストセット成功条件 SFになった文がどれくらい元に戻るか
EDRコーパスから生成したSF(約14万) テストセット SFを生成できた日本語文をランダムに選んだ256文成功条件翻訳結果が元の文と同じ場合他候補が存在しても一つに特定できる場合

(私)は(アイスクリーム)が好きではない。
クローズドテスト結果他候補なし条件で特定を含む 256文 188文(73%) 202文(79%) (私)は(アイスクリーム)が好きではない。 Z:don’t care for:. Z:don’t like:. 同じ意味の英文関係代名詞の省略、非省略

Z:got on:. He got on the train.
翻訳候補を限定するには概念辞書を使う列車(4447c9)→軌道に沿って走る乗り物(444863)→・・・ラクダ(3be294)→哺乳類(30f6c5)→・・・概念辞書が有効な例 Z:は:に乗った。 Z:got on:. He got on the train. Z:rode:. He rode a camel. テストセットの数が少なすぎたので、数を増やして再実験し概念辞書が有効か判断

まとめ生成したSFと翻訳実験の考察考察に基づいてクローズドテストを実施クローズドテスト結果を考察

進捗状況翻訳システムの作成 SF抽出プログラムの作成クローズドテストの実施デモ用インターフェイスの作成

今後の予定インターフェイスの改良 SF抽出プログラムの改良単語辞書の改良クローズドテストテストセットを増やして再実験
再実験の結果を元に絞込み方法を検討

He took a taxi to the station .
SFの生成(1/3) 対訳コーパス単語辞書彼は駅までタクシーに乗った。 He took a taxi to the station . 形態素解析 ■SFを抽出するには対訳コーパスと辞書を使います。 ■例えばこのような対訳文がコーパスにあったとします。 ■まず日本文と英文をそれぞれ形態素解析してノードとエッジに分けます。 *SF is made from the bilingual corpus. For example, look at these bilingual sentences. *These are each divided into nouns and others by morphological analysis. φ はまでに乗った。彼駅タクシー φ took to . He a taxi the station

SFの生成(2/3) Node Edge φ took to . はまでに乗った。名詞の翻訳 He a taxi
the station 彼 1p 駅 the タクシー a 彼駅タクシー ■ノードはそのままノードテーブルを構成します。 ■名詞は英語名詞を辞書で翻訳し、日本語名詞と照合して順番を決めます。これでエッジテーブルを構成します。 ■次に実際にコーパスから抽出した結果を示します。 *The node table consists of node. *English noun is translated in a dictionary. *Next, It is matched with Japanese noun and an order is decided. *Therefore, Edge table has consisted. *Next, the result extracted from the corpus is shown. 順序の決定 1,1p 3,the 2,a 彼 1p 駅 the タクシー a

Super-Functionに基づく日英機械翻訳

Similar presentations

Presentation on theme: "Super-Functionに基づく日英機械翻訳"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Super-Functionに基づく日英機械翻訳

Similar presentations

Presentation on theme: "Super-Functionに基づく日英機械翻訳"— Presentation transcript:

Similar presentations

About project

フィードバック