統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応用 (株)東芝 研究開発センター 釜谷聡史
背景 実用的な音声翻訳への要求 既存の翻訳手法 (1)と(2)とを融合して、両者の長所を引き出す (a) 任意の表現を、正しく翻訳 (b) 正確で自然な表現で、翻訳 既存の翻訳手法 (1) 抽象化された規則に基づく手法 (e.g. RBMT) 長所:広カバレージ、短所:機械的な訳文 →(a)の解決に有利 (2) 具体的な用例に基づく手法 (e.g. TM,EBMT) 長所:自然な訳文、短所:狭カバレージ →(b)の解決に有利 (1)と(2)とを融合して、両者の長所を引き出す RBMTとEBMTとのハイブリッド翻訳→(a),(b)を同時に実現
文分割に基づくハイブリッド翻訳方式 入力文: 最適セグメント割当: ハイブリッド翻訳結果: [ 私はサイズが大きいのが気に入ったけどやめます] 最適セグメント割当: [ サイズ/が/大きい/のが ] + [ 気に入っ/た/けど ] + [ 私/は/やめ/ます ] ハイブリッド翻訳結果: [ It's so big ]EBMT + [ I like it but ]RBMT + [ I just can't buy it. ]EBMT
評価 Hybrid 方式での性能改善を確認 翻訳方向 = 日本語→英語 旅行ドメイン 用例翻訳 = 用例数:123,819対 旅行ドメイン 翻訳方向 = 日本語→英語 旅行ドメイン 用例翻訳 = 用例数:123,819対 旅行ドメイン 評価指標 = NIST/BLEU 正解訳=各1文 ○評価セットA (open) 1000文、平均13.4文字/文 ○評価セットB (open) 200文、平均20.5文字/文 Hybrid 方式での性能改善を確認