機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守
NTCIR(エンティサイル) 情報アクセス技術に関するワークショップ 言語横断情報検索 自動要約 質問応答 特許情報処理 意見情報分析 動向情報分析 Web 検索
NTCIR-7 Advanced Cross-lingual Information Access 言語横断情報検索と質問応答 User Generated Contents ブログ検索 Focused Domains 特許翻訳とマイニング
特許翻訳 特殊な言い回しがある 実際の文を見てみましょう 今回は「請求項」でなく「実施例」なので、普通の技術論文とあまり変わらない ドメイン適応 専門用語
ドメイン適応 WMT 2007 Shared Task1: Domain Adaptation Philipp Koehn, Josh Schroeder. Experiments in Domain Adaptation for Statistical Machine Translation
結果 Method BLEU Large out-of-domain training data 25.11 Small in-domain training data 25.88 Combined training data 26.69 In-domain language model 27.46 Interpolated language model 27.12 Two language model 27.30 Two translation model 27.64
考えていること LDA/PLSIでトピックモデルを作って言語モデルを変えながら翻訳 技術文書はいろいろな分野が入っているので有効そう Wikipedia から専門用語の対訳辞書を作って利用する いろんな専門用語が載っているので使えそう
NTCIR-7の期間 2007年10月-2007年12月 2007年11月15日 2007年11月-2008年4月 登録〆切 ドキュメントリリース 2007年11月-2008年4月 dry run 2007年11月-2008年8月 formal run