述語項構造に基づいた統計 翻訳における語句の並べ替え 2006年11月15日(水) 奈良先端大 松本研(M2) 小町守
研究背景 コーパスの増大 計算機の性能向上 機械学習の発展 対訳コーパスがあれば翻訳器が作れる 統計を用いた処理 コーパスの増大 計算機の性能向上 機械学習の発展 対訳コーパスがあれば翻訳器が作れる 人手でルール・ヒューリスティクスをメンテナンスする必要がない 統計的機械翻訳(統計翻訳)
研究目的 述語項構造解析を用いた統計翻訳の改善 語順の並べ替えによる語句の対応の向上 統計翻訳は単語のアライメント(対応づけ)を対訳コーパスから学習 言語の「構造」や「意味」を用いた翻訳モデルはまだ成功していない 述語項構造解析を用いた統計翻訳の改善 統語構造が大きく離れた言語間で離れた位置に出現する語句の対応が適切に見積もれない 語順の並べ替えによる語句の対応の向上
述語項構造に基づく並べ替え 並べ替えによって翻訳モデルの改善を狙う 住所 を ここ に 書い 下さい て 住所 を ここ に 書い 下さい please write down your address here 並べ替えによって翻訳モデルの改善を狙う
目次 研究背景・目的 統計翻訳とは 述語項構造解析を用いた並べ替え IWSLT 2006 について IWSLT 2006 実験 まとめ 今後の予定
統計翻訳とは 雑音チャネルモデル (Brown et al., 1990) 言語モデル 翻訳モデル デコーダ 英 日 英語に雑音が混ざって日本語になった 日本語から元の英語をデコードする問題
デコーダ: argmaxeP(j|e)P(e) 統計翻訳のフレームワーク 対訳 コーパス 英語 コーパス 英語文 翻訳モデル P(j|e) 言語モデル P(e) 日本語文 英語文 英語文 英語文 デコーダ: argmaxeP(j|e)P(e)
統計翻訳における並べ替え 住所 を ここ に 書い 下さい て 述語項構造解析 住所 を ここ に 書い 下さい て please write down your address here 他に形態素解析を使った並べ替え(Niessen and Ney, 2001)・構文解析を使った並べ替え(Collins et al., 2005)
述語項構造解析器 syncha Iida et al., 2006 と小町ら, 2006 に基づいた述語項構造解析器 述語(動詞・形容詞・名詞+だ)と事態性名詞の項(ガ・ヲ・ニ格)を同定 NAIST テキストコーパス http://cl.naist.jp/nldata/corpus/ で学習 係り受け関係にない格要素も出力 ゼロ照応・省略も扱える 文内の項だとだいたいF値で0.8くらい
述語項構造解析の手順 住所 を ここ に 書い 下さい て 住所 を ここ に 書い 下さい て 住所 を ここ に 書い 下さい て WO-ACC NI-LOC predicate
並べ替えの手順 述語(動詞・形容詞・事態性名詞)を探す 英語の語順に近くなるようヒューリスティックに並べ替え 住所 を ここ に 書い 下さい て 書い 下さい て 住所 を ここ に 述語(動詞・形容詞・事態性名詞)を探す 英語の語順に近くなるようヒューリスティックに並べ替え
IWSLT 2006 International Workshop on Spoken Language Translation 話し言葉の翻訳・音声翻訳に関する評価型ワークショップ 対象言語: 日中英 コーパス: BTEC (Basic Travel Expression Corpus) 今回参加したのは日英翻訳タスク
IWSLT 2006 の翻訳対象 日本語の書き起こしデータを用いた翻訳 日本語の音声認識データを用いた翻訳 音声認識結果の 1-Best を用いた翻訳 音声を用いた翻訳 入力は wav ファイル トイレ は 機内 後方 で す ご 案内 致し ます トイレ は 機内 高校 で す ご 案内 致し ます
BTEC コーパス 旅行会話の対訳コーパス(質問文と応答文) ATR が開発 日本語→英語・中国語→英語 約60万文(非公開) IWSLT 2006 で使用可能なコーパス 訓練コーパス: ランダムに選んだ約40,000会話対 書き起こしのみ 開発コーパス: ランダムに選んだ約500会話対 書き起こし+音声認識 1-BEST の結果の2つ テストコーパス: ランダムに選んだ500会話
IWSLT 2006 の設定 評価方法は2通り 翻訳対象も2通り 大・小文字区別あり、句読点あり(正式評価) 大・小文字区別なし、句読点なし(補助評価) 翻訳対象も2通り 旅行会話の書き起こしデータを用いた翻訳 旅行会話の音声認識データを用いた翻訳 必ず音声認識データを用いた翻訳結果も提出しなければならないが、1-BEST の音声認識結果がもらえる
IWSLT 2006 の評価尺度 BLEU(Papineni et al., 2002) システムが出力した翻訳文と参照文の間の n-gram の適合率を相乗平均した類似度計算 NIST(Standards and Technology, 2002) n-gram の適合率を情報量で正規化して相加平均した類似度計算 最終的な結果は BLEU によりソート
IWSLT 2006 の評価尺度(続き) METEOR WER(Word Error Rate) いくつかのステップに分けて翻訳文と参照文の間の unigram 一致率を出してスコアリング WER(Word Error Rate) 翻訳文と参照文の間の単語誤り率 PER(Position Independent word Error Rate) 文を bag of words だと考えたとき(出現位置を考慮しない)の単語誤り率
コーパスの前処理 日本語側 英語側 形態素解析・分かち書き: 茶筌 係り受け: 南瓜 述語項構造: 新茶(syncha) 分かち書き: tokenizer.sed (LDC) 形態素解析: MXPOST 単語は全部小文字にしてトレーニング
会話文の対応付け 訓練コーパス39,953会話対から45,909文対を人手でアライメント かしこまり まし た 。 この 用紙 に 記入 し て 下さい 。 sure . please fill out this form . かしこまり まし た 。 この 用紙 に 記入 し て 下さい 。 sure . please fill out this form .
コーパスの並べ替え 述語項構造解析結果による並べ替え 文対数 並べ替えあり 18,539 交差減少 33,874 交差増加 7,959 対応の交差あり 39,979 総計 45,909 述語項構造解析結果による並べ替え この 用紙 に 記入 し て 下さい 。 いずれの文対も 訓練事例に追加 please fill out this form . GIZA++で 単語対応を学習 記入 し て この 用紙 に 下さい 。
翻訳モデルと言語モデル 翻訳モデル 言語モデル デコーダ GIZA++ (Och and Ney, 2003) Palmkit (Ito, 2002) により英語側のコーパスを用いてバックオフ単語 trigram モデル作成 デコーダ WMT 2006 shared task のベースラインシステム(Pharaoh を元にしたもの) Pharaoh のパラメータは誤り最小化学習で最適化
誤り最小化学習(MERT) Pharaoh のパラメータの最適化 語順の並べ替えを行っていない500文を用いてトレーニング 句翻訳確率(日→英・英→日) 単語翻訳確率(日→英・英→日) 句ペナルティ 句の歪み確率 語順の並べ替えを行っていない500文を用いてトレーニング
IWSLT 2006 結果
IWSLT 2006 結果(1-BEST)
ベースラインとの比較実験 WMT 2006 のベースラインシステムをそのままデフォルトで使ったモデル(パラメータの最適化なし) 並べ替えた文をコーパスに加えて単語対応を学習したモデル(パラメータの最適化なし) 上記のモデルに対して誤り最小化学習を行いパラメータの最適化をしたモデル
比較実験結果 テストセット システム BLEU NIST 音声認識 1-BEST ベースライン 0.1081 4.3555 提案手法(MERTなし) 0.1366 4.8438 提案手法(MERTあり) 0.1311 4.8372 書き起こし 0.1170 4.7078 0.1459 5.3649 0.1431 5.2105
考察 ベースラインシステムよりは精度向上 内容語に重点を置いた評価尺度では比較的高精度・個々の単語選択に重点を置いた評価尺度では低精度 並べ替えによる翻訳モデル改善に成功 内容語に重点を置いた評価尺度では比較的高精度・個々の単語選択に重点を置いた評価尺度では低精度 用言の直前の格助詞のペアを切り離すことで句の対応が悪くなる
考察の続き 誤り最小化学習で性能が下がるのは変 うまく項が当たっていないケースが邪魔している可能性 原因が特定できない 語順を並べ替えた文をコーパスに追加しているのにパラメータチューニングには元々の語順の文だけ使っているのが問題かも うまく項が当たっていないケースが邪魔している可能性 新聞記事でトレーニングした述語項構造解析器を旅行会話に使ったため
まとめ 述語項構造に基づく統計翻訳のための語句並べ替えモデルを提案 IWSLT 2006 日英翻訳タスクにて、BLEU スコア0.1431・NISTスコア5.2105を達成 ベースラインからはBLEUスコアで22%、NISTスコアで11%向上 誤り最小化学習に効果が見られなかった
今後の予定 誤り最小化学習がうまく行かない原因を突き止める 述語がどの格フレームであったかの情報を用いる Pharaoh による並べ替えを制限 単語翻訳確率を固定 誤り最小化学習に用いる開発セットに語順を入れ替えた文を加える 述語がどの格フレームであったかの情報を用いる