音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University 1 1 2 2 2 1 3 3.

Slides:



Advertisements
Similar presentations
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
Advertisements

日本人学習者による英語音声の 韻律に関する研究
最大エントロピーモデルに基づく形態素解析と辞書による影響
リアルタイム単語認識技術を利用した カメラベース情報取得システム
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
国内線で新千歳空港を利用している航空会社はどこですか?
音声からの心的状態の推定における 生理心理学的アプローチの導入
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
非負値行列因子分解による 構音障害者の声質変換
相関分析.
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
創成シミュレーション工学専攻 計算システム工学分野 徳田・李研究室 橋本 佳
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
二重課題による ワーキングメモリの増減  情報システム工学科3年 038 田中 祐史.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
複数対象への音声入力による行動指示 ~個別行動から共同行動への研究~
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応用
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
通訳研究分野の概観図 General Map of Interpreting Studies
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
ベイズ音声合成における 事前分布とモデル構造の話者間共有
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
CSP係数の識別に基づく話者の 頭部方向の推定
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University

背景( 1/2 )  音声翻訳システム  各要素が独立 ⇒ 1-best のみを利用  前段要素のエラーによって後段要素の性能低下  音声認識と機械翻訳の統合 [Ney, ’99]  複数の認識候補とスコアを機械翻訳に利用 ⇒ 翻訳性能の改善  音声合成部が考慮されていない  音声合成部を考慮した統合手法が必要 2 音声認識機械翻訳音声合成

 機械翻訳・音声合成の性能評価および分析  主観評価実験による評価 聞き取り精度 合成音声の自然性 翻訳文の妥当性 翻訳文の流暢性  各主観評価値の関係を分析  客観評価値と主観評価値の関係を分析 背景( 2/2 ) 3 音声認識機械翻訳音声合成 機械翻訳と音声合成の統合手法の指針を示す

システム  音声翻訳システム( Finnish-to-English )  音声認識部 正解認識結果を出力すると仮定  機械翻訳部 HiFST ( 統計的機械翻訳システム ) EuroParl 865,732 翻訳文による学習 上位 20 位までの翻訳候補を出力  音声合成部 HMM 音声合成システム 単一男性話者による 8,129 発話による学習 4

システム出力例  翻訳候補(上位 5 位)とその合成音声 5 N-bestMT output sentenceSpeech 1We support what you have said. 2We support what you said. 3We are in favour of what you have said. 4We support what you said about. 5We are in favour of what you said. 正解翻訳文 We can support what you said.

主観評価実験  Amazon Mechanical Turk を利用  Section 1: 音声合成の評価 合成音声の自然性( Naturalness )  Section 2: 音声翻訳の評価 単語聞き取り誤り率( WER ) 聞き取った翻訳文の妥当性( S2ST-Adequacy ) 聞き取った翻訳文の流暢性( S2ST-Fluency )  Section 3: 機械翻訳の評価 翻訳文の妥当性( MT-Adequacy ) 翻訳文の流暢性( MT-Fluency )  評価者 150 人 6

機械翻訳との相関  機械翻訳の評価尺度  妥当性 ⇒ 翻訳としての正しさ  流暢性 ⇒ 単語・文法の正しさ  合成音声の自然性との相関係数  評価者の単語聞き取り誤り率との相関係数 ⇒ 翻訳文の流暢性との相関がより高い 7 妥当性流暢性 聞き取り誤り 率 - 0.17 - 0.25 妥当性流暢性 自然性

合成音声の自然性  合成音声の自然性と翻訳文の流暢性 8

単語聞き取り誤り率  単語聞き取り誤り率と翻訳文の流暢性 9

単語 N-gram と翻訳文の流暢性  単語 N-gram  直前の N - 1 単語が与えられた際の単語出現確率  単語 N-gram のスコア ⇒ 文の流暢性  単語 N-gram と翻訳文の流暢性との相関  機械翻訳部の学習データ 865,732 文から推定  SRILM toolkit (Kneser-Ney smoothing) 10 1-gram2-gram3-gram4-gram5-gram MT-Fluency

単語 5-gram による流暢性の予測  単語 5-gram のスコアごとに流暢性を平均化 相関係数 :

音素 N-gram と合成音声の自然性  合成音声の品質は発話内容に大きく影響  発話内容が学習データに近いとき高い自然性  学習データから推定した音素 N-gram のスコア ⇒ 学習データとの類似度  音素 N-gram と合成音声の自然性の相関  音声合成部の学習データ 8,129 文から推定  SRILM toolkit (Kneser-Ney smoothing) 12 1-gram2-gram3-gram4-gram5-gram Naturalness

音素 4-gram による自然性の予測  音素 4-gram のスコアごとに自然性を平均化 相関係数 :

むすび  機械翻訳・音声合成の性能評価および分析  翻訳文の流暢性が音声合成部に強く影響 高品質な合成音声 高い聞き取り精度  客観評価値による主観評価値の予測 単語 N-gram ⇒ 翻訳文の流暢性 音素 N-gram ⇒ 合成音声の自然性  今後の課題  音声合成部を考慮した統合手法の検討  音声翻訳システム全体の統合手法の検討 14

背景( 3/3 )  統計モデルに基づく音声翻訳  学習データから統計モデルを自動学習  各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化 15 :入力音声 :出力音声:出力単語列 :入力単語列 音声認識機械翻訳音声合成

単語 5-gram と流暢性  翻訳文ごとの流暢性スコアの散布図 相関係数 :

 音声翻訳システム  ある言語の音声を異なる言語の音声に直接翻訳 ( Speech-to-Speech Translation )  音声を入出力とした自然なコミュニケーション  言語の壁を越えた円滑なコミュニケーション 背景( 1/2 ) 17 日本語英語 こんにちは。 Hello.

背景( 2/2 )  統計モデルに基づく音声翻訳  理論的枠組みは言語によらず同一 ⇒ あらゆる言語のシステムを構築可能  各要素の結果を統計的に利用可能 ⇒ 音声翻訳全体を考慮した統計モデルの最適化 18 音声認識機械翻訳音声合成