第5回音声ドキュメント処理ワークショップ (2011/3/7)

Slides:



Advertisements
Similar presentations
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
最大エントロピーモデルに基づく形態素解析と辞書による影響
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
テキストの類似度計算
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
Topic-Word Selection Based on Combinatorial Probability
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
Data Clustering: A Review
複数特徴量の重み付け統合による一般物体認識
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

第5回音声ドキュメント処理ワークショップ (2011/3/7) Confusion Networkを用いた CRFによる音声認識誤り訂正 第5回音声ドキュメント処理ワークショップ (2011/3/7) 神戸大学工学部情報知能工学科 中谷良平,滝口哲也,有木康雄

研究背景 音声認識精度 ニュースなどの正しい書き言葉→およそ95% 学会講演音声などの自由な話し言葉→およそ80% 話し言葉でストレスのない音声認識を行うために、さらなる音声認識精度の向上が期待される

従来の音声認識 Acoustic Model Language Model Feature Extraction Search Input speech

従来の音声認識の問題点 従来の音声認識では、言語モデルとして自然なbigram、trigramを学習する 例)「神戸/大学」、「研究/を/する」 問題点1   スムージングにより不自然なN-gramが発生してしまう 問題点2   N-gramが自然でも、文章として不自然な場合がある  例)     冷蔵庫の中に、目薬を入れてある。     冷たいものが食べたくなったからだ。

問題点の解決法 問題点1 : スムージングによる問題 問題点2 : N-gramではわからない不自然さ ⇒bi/trigramよりも広範囲の文脈情報(長距離文脈情報) を取り入れる

提案手法 長距離文脈情報を用いたCRFによる音声認識誤り訂正 自然/不自然なN-gramをCRFを用いて学習する あらかじめ各単語には正誤ラベリングを行っておく 素性のひとつとして長距離文脈情報を追加することで、音声ドキュメントの話題を考慮する 誤りと識別された語をConfusion Networkを用いて訂正する

Confusion Network 誤り訂正を行うための仮説集合としてConfusion Networkを用いる Word Latticeをクラスタリング、圧縮することで得られる またその過程で各リンクには信頼度が付与される CRFによる誤り検出を用いてConfusion Setから正解を探す

CRF (Conditional Random Field)(1/2) 誤り検出モデルに用いる 渡し は 神戸 から 来 た  E  C  C  C  C C 学習には単語列に正誤ラベルが貼られたものが必要 正誤それぞれの特徴を学習するために、多くの素性を自由に追加できる ⇒自然なN-gramとともに不自然なN-gramが学習可能

CRF (Conditional Random Field)(2/2) 入力 x について、ラベル y が付与される確率 fa : 素性関数 Z(x) : 分配関数 学習データ (xi , yi) について条件付確率の対数尤度  を最大にするように計算する

CRFの学習 正解部分,誤り部分を特徴づける素性の重みを学習 素性を柔軟に設計できる ⇒長距離文脈情報も素性として取り入れられる 特徴的な素性→重み大 例:「神戸/県」:明らかに誤りだとわかる     →誤り部分のみでよく出現 特徴的でない素性→重み小 例:「これ/は」:ここだけでは正解か誤りかを識別できない     →正解、誤りのどちらでも出現 素性を柔軟に設計できる   ⇒長距離文脈情報も素性として取り入れられる

長距離文脈情報 長距離文脈情報 周辺の認識結果単語を参照したときに、識別対象単語が不自然でないかという情報 音声 会話 大根 話者 対話 出現単語の自然さを意味スコアとして算出する bi/trigramよりも広範囲の文脈情報を考慮できる 動詞、形容詞、名詞に意味スコアを与える

意味スコアの算出 w wi 音声 会話 大根 話者 対話 周辺の単語の c(w) 内での類似度の平均を計算する K 単語 w wi 音声 会話 大根 話者 対話 周辺の単語の c(w) 内での類似度の平均を計算する 正規化を行い、それを意味スコア SS(w) とする sim(w,c(w)) の計算には LSA (Latent Semantic Analysis) を用いる

LSA (Latent Semantic Analysis) (1/3) 巨大でスパース 文書\単語 打席 ホームラン 肉 野菜 分母 二 ・・・ 二 打席 連続 ホームラン を 打っ た 1 肉 と 野菜 を バランス よく 食べる 分母 が 二 倍 に なる と LSA 次元圧縮 文書\トピック 野球 食事 数学 ・・・ 二 打席 連続 ホームラン を 打っ た 0.93 0.01 肉 と 野菜 を バランス よく 食べる 0.04 0.79 0.03 分母 が 二 倍 に なる と 0.05 0.71 出現頻度 次元圧縮により、関連性の強い単語は同一次元に圧縮される

LSA (Latent Semantic Analysis) (2/3) N 個の文書から作る単語文書行列 W の要素 wij としてtf-idf を用いる tf : 単語の出現頻度 idf : 単語の逆出現頻度 nij : 文書 cj における単語 ri の出現頻度 | cj | : 文書 cj に含まれる単語の総数 dfi : 単語 ri が出現する文書の総数 idfi は単語 ri の単語重みと考えることができ、多くの文書で出現する単語では小さく、特定の文書でしか出現しない単語では大きくなる

LSA (Latent Semantic Analysis) (3/3) 語彙数を M とすると W は M×N のスパースな行列になる 特異値分解により、特異値の大きなものから R だけ用いて近似を行う c1・・・ cj・・・ cN v1T・・・ vjT・・・ vNT r1 ・ ri rM W u1 ・ ui uM U S V T R×R R×N M×N M×R 単語 ri と文書 cj の類似度は以下のように求める この値が 1 に近いほど類似度が高く、-1 に近いほど類似度が低くなる

提案手法の流れ 従来の音声認識器によりConfusion Networkを出力 長距離文脈情報としての意味スコアの付与 書き起こし文書を用いて正誤ラベリング CRFによる誤り検出モデルの学習 Confusion Network上での音声認識誤り訂正

提案手法の流れ 「私達は」 学習 従来の音声認識器によりConfusion Networkを出力 長距離文脈情報としての意味スコアの付与 書き起こし文書を用いて正誤ラベリング CRFによる誤り検出モデルの学習 Confusion Network上での音声認識誤り訂正 「私達は」 0.77 0.30 “私”:0.8 C “-”:0.9 C “価値”:0.5 E “は”:0.5 C 0.65 “達”:0.3 “が”:0.4 E C 0.01 0.01 E E “渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1 E E 学習

音声認識誤り訂正(1/2) Confusion Networkの候補からCRFをもとに正解を探す 私 – 価値 は C C E C 訂正 “私”:0.8 “-”:0.9 “価値”:0.5 “は”:0.5 “達”:0.3 “が”:0.4 “渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1 この最尤候補列に対して誤り検出を行う 私 – 価値 は C C E C 訂正

音声認識誤り訂正(2/2) Confusion Networkの候補からCRFをもとに正解を探す 私 – 達 は 訂正完了 C C C C “私”:0.8 “-”:0.9 “価値”:0.5 “は”:0.5 “達”:0.3 “が”:0.4 “渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1 「価値」を第二候補である「達」と置き換えて誤り検出を行う 私 – 達 は 訂正完了 C C C C

評価実験 比較対象 CN-best : 信頼度最大の単語列(ベースライン) NonSemantic : 提案手法の素性として意味スコアを用いない場合 Proposed method : 提案手法 Oracle : Confusion Network上の正解単語を全て選んだ場合(上限)          

評価指標 単語誤り率(WER) 正解:「私 は 豊橋 に 行く」 SUB DEL INS 認識:「渡し 豊橋 に へ 行く」 正解:「私 は 豊橋 に 行く」 SUB DEL INS 認識:「渡し  豊橋 に へ 行く」 SUB : 置換誤り DEL : 削除誤り INS : 挿入誤り

実験条件(1/2) コーパス 音声認識器 日本語話し言葉コーパス(CSJ) 様々な講演音声を収録したコーパス Julius-4.1.4

実験条件(2/2) 誤り検出モデル 学習 評価 学習に用いた素性 CSJの150講演 CSJの13講演 表層単語unigram,bigram,trigram Confusion Network上の信頼度 意味スコア

実験結果 誤り種類別の評価と単語誤り率 意味スコアを用いない場合でも3.53ポイントの改善 置換誤り 削除誤り 挿入誤り 正解単語 WER Oracle 1,855 2,467 831 35,491 12.94 % CN-best 7,246 2,141 3,423 30,453 32.17 % NonSemantic 6,531 2,633 2,242 30,658 28.64 % Proposed method 6,451 2,631 2,253 30,740 28.46 % 意味スコアを用いない場合でも3.53ポイントの改善 意味スコアを追加した提案手法は3.71ポイントの改善

まとめ まとめ 今後の課題 Confusion Networkを用いてCRFによる誤り訂正を行った 素性として意味スコアを導入した 提案手法によって単語誤り率で3.71ポイント改善 意味スコアは主に削除誤りに有効 Oracleと比べて改善の余地が多く残っているのは削除誤り 今後の課題 誤り検出精度の改善 品詞情報の追加、パラメータ推定法の変更など 未知語検出手法への応用

ご清聴ありがとうございました

改善例(1/2) 不自然なN-gramの改善 正解文 実際 の 発話 に CN-best 実際 の あ 発話 に NonSemantic Proposed method

改善例(2/2) 意味的に不自然な誤りの改善 イルカの特徴に関する講演で 正解文 イルカ の 頭部 表面 に CN-best イルカ の 東部 表面 に NonSemantic Proposed method N-gramで改善できなかった誤りが周辺のトピックから訂正できた

Maximum likelihood words 提案手法の流れ Correct Recognition Result Learning Corresponding Confusion Network Speech Recognition Calculate Semantic Score Speech Data Labeling Learning of error tendency by CRF Latent Semantic Analysis Large Corpus Error Detection Model  Maximum likelihood words of Confusion Network Confusion Network Calculate Semantic Score Input Speech Speech Recognition Error Correction Confusion Network Recognition Result

従来の音声認識技術 私 価値 は 私 価値 が 渡し 価値 は 渡し 達 は 私 い が 入力音声:“私 達 は” 単語ラティス N-best 単語ラティス  私 価値 は  私 価値 が   渡し 価値 は  渡し 達 は  私 い が “が” “価値” “は” “私” “が” “達” “い” “渡し”

従来手法 パーセプトロンアルゴリズムを用いた誤り訂正モデル 音声認識結果を仮説集合(N-bestなど)として出力し、対応する書き起こしデータと比較する 正解部分で現れやすいN-gram → α は正の方向へ 誤り部分で現れやすいN-gramを学習する → α は負の方向へ 学習した誤り訂正モデルを用いて誤認識を訂正する