Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in エンフボロル ビャムバヒシグ,田中 克幸,相原 龍, 滝口 哲也,有木 康雄(神戸大) 2014年度 人工知能学会全国大会 301-4in Confusion Networkとは? 概要 入力音声:「私達は」 研究背景 現在の音声認識精度(書き言葉 : 95% 話し言葉 : 80%)から, 音声認識誤りは避けられない 人間が言語的に不自然だと思うような音声認識誤りを 識別モデルを用いて訂正し,音声認識精度を向上させる. アプローチ 大語彙連続音声認識においてConfusion Network上での誤り訂正 N-gramモデルへの長距離文脈スコア導入で,訂正精度を向上. N-best “私”:0.8 “-”:0.9 “価値”:0.5 “は”:0.5 私 価値 は 私 価値 が 渡し 価値 は 渡し 達 は 私 い が “達:0.3” “が”:0.4 “渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1 Confusion Set N-bestより多くの単語列候補を表現 Confusion Setごとに単語を選択⇒より多くの誤りを訂正可能 識別モデルによる誤り訂正 NWDを用いた文脈スコアの導入 Normalized Web Distance 単語間の類似度を求める手法として提案されている Conditional Random Fields 条件付確率が最大になるようなラベル付け 意味的に 一致 意味の関 わりがない :単語 を検索エンジンで検索したときのヒット数 :素性関数 :重み :分配関数 :単語 かつ単語 を検索エンジンで検索したときのヒット数 :正or誤 :入力単語 :単語エンジンがインデックスした総ページ数 学習データ について条件付確率 分布の対数尤度最大化 長距離スコア 誤り訂正の流れ K words 宇宙 が で 広まっ つ て え い 言え だ − うち は どこ まで 広がっ れ いる だろ う wi 道 家 人 話 声 従来手法の概略 誤り検出 誤り訂正後 Null遷移削除 誤り訂正後 認識結果 “私 価値 は” 訂正結果 “私 達 は” うち − は どこ まで 広がっ れ いる だろ う 誤 正 宇宙 − は どこ まで 広がっ れ いる だろ う 正 誤 宇宙 は どこ まで 広がっ − れ いる だろ う 正 誤 宇宙 は どこ まで 広がっ − て いる だろ う 正 誤 道 家 人 話 声 … … 単語“価値”における素性 単語N-gram CN上信頼度:0.5 LSA文脈スコア:1.8 識別 モデル 距離が近い ゲノム 計画 0.05 科 国語 0.09 印象 残る 0.1 問題点 単語N-gramでは短距離でしか見れない LSA文脈スコアは大きな学習コーパスに不向き Null遷移による素性数の減少,学習効率低下 距離が遠い 遷移 途中 1 置く 原子 美容 音素 実験条件 実験結果 認識システム 日本語話し言葉コーパス(CSJ) 大語彙連続音声認識システム:Julius 素性 表層単語1-gram,2-gram,3-gram CN上信頼度 NWDによる文脈スコア 日本語話言葉コーパス(2,672講義分) Yahoo!知恵袋 (2004年~2010年分の回答数) データ数 比較対象 N-gram:単語N-gram,CN信頼度を素性 LSA model:文脈スコアとしてLSAを用 いた手法(ベースライン) NWD model:ヌル遷移ありの検出モデ ルで一回だけ訂正 誤りの種類別評価とWER 提案手法では置換誤りと挿入誤りが最少 WERで4.45%の改善 置換誤り 削除誤り 挿入誤り 正解単語 WER[%] CN-best 28,446 5,453 14,751 63,871 42.94 N-gram 21,522 7,848 8,204 68,400 33.17 LSA(Baseline) 21,049 8,324 7,757 68,397 32.77 Proposed method 15,118 13,534 3,431 68,794 28.32 トピックのある単語が訂正 改善例 正解文 宇宙 は 今日 より も 昨日 の 方 が 昨日 より おととい の 方が 小さかっ た CN-best っちゅう は 許容 より 昨日 の 方 が に の L 音 と の 方 が 近かっ た Nullあり訂正 宇宙 は 許容 より 昨日 の 方 よる おととい と の 方 が 近かっ た Null削除後訂正 宇宙 は 今日 より 昨日 の 方 今 に よる おととい と の 方 が 近かっ た 学習 評価 講演数 150 301 単語数 311,374 113,289 短距離 での訂正 まとめ Normalized Web Distanceによる文脈スコアの有効性を確認 ヌル遷移を効率的に削除する提案手法を従来の音声認識器が出力した認識結果と比較 ⇒単語誤り率で4.45%の改善 今後の課題:識別モデルを改善,トピックを持たない単語へのNWDスコアを付与