Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
Building text features for object image classification
国内線で新千歳空港を利用している航空会社はどこですか?
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
イラストで学ぶ 音声認識 荒木雅弘 著 講談社 2015.
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in エンフボロル ビャムバヒシグ,田中 克幸,相原 龍, 滝口 哲也,有木 康雄(神戸大) 2014年度 人工知能学会全国大会 301-4in Confusion Networkとは? 概要 入力音声:「私達は」 研究背景 現在の音声認識精度(書き言葉 : 95% 話し言葉 : 80%)から, 音声認識誤りは避けられない 人間が言語的に不自然だと思うような音声認識誤りを 識別モデルを用いて訂正し,音声認識精度を向上させる. アプローチ 大語彙連続音声認識においてConfusion Network上での誤り訂正 N-gramモデルへの長距離文脈スコア導入で,訂正精度を向上. N-best “私”:0.8 “-”:0.9 “価値”:0.5 “は”:0.5  私 価値 は  私 価値 が   渡し 価値 は  渡し 達 は  私 い が “達:0.3” “が”:0.4 “渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1 Confusion Set N-bestより多くの単語列候補を表現 Confusion Setごとに単語を選択⇒より多くの誤りを訂正可能 識別モデルによる誤り訂正 NWDを用いた文脈スコアの導入 Normalized Web Distance 単語間の類似度を求める手法として提案されている Conditional Random Fields 条件付確率が最大になるようなラベル付け 意味的に 一致 意味の関 わりがない :単語  を検索エンジンで検索したときのヒット数 :素性関数    :重み    :分配関数 :単語  かつ単語  を検索エンジンで検索したときのヒット数 :正or誤      :入力単語 :単語エンジンがインデックスした総ページ数 学習データ について条件付確率 分布の対数尤度最大化 長距離スコア 誤り訂正の流れ K words 宇宙 が で 広まっ つ て え い 言え だ − うち は どこ まで 広がっ れ いる だろ う wi 道 家 人 話 声 従来手法の概略 誤り検出 誤り訂正後 Null遷移削除 誤り訂正後 認識結果 “私 価値 は” 訂正結果 “私 達 は” うち − は どこ まで 広がっ れ いる だろ う 誤 正 宇宙 − は どこ まで 広がっ れ いる だろ う 正 誤 宇宙 は どこ まで 広がっ − れ いる だろ う 正 誤 宇宙 は どこ まで 広がっ − て いる だろ う 正 誤 道 家 人 話 声 … … 単語“価値”における素性 単語N-gram CN上信頼度:0.5 LSA文脈スコア:1.8 識別 モデル 距離が近い ゲノム 計画 0.05 科   国語 0.09 印象  残る 0.1 問題点 単語N-gramでは短距離でしか見れない LSA文脈スコアは大きな学習コーパスに不向き Null遷移による素性数の減少,学習効率低下 距離が遠い 遷移  途中 1 置く  原子 美容  音素 実験条件 実験結果 認識システム 日本語話し言葉コーパス(CSJ) 大語彙連続音声認識システム:Julius     素性 表層単語1-gram,2-gram,3-gram CN上信頼度 NWDによる文脈スコア 日本語話言葉コーパス(2,672講義分) Yahoo!知恵袋 (2004年~2010年分の回答数) データ数 比較対象 N-gram:単語N-gram,CN信頼度を素性 LSA model:文脈スコアとしてLSAを用 いた手法(ベースライン) NWD model:ヌル遷移ありの検出モデ ルで一回だけ訂正 誤りの種類別評価とWER 提案手法では置換誤りと挿入誤りが最少 WERで4.45%の改善 置換誤り 削除誤り 挿入誤り 正解単語 WER[%] CN-best 28,446 5,453 14,751 63,871 42.94 N-gram 21,522 7,848 8,204 68,400 33.17 LSA(Baseline) 21,049 8,324 7,757 68,397 32.77 Proposed method 15,118 13,534 3,431 68,794 28.32 トピックのある単語が訂正 改善例 正解文 宇宙 は 今日 より も 昨日 の 方 が 昨日 より おととい の 方が 小さかっ た CN-best っちゅう は 許容 より 昨日 の 方 が に の L 音 と の 方 が 近かっ た Nullあり訂正 宇宙 は 許容 より 昨日 の 方 よる おととい と の 方 が 近かっ た Null削除後訂正 宇宙 は 今日 より 昨日 の 方 今 に よる おととい と の 方 が 近かっ た 学習 評価 講演数 150 301 単語数 311,374 113,289 短距離 での訂正 まとめ Normalized Web Distanceによる文脈スコアの有効性を確認 ヌル遷移を効率的に削除する提案手法を従来の音声認識器が出力した認識結果と比較 ⇒単語誤り率で4.45%の改善 今後の課題:識別モデルを改善,トピックを持たない単語へのNWDスコアを付与