1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

Slides:



Advertisements
Similar presentations
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ランダムプロジェクションを用いた 音声特徴量変換
手話と聴覚障害について学ぼう 初心者のための手話講座.
神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
非負値行列因子分解による 構音障害者の声質変換
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音素部分空間の統合による音声特徴量抽出の検討
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Specmurtを利用した調波構造行列による 混合楽音解析の検討
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
Data Clustering: A Review
交番における手話から日本語への 変換システムの検討
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
メタモデルと音響モデルの 統合による構音障害者の音声認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
ベイズ音声合成における 事前分布とモデル構造の話者間共有
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討 ☆柿原康博,滝口哲也,有木康雄(神戸大),三谷信之,大森清博(福祉のまちづくり研究所) 聴覚障害者とは ✓聴覚障害者とは聞こえの不自由な人を指し,聴覚障害の原因や種類,聞こえの程度は人によって異なる. 聴覚障害者の発話 ✓ 聴覚障害になった時期が音声言語の獲得時期の前であるか後であるかによって発話の程度は異なる.また,発話訓練の有無にも左右される. ✓ 発話の訓練を受けていても,先天聾である場合や音声言語の習得前に高度・重度難聴となった場合,発話のスタイルは独特であり,健常者とのコミュニケーションが難しい場合がある. 中途失聴者 音声言語を獲得した後に聞こえなくなった人.全く聞こえない中途失聴者でも多くは話すことができる. 難聴者 聞こえにくいが聴力が残っている人.補聴器を使って会話できる人から,僅かな音しか入らない人まで様々. 聾唖者 音声言語を習得する前に失聴した人.手話を第一言語としている人が多い. 【健常者】 /a k e g a t a/ a e Frequency [Hz] 2000 4000 6000 8000 Time [s] 【聴覚障害者】 e? a? コミュニケーション手段 ✓同じ聴覚障害者でも,失聴年齢,残存聴力,言語力,読話力,発語力,教育歴,家庭環境など,人によってコミュニケーション手段は異なる.(補聴器,人工内耳など) ✓手話・指文字,読話・読唇,筆談なども多く用いられる. 聴覚障害者のためのコミュニケーション支援技術の開発の第一歩として,(発話に不自由のある)聴覚障害者発話の音声認識の検討を行う. 畳み込み層 (C) 近傍のユニットとしかつながらない (誤差の波及防止) 同じ重みを使いまわす (位置ずれに対応) プーリング層 (S) 複数の入力を1ユニットにまとめる (平滑化) 2次元特徴 フィルタ 特徴マップ CNNとは CNNはLeCunら によって提案された多層ニューラルネットワークの一種であり,手書き文字認識の分野で大きな成果をあげてきた. 「畳み込み + プーリング」 を交互に繰り返すことで,多様な変形に対する不変性を獲得する. [1] Y. LeCun et al., “Convolutional networks for images, speech, and time-series” in The Handbook of Brain theory and Neural Networks, 3361, 1995. 低解像度化 平均値 最大値 ..etc. [1] CBNを用いた特徴量抽出 ボトルネックの構造を持つCNN (CBN: Convolutive Bottleneck Network) を用いることで,発話スタイルの変動を吸収しつつ,低次元な特徴 (音素ラベル) へと非線形に変換. このとき,獲得した情報をボトルネック層に集約させ,ボトルネック層のユニットの線形和で表現されるボトルネック特徴量を抽出する. 問題 - 入力: 音声信号から取り出したメルマップ (時間-周波数) - 出力: 音素ラベル (対応するユニットだけが値1,他のユニットが値0) 教師あり学習 対象: 結合重み,バイアス 方法: バックプロパゲーション (勾配降下法により2乗誤差を最小化) ・・・・・ 入力層 Convolution & Pooling Fully connected 音声信号 Mel spectrum 1 出力層 S1 C2 S2 C1 / i / m1 m2 m3 39×13 36×12⊗13 12×4⊗13 9×3⊗27 3×1⊗27 108 N 54 ボトルネック層 教師データ 評価実験 ✓聴覚障害者1名を対象に,孤立単語認識実験を行った. ✓事前の実験として,健常者男性4名(各2620単語)の発話を学習した健常者の音響モデルを用いて,聴覚障害者発話の認識を行った. まとめ・今後の課題 ✓聴覚障害者の発話スタイルは健常者と異なり,健常者の音響モデルでは認識精度が大きく低下(79.1%→3.8%)する. ✓ボトルネックの構成を持つ,CNN(CBN)を用いた特徴量抽出を行った場合,認識性能に改善が見られた. ✓聴覚障害者の発話は,教育環境や訓練の有無に左右される.今後は,多くの聴覚障害者がコミュニケーション手段として利用する手話・指文字,読唇,表情変化を捉える画像特徴量を取り入れて,聴覚障害者のためのコミュニケーション支援技術の開発に取り組む予定である. 評価結果 評価データ(216単語) 単語認識率 [%] 健常者 79.1 聴覚障害者 3.82 実験用データ: 評価データ: ATR音素バランス単語(216単語) 学習データ: ATR音素バランス単語(1310単語,2620単語) 音響モデル: Monophone-HMM 5状態8混合 音声特徴量: MFCC + ΔMFCC (30次元) ボトルネック特徴量 (30次元)