1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討 ☆柿原康博,滝口哲也,有木康雄(神戸大),三谷信之,大森清博(福祉のまちづくり研究所) 聴覚障害者とは ✓聴覚障害者とは聞こえの不自由な人を指し,聴覚障害の原因や種類,聞こえの程度は人によって異なる. 聴覚障害者の発話 ✓ 聴覚障害になった時期が音声言語の獲得時期の前であるか後であるかによって発話の程度は異なる.また,発話訓練の有無にも左右される. ✓ 発話の訓練を受けていても,先天聾である場合や音声言語の習得前に高度・重度難聴となった場合,発話のスタイルは独特であり,健常者とのコミュニケーションが難しい場合がある. 中途失聴者 音声言語を獲得した後に聞こえなくなった人.全く聞こえない中途失聴者でも多くは話すことができる. 難聴者 聞こえにくいが聴力が残っている人.補聴器を使って会話できる人から,僅かな音しか入らない人まで様々. 聾唖者 音声言語を習得する前に失聴した人.手話を第一言語としている人が多い. 【健常者】 /a k e g a t a/ a e Frequency [Hz] 2000 4000 6000 8000 Time [s] 【聴覚障害者】 e? a? コミュニケーション手段 ✓同じ聴覚障害者でも,失聴年齢,残存聴力,言語力,読話力,発語力,教育歴,家庭環境など,人によってコミュニケーション手段は異なる.(補聴器,人工内耳など) ✓手話・指文字,読話・読唇,筆談なども多く用いられる. 聴覚障害者のためのコミュニケーション支援技術の開発の第一歩として,(発話に不自由のある)聴覚障害者発話の音声認識の検討を行う. 畳み込み層 (C) 近傍のユニットとしかつながらない (誤差の波及防止) 同じ重みを使いまわす (位置ずれに対応) プーリング層 (S) 複数の入力を1ユニットにまとめる (平滑化) 2次元特徴 フィルタ 特徴マップ CNNとは CNNはLeCunら によって提案された多層ニューラルネットワークの一種であり,手書き文字認識の分野で大きな成果をあげてきた. 「畳み込み + プーリング」 を交互に繰り返すことで,多様な変形に対する不変性を獲得する. [1] Y. LeCun et al., “Convolutional networks for images, speech, and time-series” in The Handbook of Brain theory and Neural Networks, 3361, 1995. 低解像度化 平均値 最大値 ..etc. [1] CBNを用いた特徴量抽出 ボトルネックの構造を持つCNN (CBN: Convolutive Bottleneck Network) を用いることで,発話スタイルの変動を吸収しつつ,低次元な特徴 (音素ラベル) へと非線形に変換. このとき,獲得した情報をボトルネック層に集約させ,ボトルネック層のユニットの線形和で表現されるボトルネック特徴量を抽出する. 問題 - 入力: 音声信号から取り出したメルマップ (時間-周波数) - 出力: 音素ラベル (対応するユニットだけが値1,他のユニットが値0) 教師あり学習 対象: 結合重み,バイアス 方法: バックプロパゲーション (勾配降下法により2乗誤差を最小化) ・・・・・ 入力層 Convolution & Pooling Fully connected 音声信号 Mel spectrum 1 出力層 S1 C2 S2 C1 / i / m1 m2 m3 39×13 36×12⊗13 12×4⊗13 9×3⊗27 3×1⊗27 108 N 54 ボトルネック層 教師データ 評価実験 ✓聴覚障害者1名を対象に,孤立単語認識実験を行った. ✓事前の実験として,健常者男性4名(各2620単語)の発話を学習した健常者の音響モデルを用いて,聴覚障害者発話の認識を行った. まとめ・今後の課題 ✓聴覚障害者の発話スタイルは健常者と異なり,健常者の音響モデルでは認識精度が大きく低下(79.1%→3.8%)する. ✓ボトルネックの構成を持つ,CNN(CBN)を用いた特徴量抽出を行った場合,認識性能に改善が見られた. ✓聴覚障害者の発話は,教育環境や訓練の有無に左右される.今後は,多くの聴覚障害者がコミュニケーション手段として利用する手話・指文字,読唇,表情変化を捉える画像特徴量を取り入れて,聴覚障害者のためのコミュニケーション支援技術の開発に取り組む予定である. 評価結果 評価データ(216単語) 単語認識率 [%] 健常者 79.1 聴覚障害者 3.82 実験用データ: 評価データ: ATR音素バランス単語(216単語) 学習データ: ATR音素バランス単語(1310単語,2620単語) 音響モデル: Monophone-HMM 5状態8混合 音声特徴量: MFCC + ΔMFCC (30次元) ボトルネック特徴量 (30次元)