深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉
研究背景 近年、人工知能の分野は深層学習(Deep Learning)によって飛躍的な進歩を遂げている 深層学習は画像認識、音声認識において精度が格段に向上したという事に興味を持った
研究目的 深層学習を用いた単語の音声認識システムの作成 深層学習モデルの作成方法を学び、いろいろなモデルを作ることで認識率の改善方法を探る
音声認識 深層学習 人間が声で話す言葉を文字に変換し、コンピュータに認識させる技術 一般的に、文字認識や顔認識と同じようにパターン認識技術の分野 深層学習 機会学習手法の1つであり、ニューラルネットにおける中間層の数を増やした多層構造である 入力されたデータからクラス分類や回帰を行う手法
開発環境 OS Ubuntu 15.04 Linux 4.2 GPU NVIDIA Quadro M5000 Python 2.7
研究の流れ 学習データの作成 学習モデルの作成 学習モデルの層の工夫
1.学習データの作成
作成手順 音声データを用意する 音声データの特徴量を抽出する 音声データの大きさをそろえる(時間)
1.音声データの用意 音声コーパスを使用 さまざまな研究機関において共通に利用可能な音声データ 東北大-松下 単語音声データベース ・内容 東北大-松下 単語音声データベース ・内容 1.単語音声 音韻バランス212語 60名(男女各30名)各1回発音
2.特徴量抽出 特徴抽出とは、入力データからパターンの認識に役に立つ情報を取り出す処理 メル周波数スペクトラム(MFCC) 最も基本的な音声認識の特徴量 ケプストラムの低次部分の情報を取り出したもの
Mfccの視覚化画像 数値 視覚化
大きさをそろえる 音声データは、1つ1つの時間が異なる 学習モデルに入力させる場合大きさがそろっている必要がある データ補間により単語の時間をそろえた
2.学習モデルの作成
chainer オープンソースのディープラーニングのツール 〈特徴〉 Pythonで動かせる(Python 2.7) 様々なニューラルネットワークに対し高い柔軟性がある ネットワーク構造を直感的に記述できる GPUをサポートし、複数のGPUを使った学習が可能
CNNで層を構成 畳み込みニューラルネットワーク(CNN) 構成 画像認識を中心に幅広く利用されているディープラーニング手法の1つ 誤差逆伝搬法による学習を取り入れた手法 構成 入力層 畳み込み層 プーリング層 全結合層 出力層
畳み込み層 プーリング層 入力に対して重みフィルタをかける フィルタをかけた出力データは特徴マップと呼ばれる 畳み込み層から出力された特徴マップを縮小する 着目する領域を設定してその領域の特徴マップの値から新たな特徴マップの値を求める
全結合層 出力層 入力は畳み込み層またはプーリング層の特徴マップ 重み付き結合を計算し活性化関数によりユニットの値を求める 尤度関数を用いて分類クラス を出力する softmax関数を使用する
学習までの流れ ❶30種類の単語の学習データを用意 1つの単語につき60個のデータを用意 同じ単語は同じフォルダに入っている 同じ単語は同じフォルダに入っている フォルダ名がラベルとなっている ❷8.5:1.5の割合で学習データと評価データを分ける(バッチサイズ300、10epoch) 使用言語(30種類) MUKASI,MONAKA,NA=KYOKU,NIHO=,NUKIUCI,NOHARA,BA=*OO,BIZYUCU,BUQKYOO,BE=TOO,BOOSOO,DA*EKI,DIIZERU,DE*UCI,GAIKOKU,GI=KOO,GUUSUU,RAKUDA,RISOO,RE=ZOKU,ROODOO,ZAIRYOO,ZUIHICU,ZE=TAI,ZOOZEI,HAKASE,HIRA*ANA,HUUTOO,HE=DOO,SAISYOKU
3.学習モデルの層の工夫
層の構成 ドロップアウトを使用 畳み込み層 プーリング層 全結合層 1 2 ② ③ 3 MNIST(手書き文字)を参考 ドロップアウトを使用 汎化能力を向上させる方法であり、中間層のユニットの値を一定の割合で結合を欠落させ過学習を抑制させるツール 畳み込み層 プーリング層 全結合層 1 2 ② ③ 3
一般的なものより認識率が25%低い結果となった 結果・評価 3つのモデルの精度はほぼ60%となった 一般的に使用されている音声認識は、精度が約80%である 一般的なものより認識率が25%低い結果となった 学習モデル 精度(%) ① 57.77 ② 56.30 ③ 58.88
考察 改善案 今回作成した音声認識システムは一般的なものに比べて精度が低いという結果となった 作成したニューラルネットワークが十分に特徴量を得ることができなかったのではないか 改善案 学習済みのCNNを用いて音声認識システムを組む(fine tuning) 精度向上の可能性
展望 時系列を用いたニューラルネットの使用(LSTM) 単語の認識精度向上 今回作成した学習モデルを用いて連続音声認識システムの構築 単語の認識精度向上 今回作成した学習モデルを用いて連続音声認識システムの構築 文の構成も含めて単語を判断
以上で発表を終わります