Deep learningによる読唇システム

Deep learningによる読唇システム
情報理工学部機械情報工学科 H412092　パリアスカ　ケンジ

研究背景近日、画像認識や音声認識の分野において注目を集めているDeep learningに興味を持った
⇒特徴:人手で行う必要があった特徴量を　自動で発見パラメータ更新入力層出力層中間(隠れ)層

研究目的特定の画像の分類だけではなく、ある一連の流れの画像分類によって読唇術への可能性を探る
⇒読唇術:相手の唇の動きなどを見て、言葉を読み取る技術

研究の流れ 1.学習データの素材作成 2.学習モデル(分類器)の作成 3.検証

1.学習データの素材作成

作成の流れ ①不特定多数の読唇を想定し、あらかじめ決めた特定の幾つかの単語を発声する唇周りのみをスマートフォンなどで撮影
①不特定多数の読唇を想定し、あらかじめ決めた特定の幾つか　　　　　の単語を発声する唇周りのみをスマートフォンなどで撮影 ②撮影した動画にOpenCVを用いて編集

編集の内容動画をモノクロに変換上下左右余分な部分のクリッピングそれぞれの動画が大体1秒だったのでばらつきが出ないよう、
①各単語10枚(1枚:40x40)の画像シーケンスを作成 ②その後、10枚を横に繋げた1枚(400x40)にし、データ用の画像を作成

単語の内容使う単語を最小限に抜粋、①、②、③とグループ分け ①安全(anzen)-万全(banzen)-簡単(kantan)
②変装(hensou)-変更(henkou)-観光(kankou) ③触る(sawaru)-変わる(kawaru)-終わる(owaru)

グループ分けの関係性使う単語を最小限に抜粋、①、②、③とグループ分け ①安全(anzen)-万全(banzen)-簡単(kantan)
②変装(hensou)-変更(henkou)-観光(kankou) ③触る(sawaru)-変わる(kawaru)-終わる(owaru)

グループ分けの関係性使う単語を最小限に抜粋、①、②、③とグループ分け
①安全(anzen)-万全(banzen)-簡単(kantan) (50枚)x3 ②変装(hensou)-変更(henkou)-観光(kankou) (50枚)x3 ③触る(sawaru)-変わる(kawaru)-終わる(owaru) (50枚)x3 ⇒それぞれ3クラスの分類器①、②、③とする

2.学習モデル(分類器)の作成

Labellio Alpaca社がリリース分類器作成におけるデータ整理が容易
学習結果をダウンロードし、Caffeなどの他のフレームワークで利用可能

Labellio 作成の流れ ①分類器の名前を指定し、データ画像(今回は各ラベル50枚)をアップロード
①分類器の名前を指定し、データ画像(今回は各ラベル50枚)をアップ　　　ロード ②データ画像のあるフォルダのディレクトリがラベルとなり学習開始分類器が完成 →学習データとは別のテスト用の画像を入力

3.検証

画像の入力 OpenCVを使用 ① ② ③ ③で出来上がった画像をテスト用画像として入力 ①webカメラの映像(グレースケール)を読み込み
②spaceキーを押してから10フレームを静止画として　　　保存 ③10枚の画像を1枚40x40に編集、横に繋げ学習データと同様のサイズのデータを出力 ③ ③で出来上がった画像をテスト用画像として入力

Labellio ① ② 分類器の例(学習データ50x3に対し、各単語20枚のテスト画像) ① : 分類器名
　① : 分類器名　② : Acc: →　分類器の精度それぞれの分類器の精度 ①Acc:59% ②Acc:41% ③Acc:40% ① ②

正解率の比較(3つの分類器でテスト) それぞれのテストを入力したときの正解数 ①anzen：4回 banzen:10回 kantan:15回
②hensou:7回 henkou:5回　　kankou:13回 ③sawaru:4回 kawaru:7回　　　owaru:10回

正解率の比較(混同行列) 出力入力出力出力入力入力 ① anzen banzen kantan 6 8 7 9 4 2 14 ③
sawaru kawaru owaru 9 7 4 8 5 11 出力入力 ② hensou henkou kankou 9 6 5 7 8 2 3 15 入力

正解率の比較(混同行列) ① anzen banzen kantan 6 8 7 9 4 2 14 ③ sawaru kawaru
owaru 9 7 4 8 5 11 ② hensou henkou kankou 9 6 5 7 8 2 3 15

結果 ①、②、③すべてのグループにおいて正解数 ⇒子音のみ<子音と母音
よって子音のみだとあまり変化がなく、それに加え母音が変わることでの唇の動きが大きく影響 ⇒視覚での読唇には限界がある

考察子音のみの変化では正解率の精度が低い子音と母音が変わる場合でも余り精度が高いわけではないので読唇にはまだむかない
　読唇にはまだむかない ⇒データ数、学習回数の増加で向上

展望画像認識に加え音声認識の実装 ⇒唇の動きのみではなく、声も認識による精度向上
Labellioから得ることができる、Caffe用の学習モデルをファインチューニングしCaffeで認識 ⇒ラベル数、データ数に合わせた学習回数などの変化による　　精度向上時系列を持つデータに対するDeep learningの内、RNNの利用

RNN(リカレントニューラルネットワーク)
言葉や音楽のように時系列で相関を持つデータにおいて、前に発生したデータを考慮 ⇒例:「名詞」の後には「助詞」が来ることが多い NNに、前に発生したデータを投入 ⇒時刻tの隠れ層の内容が、次の時刻t+1入力として扱われ、　t+1の隠れ層がt+2の・・・と続いてく学習　時間的に変更するデータに意味を見出す精度向上により、読唇が可能になるのではないか

Deep learningによる読唇システム

Similar presentations

Presentation on theme: "Deep learningによる読唇システム"— Presentation transcript:

Similar presentations

About project

Feedback

Войти

Auth with social network:

Deep learningによる 読唇システム

Similar presentations

Presentation on theme: "Deep learningによる 読唇システム"— Presentation transcript:

Similar presentations

About project

Feedback

Deep learningによる読唇システム

Presentation on theme: "Deep learningによる読唇システム"— Presentation transcript: