Deep learningによる 読唇システム

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

Silverlight Producer コンテンツ作成 第一回 GKB48 セミナー 「学習型クラウド共有スペース GKB コモンズは何を目指すか」 2013.oct.30.
果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
パノラマ合成 富山商船高等専門学校 情報工学科4 年 富田 大志 長岡技術科学大学オープンハウス テーマ:ロボット実践コース③-映像信号処 理- 研修期間 2009 年 8 月 17 日~ 21 日.
簡単動画制作 使用するアプリケーション  iMovie  特別教室の Mac にインストールされています  使用方法の動画解説( apple ) 
高度情報演習 1A “ テーマC ” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 芝浦工業大学 工学部 情報工学科 青木 義満 2006/04/10.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
顔表情クラスタリングによる 映像コンテンツへのタギング
アナログとディジタル実習 パラパラ動画を作ろう!
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
ロボットビジョン(ロボットの視覚能力)のための デジタル画像処理
3DCGコンテンツの基礎 第5回授業:最終課題制作
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
雑音重み推定と音声 GMMを用いた雑音除去
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
OpenCV を使った画像処理コンポーネントの作成例 田窪 朋仁(大阪大学)
クラシック音楽普及プロジェクト KG:mao B3 wakutin.
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第三回 演習課題 画像中からの物体抽出処理(色情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/08.
アナログとディジタル実習 パラパラ動画を作ろう!
ICT機器の種類と特性の理解 愛媛県総合教育センター 情報教育室.
精密工学科プログラミング基礎Ⅱ 第3回資料 今回の授業で習得してほしいこと: 2次元配列の使い方 (前回の1次元配列の復習もします.)
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
概要 Boxed Economy Simulation Platform(BESP)とその基本構造 BESPの設計・実装におけるポイント!
高度情報演習1C 実践 画像処理プログラミング
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
ICT機器の種類と特性の理解 愛媛県総合教育センター 情報教育室.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ビデオデータベース.
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
中京大学 情報理工学部 機械情報学科 H 野口裕司
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
魚釣り寸法計測支援 アンドロイドアプリ の構築
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
~研修テーマ~ 学校に整備されている ICT機器を知ろう 2019/2/ /2/
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
交番における手話から日本語への 変換システムの検討
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
パノラマ合成 電子制御工学科 4年 大久保卓也.
中京大学 電気電子工学科 白井研究室 T 久保田直樹
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
個人の動画配信のためのWebサーバ構築 06A1058 古江 和栄.
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
動画配信捕捉のためのWEBサーバ構築 06A1058 古江 和栄.
2007年度 長岡オープンハウス クロマキー合成 小山高専 電子制御工学科4年                       針谷 尚裕.
線形判別分析 Linear Discriminant Analysis LDA
環境教育関係の素材作り 島田 篤.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ブースティングとキーワードフィルタリング によるシステム要求検出
設計情報の再利用を目的とした UML図の自動推薦ツール
シニアPCマザーズ 平成29年度第5回会員相互勉強会 2017年11月24日(金) 13:30~ 於:雁宿公民館 発表者:吉田恭子
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
2018年度ビジョン研究室 ゼミナール・卒研紹介 指導教員:張善俊 6月20日(水) 6-209.
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
視覚補助のための物体検出 白井研究室 T 若松大仁
イラストで学ぶ 音声認識 荒木雅弘 著 講談社 2015.
人物再識別システムの 試作と評価 飯塚 敦志.
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

Deep learningによる 読唇システム 情報理工学部 機械情報工学科 H412092 パリアスカ ケンジ

研究背景 近日、画像認識や音声認識の分野において注目を集めているDeep learningに興味を持った ⇒特徴:人手で行う必要があった特徴量を  自動で発見 パラメータ更新 入力層 出力層 中間(隠れ)層

研究目的 特定の画像の分類だけではなく、ある一連の流れの画像分類に よって読唇術への可能性を探る ⇒読唇術:相手の唇の動きなどを見て、言葉を読み取る技術

研究の流れ 1.学習データの素材作成 2.学習モデル(分類器)の作成 3.検証

1.学習データの素材作成

作成の流れ ①不特定多数の読唇を想定し、あらかじめ決めた特定の幾つか の単語を発声する唇周りのみをスマートフォンなどで撮影 ①不特定多数の読唇を想定し、あらかじめ決めた特定の幾つか      の単語を発声する唇周りのみをスマートフォンなどで撮影 ②撮影した動画にOpenCVを用いて編集

編集の内容 動画をモノクロに変換 上下左右余分な部分のクリッピング それぞれの動画が大体1秒だったのでばらつきが出ないよう、 ①各単語10枚(1枚:40x40)の画像シーケンスを作成 ②その後、10枚を横に繋げた1枚(400x40)にし、データ用の画像を作成

単語の内容 使う単語を最小限に抜粋、①、②、③とグループ分け ①安全(anzen)-万全(banzen)-簡単(kantan) ②変装(hensou)-変更(henkou)-観光(kankou) ③触る(sawaru)-変わる(kawaru)-終わる(owaru)

グループ分けの関係性 使う単語を最小限に抜粋、①、②、③とグループ分け ①安全(anzen)-万全(banzen)-簡単(kantan) ②変装(hensou)-変更(henkou)-観光(kankou) ③触る(sawaru)-変わる(kawaru)-終わる(owaru)

グループ分けの関係性 使う単語を最小限に抜粋、①、②、③とグループ分け ①安全(anzen)-万全(banzen)-簡単(kantan) (50枚)x3 ②変装(hensou)-変更(henkou)-観光(kankou) (50枚)x3 ③触る(sawaru)-変わる(kawaru)-終わる(owaru) (50枚)x3 ⇒それぞれ3クラスの分類器①、②、③とする

2.学習モデル(分類器)の作成

Labellio Alpaca社がリリース 分類器作成におけるデータ整理が容易 学習結果をダウンロードし、Caffeなどの他のフレームワークで利用可能

Labellio 作成の流れ ①分類器の名前を指定し、データ画像(今回は各ラベル50枚)をアップ ロード ①分類器の名前を指定し、データ画像(今回は各ラベル50枚)をアップ    ロード ②データ画像のあるフォルダのディレクトリがラベルとなり学習開始 分類器が完成 →学習データとは別のテスト用の画像を入力

3.検証

画像の入力 OpenCVを使用 ① ② ③ ③で出来上がった画像をテスト用画像として入力 ①webカメラの映像(グレースケール)を読み込み ②spaceキーを押してから10フレームを静止画として   保存 ③10枚の画像を1枚40x40に編集、横に繋げ学習データと同様のサイズのデータを出力 ③ ③で出来上がった画像をテスト用画像として入力

Labellio ① ② 分類器の例(学習データ50x3に対し、各単語20枚のテスト画像) ① : 分類器名  ① : 分類器名  ② : Acc: → 分類器の精度 それぞれの分類器の精度 ①Acc:59% ②Acc:41% ③Acc:40% ① ②

正解率の比較(3つの分類器でテスト) それぞれのテストを入力したときの正解数 ①anzen:4回 banzen:10回 kantan:15回 ②hensou:7回 henkou:5回   kankou:13回 ③sawaru:4回 kawaru:7回   owaru:10回

正解率の比較(混同行列) 出力 入力 出力 出力 入力 入力 ① anzen banzen kantan 6 8 7 9 4 2 14 ③ sawaru kawaru owaru 9 7 4 8 5 11 出力 入力 ② hensou henkou kankou 9 6 5 7 8 2 3 15 入力

正解率の比較(混同行列) ① anzen banzen kantan 6 8 7 9 4 2 14 ③ sawaru kawaru owaru 9 7 4 8 5 11 ② hensou henkou kankou 9 6 5 7 8 2 3 15

結果 ①、②、③すべてのグループにおいて正解数 ⇒子音のみ<子音と母音 よって子音のみだとあまり変化がなく、それに加え母音が変わること での唇の動きが大きく影響 ⇒視覚での読唇には限界がある

考察 子音のみの変化では正解率の精度が低い 子音と母音が変わる場合でも余り精度が高いわけではないので 読唇にはまだむかない  読唇にはまだむかない ⇒データ数、学習回数の増加で向上

展望 画像認識に加え音声認識の実装 ⇒唇の動きのみではなく、声も認識による精度向上 Labellioから得ることができる、Caffe用の学習モデルをファインチュー ニングしCaffeで認識 ⇒ラベル数、データ数に合わせた学習回数などの変化による   精度向上 時系列を持つデータに対するDeep learningの内、RNNの利用

RNN(リカレントニューラルネットワーク) 言葉や音楽のように時系列で相関を持つデータにおいて、前に発生した データを考慮 ⇒例:「名詞」の後には「助詞」が来ることが多い NNに、前に発生したデータを投入 ⇒時刻tの隠れ層の内容が、次の時刻t+1入力として扱われ、  t+1の隠れ層がt+2の・・・と続いてく学習  時間的に変更するデータに意味を見出す 精度向上により、読唇が可能になるのではないか