手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究

Slides:



Advertisements
Similar presentations
ステレオ画像を用いた距離測定 小山高専 坪田 真延. Ⅰ. 概要  平行にずらした 2 つのステレオ画像を用いて 対象(人)物までの距離認識を行う。 図 1.1. 左から見た対象 ( 人 ) 物図 1.2. 右から見た対象 ( 人 ) 物.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
顔表情クラスタリングによる 映像コンテンツへのタギング
コンピュータビジョン特論 OpenCVについて
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
初年次セミナー 第14回 2次元グラフィックス(2).
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
リアルタイム単語認識技術を利用した カメラベース情報取得システム
Pose Tracking from Natural Features on Mobile Phones
画像処理工学 2012年2月2日 担当教員 北川 輝彦.
Deep learningによる 読唇システム
Intelligent Computing Systems Laboratory
雑音重み推定と音声 GMMを用いた雑音除去
感情推測システム構築のための顔表情認識の実践
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
OpenCV を使った画像処理コンポーネントの作成例 田窪 朋仁(大阪大学)
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
Yahoo! インターンシップ プレゼンテーション選考 2015/7/3(金) 10:00~ 石川智己
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第三回 演習課題 画像中からの物体抽出処理(色情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/08.
2007年度 長岡技術科学大学オープンハウス 半透明人間
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
小山工業高等専門学校 電子制御工学科 4年 小山田 晃
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ビデオデータベース.
視点移動カメラにおけるカメラキャリブレーション
画像処理工学 2013年1月23日 担当教員 北川 輝彦.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
交番における手話から日本語への 変換システムの検討
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
2007年度 長岡オープンハウス クロマキー合成 小山高専 電子制御工学科4年                       針谷 尚裕.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ブースティングとキーワードフィルタリング によるシステム要求検出
HMM音声合成における 変分ベイズ法に基づく線形回帰
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
8方向補間ブロックマッチングの実装 福永研究室 数理科学コース 学部4年 能城 真幸.
ここにタイトルを入力 ここにサブタイトルを入力 草原 (初級)
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
大阪工業大学 情報科学部 情報システム学科 学生番号 B02-014 伊藤 誠
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
人物再識別システムの 試作と評価 飯塚 敦志.
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究 ○計画研究 ウ 白 井 良 明 島 田 伸 敬 (立 命 館 大 学) 三 浦 純  (大 阪 大 学)

3年間の研究目的 手話者をテレビカメラで観測し、両手の動きと形状ならびに顔の表情や口の動きを解析する。 ロバストにするための光源や背景の設定方法、画像特徴の種類と抽出法、話者の個人差や環境変動への適応法などを研究。

3年間の研究 画像系列から、複雑背景での手の動きと形状を解析した。 手指情報から手話を認識する研究をした。 ロバストな認識を行うため、サンプルデータの自動合成を提案した。 顔の特徴を抽出し、表情を認識した。 ここでは、手指情報からの手話認識を述べる。

研究の背景 音声→手話の変換システム 手話→音声の変換システム 音声(またはテキスト)に対応する手話をCG表示(比較的早期に実現) データグローブ等で手指形状データを取得 (手話者の負担が大きい) 手のシルエットと3次元も出るとの照合 (我々の研究だが時間がかかる) 被験者の負担の少ない、 設置の容易な手話認識システムへの要望

システムの概要 手話→日本語音声の変換システムの構築 手話 手話特徴 手話特徴 学習データベース 認識結果(日本語) 特徴抽出(画像処理) HMMによる学習 固定カメラからの画像 手話特徴 学習データベース マッチング HMMによる認識 認識結果(日本語)

特徴抽出 手話画像から学習・認識で用いる特徴系列を抽出するための画像処理 カラーの背景差分による人物領域抽出 肌色領域抽出 肘・手首抽出 領域の追跡と隠蔽(手や顔の重なり)検出、分離

特徴量出(肌色の検出) 初期のフレームから肌色をサンプル サンプルから肌色を決定 肌色検出 肌色分布(HS色空間) 90%の等確率楕円

隠蔽時の処理 保存してある 隠蔽状態の肌色領域 顔テンプレート画像 ブロックごとに 相関を計算 相関の高い部分(顔領域) 相関の低い部分(手領域) 隠蔽前の顔領域と手領域の画像を保存。顔領域をブロックに分割し、ブロックと肌色領域と相関をとり、高ければ、顔領域とする。顔領域以外に手があるとし、相関で手領域を決める。 大体の手領域を取得できるため、  ・テンプレートマッチング精度の向上  ・手の形状が変化する際に利用

テンプレートマッチングによる分離 逆向きに探索 テンプレート テンプレート保存 保存 隠蔽前と隠蔽後のテンプレートを用いているが、このスライドは省略してください。 逆向きに探索

顔と手の隠蔽処理結果の例 例がムービーです

手話特徴量 位置に関する特徴量 形状に関する特徴量 突起数 手の面積 顔からの方向 顔からの距離 慣性主軸方向 円形度 動きの 速度・方向

両手の手話では左手から見た右手の相対座標を特徴として加える 位置・速度に関する特徴量 顔の近くで行う手話ほど、手の位置や細かい動きが重要 黒 顔からの距離の対数表示 顔からの距離の対数表示の変化量: 顔からの方向 顔からの方向の変化量 顔からの距離 顔からの方向 手の速度のx,y方向成分 両手の手話では左右の手の相対位置が重要 小さい 合う 両手の手話では左手から見た右手の相対座標を特徴として加える

特徴量を変更した場合の結果 両手 片手 成功数 49/51 55/63 認識率 96.1% 87.3% 両手 片手 成功数 50/51 位置・速度に関する特徴量の変更前 位置・速度に関する特徴量の変更後 両手 片手 成功数 49/51 55/63 認識率 96.1% 87.3% 両手 片手 成功数 50/51 59/63 認識率 98.0% 93.7% 顔からの距離 顔からの方向 手の速度のx,y方向成分 顔からの距離の対数表示 顔からの距離の対数表示の変化量: 顔からの方向 顔からの方向の変化量 特徴量の変更後に正解となった単語 誤認識された単語 認識結果 回数 合う 小さい 1 赤 絹 2 青 頭 黒

HMMによる学習 HMMはLeft-to-Right 単語ごとに状態数を設定する必要がある 手の移動や手の形の変化時に対して状態が遷移する 状態数決定の例(状態数:5) 初期状態 最終状態 移動中 静止中 例がムービーです

速度による状態分割 速度の閾値によって運動区間(M)と静止区間(S)に分割 ノイズによる運動区間は静止区間とする 静止区間が短かければ、運動区間の境界とする 運動区間でも谷が深ければ分割 ③ ① ① ② S M M M M

速度と方向による状態分割 運動区間内で、運動方向が大きく変化しすれば、分割 方向変化 動きの速度 動きの方向 (rad) フレーム 90 60 30 運動区間内で、運動方向が大きく変化しすれば、分割 4 動きの方向 方向変化 本当は「区間内で速度の極小値とその両隣の極大との差が小さく、動きの方向が大きく変化していれば、状態の区切りとする」ですが、 表記のように簡略に説明してください (rad) -8 -16 25 50 フレーム

顔からの方向を用いた状態分割 従来の状態分割法 顔の近くでゆっくり動く手話では、運動区間と静止区間を分割できない 速さ 従来の状態分割法 黒 動きの速さ 動きの方向 速さが遅く、顔からの距離が小さい区間で、顔からの方向が大きく変化していれば区間の中央で分割する 顔からの距離 顔の近くでゆっくり動く手話では、運動区間と静止区間を分割できない これは省略して下さい 顔からの方向

手話単語の認識実験 一単語あたり3シーケンス 用いたデータ 状態分割において3シーケンスとも状態数の揃ったもの15単語(両手:5単語・片手:10単語) 組み合わせを変えながら、3シーケンスのうち2つを学習用、残りを認識用に用いた 2シーケンスで状態数が等しく、残りの1つは静止区間の数が異なるもの(両手:7単語・片手:1単語) 状態数の等しい2つを学習用(状態数の数を変えて2つのモデルを作成)、残りを認識用に用いた

認識結果 両手の手話では高い認識率が得られた 片手の手話での認識率は低かった テンプレートマッチングの失敗による影響 動きのよく似た手話が多い 学習データが少ない

認識結果(両手の手話) 両手の手話 認識データ 学習モデル

認識結果(片手の手話) 片手の手話 認識データ 学習モデル

手形状データから学習データの合成 手話単語を手の形によって分類 それぞれの手話単語から対応する手の形状データを取り出し、データベースを作成 データベースから同じ手形のものを選び、対応部分と入れ替え(位置・速度の特徴はそのまま使用) 赤 赤 黒 頭 スカート ズボン ・・・ ヒ形 ク形 レ形 レ ヒ ク データベース これとつぎのでアニメーションになっています。 ヒ ヒ

手形状データから学習データの合成 手話単語を手の形によって分類 それぞれの手話単語から対応する手の形状データを取り出し、データベースを作成 データベースから同じ手形のものを選び、対応部分と入れ替え(位置・速度の特徴はそのまま使用) 赤 赤 黒 頭 スカート ズボン ・・・ ヒ形 ク形 レ形 レ ヒ ク データベース ヒ ヒ

手形による手話単語の分類 手形 分類単語 イ 構わないですか? ウ 夏物 ・ 秋物 ・ 冬物 オ 色 ク 青 ・ 黒 ・ ~がありますか? コ イ ウ オ ク サ テ ヌ ヒ モ レ ロ レ(曲) 手形 分類単語 イ 構わないですか? ウ 夏物 ・ 秋物 ・ 冬物 オ 色 ク 青 ・ 黒 ・ ~がありますか? コ 背が高い ・ 背が低い サ かばん ・ 暑い ・ 夏物 ・ 靴 (右) ・ 皮(右) テ セーター ・ 暖かい ・ 胸 ・ 肩 ・ 流行 ・ 靴 ヌ 絹 ヒ 赤 ・ cm ・ 頭 ・ 合う ・ ~はどこですか? モ 好き ・ 嫌い レ スカート ・ ズボン レ(曲) めがね ロ ネクタイ 半円型 小さい ・ 大きい 「お金」の形 安い ・ 高い ・ 値上げ 長い・短い 長い ・ 短い 半円型 お金 長い・短い

手形データの合成を行った単語例 これは省いてもいいです。

HMMによる学習・認識実験 両手の手話17単語、片手の手話21単語 各単語、各手話者に3つの元データ 2人の手話者のデータ(計6種類)  各単語、各手話者に3つの元データ 2人の手話者のデータ(計6種類) 5つを学習データ、1つを認識データとして組み合わせを変えて3回実験 新しく生成されたサンプルを加える場合 認識データは1つ。 学習データはテストデータを除くデータと、   それから合成されたデータ2つ

Experimental result expert beginner Both hands One hand without synthesis with synthesis without synthesis No. of success 52/52 57/63 rate 100% 90.5% expert Both hands One hand without synthesis with synthesis without synthesis No. of success 52/52 50/52 57/63 58/63 rate 96.2% 96.2 % 90.5% 92.1% beginner

合成データの追加により成功した例 好き 誤認識 赤 手形による合成データの追加により成功 赤 誤認識 嫌い

Overlapping hand shape is unstable Example of failure black head Overlapping hand shape is unstable

データ合成の今後の課題 今後の課題 様々な状況を想定した手形データを増やし、合成データをより多く用いて学習 手の動きを含めた学習データの生成

手話認識の今後の課題 多数のサンプルに対する学習と実験 文章の認識 コーパスの作成(sINDEX の発展) 手話の表現(形態素、音素、変形、両手…)