Presentation is loading. Please wait.

Presentation is loading. Please wait.

手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究

Similar presentations


Presentation on theme: "手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究"— Presentation transcript:

1 手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究
○計画研究 ウ 白 井 良 明 島 田 伸 敬 (立 命 館 大 学) 三 浦 純  (大 阪 大 学)

2 3年間の研究目的 手話者をテレビカメラで観測し、両手の動きと形状ならびに顔の表情や口の動きを解析する。
ロバストにするための光源や背景の設定方法、画像特徴の種類と抽出法、話者の個人差や環境変動への適応法などを研究。

3 3年間の研究 画像系列から、複雑背景での手の動きと形状を解析した。 手指情報から手話を認識する研究をした。
ロバストな認識を行うため、サンプルデータの自動合成を提案した。 顔の特徴を抽出し、表情を認識した。 ここでは、手指情報からの手話認識を述べる。

4 研究の背景 音声→手話の変換システム 手話→音声の変換システム 音声(またはテキスト)に対応する手話をCG表示(比較的早期に実現)
データグローブ等で手指形状データを取得 (手話者の負担が大きい) 手のシルエットと3次元も出るとの照合 (我々の研究だが時間がかかる) 被験者の負担の少ない、 設置の容易な手話認識システムへの要望

5 システムの概要 手話→日本語音声の変換システムの構築 手話 手話特徴 手話特徴 学習データベース 認識結果(日本語) 特徴抽出(画像処理)
HMMによる学習 固定カメラからの画像 手話特徴 学習データベース マッチング HMMによる認識 認識結果(日本語)

6 特徴抽出 手話画像から学習・認識で用いる特徴系列を抽出するための画像処理 カラーの背景差分による人物領域抽出 肌色領域抽出 肘・手首抽出
領域の追跡と隠蔽(手や顔の重なり)検出、分離

7 特徴量出(肌色の検出) 初期のフレームから肌色をサンプル サンプルから肌色を決定 肌色検出 肌色分布(HS色空間) 90%の等確率楕円

8 隠蔽時の処理 保存してある 隠蔽状態の肌色領域 顔テンプレート画像 ブロックごとに 相関を計算 相関の高い部分(顔領域)
相関の低い部分(手領域) 隠蔽前の顔領域と手領域の画像を保存。顔領域をブロックに分割し、ブロックと肌色領域と相関をとり、高ければ、顔領域とする。顔領域以外に手があるとし、相関で手領域を決める。 大体の手領域を取得できるため、  ・テンプレートマッチング精度の向上  ・手の形状が変化する際に利用

9 テンプレートマッチングによる分離 逆向きに探索 テンプレート テンプレート保存 保存
隠蔽前と隠蔽後のテンプレートを用いているが、このスライドは省略してください。 逆向きに探索

10 顔と手の隠蔽処理結果の例 例がムービーです

11 手話特徴量 位置に関する特徴量 形状に関する特徴量 突起数 手の面積 顔からの方向 顔からの距離 慣性主軸方向 円形度 動きの 速度・方向

12 両手の手話では左手から見た右手の相対座標を特徴として加える
位置・速度に関する特徴量 顔の近くで行う手話ほど、手の位置や細かい動きが重要 顔からの距離の対数表示 顔からの距離の対数表示の変化量: 顔からの方向 顔からの方向の変化量 顔からの距離 顔からの方向 手の速度のx,y方向成分 両手の手話では左右の手の相対位置が重要 小さい 合う 両手の手話では左手から見た右手の相対座標を特徴として加える

13 特徴量を変更した場合の結果 両手 片手 成功数 49/51 55/63 認識率 96.1% 87.3% 両手 片手 成功数 50/51
位置・速度に関する特徴量の変更前 位置・速度に関する特徴量の変更後 両手 片手 成功数 49/51 55/63 認識率 96.1% 87.3% 両手 片手 成功数 50/51 59/63 認識率 98.0% 93.7% 顔からの距離 顔からの方向 手の速度のx,y方向成分 顔からの距離の対数表示 顔からの距離の対数表示の変化量: 顔からの方向 顔からの方向の変化量 特徴量の変更後に正解となった単語 誤認識された単語 認識結果 回数 合う 小さい 1 2

14 HMMによる学習 HMMはLeft-to-Right 単語ごとに状態数を設定する必要がある 手の移動や手の形の変化時に対して状態が遷移する
状態数決定の例(状態数:5) 初期状態 最終状態 移動中 静止中 例がムービーです

15 速度による状態分割 速度の閾値によって運動区間(M)と静止区間(S)に分割 ノイズによる運動区間は静止区間とする
静止区間が短かければ、運動区間の境界とする 運動区間でも谷が深ければ分割 S M M M M

16 速度と方向による状態分割 運動区間内で、運動方向が大きく変化しすれば、分割 方向変化 動きの速度 動きの方向 (rad) フレーム 90
60 30 運動区間内で、運動方向が大きく変化しすれば、分割 4 動きの方向 方向変化 本当は「区間内で速度の極小値とその両隣の極大との差が小さく、動きの方向が大きく変化していれば、状態の区切りとする」ですが、 表記のように簡略に説明してください (rad) -8 -16 25 50 フレーム

17 顔からの方向を用いた状態分割 従来の状態分割法 顔の近くでゆっくり動く手話では、運動区間と静止区間を分割できない
速さ 従来の状態分割法 動きの速さ 動きの方向 速さが遅く、顔からの距離が小さい区間で、顔からの方向が大きく変化していれば区間の中央で分割する 顔からの距離 顔の近くでゆっくり動く手話では、運動区間と静止区間を分割できない これは省略して下さい 顔からの方向

18 手話単語の認識実験 一単語あたり3シーケンス 用いたデータ
状態分割において3シーケンスとも状態数の揃ったもの15単語(両手:5単語・片手:10単語) 組み合わせを変えながら、3シーケンスのうち2つを学習用、残りを認識用に用いた 2シーケンスで状態数が等しく、残りの1つは静止区間の数が異なるもの(両手:7単語・片手:1単語) 状態数の等しい2つを学習用(状態数の数を変えて2つのモデルを作成)、残りを認識用に用いた

19 認識結果 両手の手話では高い認識率が得られた 片手の手話での認識率は低かった テンプレートマッチングの失敗による影響
動きのよく似た手話が多い 学習データが少ない

20 認識結果(両手の手話) 両手の手話 認識データ 学習モデル

21 認識結果(片手の手話) 片手の手話 認識データ 学習モデル

22 手形状データから学習データの合成 手話単語を手の形によって分類 それぞれの手話単語から対応する手の形状データを取り出し、データベースを作成
データベースから同じ手形のものを選び、対応部分と入れ替え(位置・速度の特徴はそのまま使用) スカート ズボン ・・・ ヒ形 ク形 レ形 データベース これとつぎのでアニメーションになっています。

23 手形状データから学習データの合成 手話単語を手の形によって分類 それぞれの手話単語から対応する手の形状データを取り出し、データベースを作成
データベースから同じ手形のものを選び、対応部分と入れ替え(位置・速度の特徴はそのまま使用) スカート ズボン ・・・ ヒ形 ク形 レ形 データベース

24 手形による手話単語の分類 手形 分類単語 イ 構わないですか? ウ 夏物 ・ 秋物 ・ 冬物 オ 色 ク 青 ・ 黒 ・ ~がありますか?
レ(曲) 手形 分類単語 構わないですか? 夏物 ・ 秋物 ・ 冬物 青 ・ 黒 ・ ~がありますか? 背が高い ・ 背が低い かばん ・ 暑い ・ 夏物 ・ 靴 (右) ・ 皮(右) セーター ・ 暖かい ・ 胸 ・ 肩 ・ 流行 ・ 靴 赤 ・ cm ・ 頭 ・ 合う ・ ~はどこですか? 好き ・ 嫌い スカート ・ ズボン レ(曲) めがね ネクタイ 半円型 小さい ・ 大きい 「お金」の形 安い ・ 高い ・ 値上げ 長い・短い 長い ・ 短い 半円型 お金 長い・短い

25 手形データの合成を行った単語例 これは省いてもいいです。

26 HMMによる学習・認識実験 両手の手話17単語、片手の手話21単語 各単語、各手話者に3つの元データ 2人の手話者のデータ(計6種類)
 各単語、各手話者に3つの元データ 2人の手話者のデータ(計6種類) 5つを学習データ、1つを認識データとして組み合わせを変えて3回実験 新しく生成されたサンプルを加える場合 認識データは1つ。 学習データはテストデータを除くデータと、   それから合成されたデータ2つ

27 Experimental result expert beginner Both hands One hand
without synthesis with synthesis without synthesis No. of success 52/52 57/63 rate 100% 90.5% expert Both hands One hand without synthesis with synthesis without synthesis No. of success 52/52 50/52 57/63 58/63 rate 96.2% 96.2 % 90.5% 92.1% beginner

28 合成データの追加により成功した例 好き 誤認識 手形による合成データの追加により成功 誤認識 嫌い

29 Overlapping hand shape is unstable
Example of failure black head Overlapping hand shape is unstable

30 データ合成の今後の課題 今後の課題 様々な状況を想定した手形データを増やし、合成データをより多く用いて学習 手の動きを含めた学習データの生成

31 手話認識の今後の課題 多数のサンプルに対する学習と実験 文章の認識 コーパスの作成(sINDEX の発展)
手話の表現(形態素、音素、変形、両手…)


Download ppt "手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究"

Similar presentations


Ads by Google