HOG特徴に基づく 単眼画像からの人体3次元姿勢推定 神戸大学 工学研究科 情報知能学専攻 大西 克則
研究背景 人間を見るビジョン技術のニーズが高まっている 人体の姿勢推定 仮想世界の構築 人体全身の姿勢推定 ハードウェアの進歩:2D→3D 画像監視 ロボットとのインタラクション ゲーム,映画等のエンターテインメント 仮想世界の構築 人体全身の姿勢推定 ハードウェアの進歩:2D→3D
研究目的 3次元姿勢推定方法 モーションキャプチャ 身体の動きのデータを正確に収集できる 問題点 体にマーカを装着する 複数個のカメラに囲まれた環境での撮影 単眼カメラからの姿勢推定
従来手法 画像の人体特徴抽出方法 シルエット画像を用いる 体の変形等により隠れ部分が発生する(自己オクルージョン)に弱い 体の輪郭だけではなく 内部のエッジ情報も考慮した特徴量が必要
HOG特徴 輝度勾配を計算 入力画像 輝度勾配画像 HOG (Histograms of Oriented Gradients) 従来,人や物体の検出に用いられてきた特徴量 内部のエッジ情報も考慮 N.Dalal and B.Triggs,” Histograms of Oriented Gradients for Human Detection”, CVPR 2005 輝度勾配を計算 入力画像 輝度勾配画像
HOG特徴 勾配方向を 9方向に量子化 照明や影の影響を受けにくい 局所的な幾何学変化に頑健
PCAによる背景領域の次元削減 PCA 背景領域 人物領域 HOGは画像全体の特徴量であり,背景領域にも不必要な特徴が多く存在する 人物領域の重要な領域のみ特徴量を使用したい PCA HOGのブロック毎にPCAを行う 背景領域 人物領域 高 低 特徴次元 あまり 削減されない 大きく次元削減
人体3Dモデル 人体は多関節物体であり,様々な形に変形する 各関節間の体節部分は剛体とみなせる 関節角を3次元人体モデル の特徴量とする →関節角を与えることで人体が表現可能 関節角を3次元人体モデル の特徴量とする 画像から関節角を推定することで 姿勢推定を行う
姿勢推定方法 回帰分析に基づく姿勢推定 3Dモデル特徴: 画像特徴: 変換行列Aは最小二乗推定により決定する 学習データをn個用意
実験条件 一般的な家庭用カメラを用いて人体を撮影 人体を水平方向に回転させ,8方向から撮影する 直立,歩く,走る,手を上げる,手を広げる,の5姿勢 学習データ:240枚 テストデータ:123枚 従来手法であるシルエットの輪郭から抽出される Shape Contexts 特徴との比較 評価は推定誤差で行う
実験結果 走る 歩く 手を広げる 手を上げる
評価 従来手法と比較すると,推定誤差が約5.35度減少
まとめと今後の予定 まとめ 今後の予定 シルエット画像ではなく,HOG特徴を用いた3次元姿勢推定を行った ブロック毎にPCAをすることで,背景領域の特徴次元を削減した 従来手法と比較すると,推定誤差が約5.35度減少 今後の予定 姿勢推定の方法を改良する
ご静聴ありがとうございました
Shape Contexts シルエット画像から輪郭を離散点で表す 各点に対して逆log-polarマッピングを行い,参照している点から近い点を細かく,遠い点を粗く参照する 1点に対して60次元ヒストグラム特徴
特徴抽出 … … … … … 画像数×特徴点数 次元 60次元 Shape Contexts 特徴量を抽出 画像数×特徴点数 次元 … … … … 60次元 … Shape Contexts 特徴量を抽出 K-meansによるベクトル量子化 Shape Contexts 特徴空間 (60次元)
各パラメータの値 画像サイズ:150×200画素 HOG特徴 人体3次元モデル特徴次元:24 セルサイズ:10×10画素 ブロックサイズ:3×3セル 特徴次元:18954 PCA(累積寄与率90%)後の次元:4867 人体3次元モデル特徴次元:24
実験データの詳細 姿勢 画像枚数 学習 データ テストデータ (a) (b) (c) 直立 16 8 手を上げる 40 手を広げる 24 手を上げる 40 手を広げる 24 歩く 80 11 走る (a) 学習データと同じ条件で撮影された画像 (b) ノイズが多い画像 (c) http://www.nada.kth.se/~hedvig/data.html のデータ
失敗例
処理時間 実験環境 Windows XP Intel(R) Core(TM)2 CPU 6600 2.4GHz, 2.0GB RAM 学習(sec) 推定(sec) Shape Contexts (従来手法) 20.53 0.07 HOG 27.59 0.33 HOG (PCA) 290.03 1.34
評価