Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定 神戸大学 大西克則,滝口哲也,有木康雄
研究背景 人間を見るビジョン技術のニーズが高まっている 人体の姿勢推定 仮想世界の構築 人体全身の姿勢推定 画像監視 ロボットとのインタラクション ゲーム,映画等のエンターテインメント 仮想世界の構築 人体全身の姿勢推定
研究目的 3次元姿勢推定方法 モーションキャプチャ 身体の動きのデータを正確に収集できる 問題点 体にマーカを装着する 複数個のカメラに囲まれた環境での撮影 画像情報に基づく姿勢推定 CMU Graphics Lab Motion Capture Database (http://mocap.cs.cmu.edu/)
人体の姿勢推定アプローチ Bottom-up アプローチ Top-down アプローチ 2D画像 3Dボーンモデル 3D人体モデル 事前知識 学習 2D画像 3Dボーンモデル 3D人体モデル モデルを変形 フィッティング 2D入力画像
姿勢推定方法 Bottom-up アプローチ Top-down アプローチ 双方向からアプローチすることにより 精度を向上させる メリット 高速 メリット いかなる姿勢でも推定可能 デメリット 学習データに強く依存 学習データと極端に異なる入力には誤差が大きくなる デメリット 初期値の決定が困難 計算量が膨大 双方向からアプローチすることにより 精度を向上させる
姿勢推定方法 Bottom-up で大まかな姿勢の推定 Top-down で修正を行い,精度を向上させる x 3D姿勢を変形 x 尤度評価 入力画像 z 出力(3D人体姿勢) x
Bottom-up アプローチ 重回帰分析による推定 2D画像→3D姿勢 3D人体モデル特徴: 画像特徴: 変換行列Rは最小二乗推定により決定する 学習データをn個用意
Top-down アプローチ Particle Filter (Condensation法) [1998:Isard,Blake] 多数の粒子によって確率分布を離散的に近似 粒子の状態空間と尤度評価 状態量:3D人体モデルの特徴(56次元ベクトル)に PCAをかけたもの (14次元) 最も尤度の高い粒子を姿勢として決定する
Top-down アプローチ 粒子の尤度評価 各粒子の尤度:全粒子からCGで2D画像を生成 Bottom-upで初期状態を推定し, その付近に粒子を生成 繰り返し推定を行うことで 状態を収束させる Bottom-up による初期値 前状態の 重み付き平均 真値
画像特徴 体の輪郭だけではなく 内部のエッジ情報も考慮した特徴量が必要 画像の人体特徴抽出方法:シルエット画像 体の変形等により隠れ部分が発生する(自己オクルージョン)に弱い 体の輪郭だけではなく 内部のエッジ情報も考慮した特徴量が必要 HOG (Histograms of Oriented Gradients) 従来,人や物体の検出に用いられてきた特徴量 物体の大まかな形状を表すことが可能 HOGのブロック特徴に対しBoFしたものを用いる N.Dalal and B.Triggs,CVPR 2005
人体3Dモデル →関節角を与えることで人体が表現可能 画像からマーカを装着せず 関節角を推定することで姿勢推定を行う 人体は多関節物体であり,様々な形に変形する 各関節間の体節部分は剛体とみなせる →関節角を与えることで人体が表現可能 人体の関節角度を特徴ベクトルとして用いる 画像からマーカを装着せず 関節角を推定することで姿勢推定を行う CMU Graphics Lab Motion Capture Database (http://mocap.cs.cmu.edu/)
実験条件 CMU Graphics Lab Motion Capture Database で 公開されているモーションキャプチャデータベースを使用 モーションキャプチャデータからCG画像を生成し,学習に用いる 歩く,走る,キック の3種類の姿勢を8方向から見た画像を使用 学習データ:1265枚 を 8 方向→10120枚 テストデータ:「歩く」,「走る」の2種類の姿勢.合計140枚 パーティクルの数は800,BoFによる画像特徴次元数は500
評価実験 Root mean square(RMS) error で評価
実験結果 入力画像 Bottom-up のみ Bottom-up → Top-down
まとめと今後の予定 まとめ 今後の予定 Bottom-up, Top-down を組み合わせることで精度を向上させた 特徴量にはHOGのBoF 今後の予定 Bottom-up の方法の改良 Top-down の高速化 CGの生成に計算コストがかかる
ご静聴ありがとうございました
マーカレスモーションキャプチャシステム 単眼画像から得られる情報のみで姿勢推定を行う 従来手法 Bottom-up アプローチ 特殊な環境・装置が不要 応用範囲の拡大 従来手法 Bottom-up アプローチ Top-down アプローチ 学習ベースの推定手法 モデルフィッティング 人体モデル
HOG特徴 輝度勾配を計算 入力画像 輝度勾配画像 HOG (Histograms of Oriented Gradients) 従来,人や物体の検出に用いられてきた特徴量 物体の大まかな形状を表すことが可能 内部のエッジ情報も考慮 N.Dalal and B.Triggs,CVPR 2005 輝度勾配を計算 入力画像 輝度勾配画像
HOG特徴 勾配方向を 9方向に量子化 照明や影の影響を受けにくい 局所的な幾何学変化に頑健
HOGにBoF … … … … … HOGブロック特徴(81次元) +ブロックのポジション(2次元) =83次元 画像数×特徴点数 次元 画像数×特徴点数 次元 … … … … … HOGブロック特徴(81次元) +ブロックのポジション(2次元) =83次元 K-meansによるベクトル量子化 HOG特徴空間 (83次元)
各パラメータの値 画像サイズ:70×130画素 HOG特徴 人体3次元モデル特徴次元:56 粒子数:800 セルサイズ:9×9画素 ブロックサイズ:3×3セル 特徴次元:8748 BoFで500次元に量子化 人体3次元モデル特徴次元:56 PCAをすることで14次元 粒子数:800