時間連続性を考慮した動画からの人物の姿勢推定

時間連続性を考慮した動画からの人物の姿勢推定
東京大学藤枝慎・山崎俊彦・相澤清晴

はじめにメインテーマ動画の時間連続性を考慮した全く新しい姿勢推定手法を紹介静止画中の人物の姿勢推定
Pictorial Structure Model（PSM）[1, 2] Flexible Mixtures-of-parts Model（FMM）[3] 動画の時間連続性を考慮した全く新しい姿勢推定手法を紹介 [1] M. A. Fischler and R. Elschlager, “The representation and matching of pictorial structures,” IEEE Transactions on Computers, vol. 100, no. 1, pp. 67–92 , 1973. [2] M. Andriluka, S. Roth, and B. Schiele, “Pictorial structures revisited: People detection and articulated pose estimation,” IEEE Conference on Computer Vision and Pattern Recognition pp. 1014–1021, 2009. [3] Y. Yang and D. Ramanan, “Articulated human detection with flexible mixtures-of-parts,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 12, pp , 2013.

関連研究 – 二次元姿勢推定 Flexible mixtures-of-parts model（FMM）
HOG特徴量 [4]を利用してパーツ毎に重みづけ → 勾配についての様々なテンプレートを作成 1つのパーツを複数のテンプレートの連結で表現従来 FMM [4] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” IEEE Conference on Computer Vision and Pattern Recognition, 2005

関連研究 – 二次元姿勢推定 M-Pose Hypothesis method（MPH）[5]
統合結果上位3個の推定結果 [5] E. Cho and D. Kim, “Accurate Human Pose Estimation by Aggregating Multiple Pose Hypotheses Using Modified Kernel Density Approximation,” IEEE Signal Processing Letters, 2015.

提案手法 M-pose hypothesis methodを時間方向に拡張 → スコアについて上位M個の推定結果だけでなく、
　前後のフレームの推定結果も統合するフレーム毎に上位M個統合推定1位 … 推定M位時間

提案手法さらに統合時間

実験 TEDの三本の動画についてを用いて姿勢推定合計1000フレームで実験を行う
(a) FMM (b) MPH (c) 提案手法を用いて姿勢推定合計1000フレームで実験を行う (動画A :130, 動画B :340, 動画C :530) 動画A 動画B 動画C

実験 (a) FMM (b) MPH (c) 提案手法 (b), (c)ではスコアが上位16個の推定結果を統合
フレーム毎の重みは姿勢推定を行うフレームを基準前2フレームは統合して得られた結果を利用　　後2フレームよりも大きな重みを与える w= 0.85, 0.9, 1.0, 0.6, 0.4 推定フレーム

実験結果 (c) 提案手法は平均で、(a) FMMと比べて8.0% 、 (b) MPHと比べて4.3% の精度向上

実験成功例正解のフレームに挟まれることで失敗フレームが改善 FMM MPH 提案手法

実験失敗例 FMM MPH 提案手法話者のスピードによる失敗失敗フレームに挟まれて失敗

今後の課題姿勢推定の効率化姿勢推定精度の向上解像度にもよるが、処理時間は1フレーム当たり約2分
既存手法よりも精度が向上したとはいえ、まだ60%程度現状推定に失敗しているのはほとんどの場合が腕の推定

姿勢推定の効率化これまで1フレーム当たりの処理に2分ほどかかっていた
これまで1フレーム当たりの処理に2分ほどかかっていた最も時間がかかっている処理は、human detectionと HOG特徴量を用いてのパーツの推定 human detectionに関してFaster R-CNN [6]を用いることで処理の効率化を図る [6] S. Ren, K. He, R. Girshick and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” arXiv, 2015.

姿勢推定の効率化本研究の手法にFaster R-CNNを用いたhuman detection を併用元の画像から人物領域を切り取る
得られた人物領域のみの画像に対して、HOG特徴量を用いたパーツ推定を行う抽出

姿勢推定の効率化右に示す動画を用いて処理速度を比較する実験を行った Faster R-CNNを用いると、用いない場合と比較して約5倍
右に示す動画を用いて処理速度を比較する実験を行った Faster R-CNNを用いると、用いない場合と比較して約5倍 Faster R-CNNなし Faster R-CNNあり処理速度 [s] 143.45 30.02

まとめ動画の時間的連続性を考慮した高精度な姿勢推定手法を提案結果として従来手法と比べて推定精度が4.3% 向上
動画の時間的連続性を考慮した高精度な姿勢推定手法を提案結果として従来手法と比べて推定精度が4.3% 向上 Faster R-CNNを用いることにより処理速度が約5倍

時間連続性を考慮した動画からの人物の姿勢推定

Similar presentations

Presentation on theme: "時間連続性を考慮した動画からの人物の姿勢推定"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

時間連続性を考慮した 動画からの人物の姿勢推定

Similar presentations

Presentation on theme: "時間連続性を考慮した 動画からの人物の姿勢推定"— Presentation transcript:

Similar presentations

About project

フィードバック

時間連続性を考慮した動画からの人物の姿勢推定

Presentation on theme: "時間連続性を考慮した動画からの人物の姿勢推定"— Presentation transcript: