Download presentation
Presentation is loading. Please wait.
1
時間連続性を考慮した 動画からの人物の姿勢推定
東京大学 藤枝慎・山崎俊彦・相澤清晴
2
はじめに メインテーマ 動画の時間連続性を考慮した全く新しい姿勢推定手法 を紹介 静止画中の人物の姿勢推定
Pictorial Structure Model(PSM)[1, 2] Flexible Mixtures-of-parts Model(FMM)[3] 動画の時間連続性を考慮した全く新しい姿勢推定手法 を紹介 [1] M. A. Fischler and R. Elschlager, “The representation and matching of pictorial structures,” IEEE Transactions on Computers, vol. 100, no. 1, pp. 67–92 , 1973. [2] M. Andriluka, S. Roth, and B. Schiele, “Pictorial structures revisited: People detection and articulated pose estimation,” IEEE Conference on Computer Vision and Pattern Recognition pp. 1014–1021, 2009. [3] Y. Yang and D. Ramanan, “Articulated human detection with flexible mixtures-of-parts,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 12, pp , 2013.
3
関連研究 – 二次元姿勢推定 Flexible mixtures-of-parts model(FMM)
HOG特徴量 [4]を利用してパーツ毎に重みづけ → 勾配についての様々なテンプレートを作成 1つのパーツを複数のテンプレートの連結で表現 従来 FMM [4] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” IEEE Conference on Computer Vision and Pattern Recognition, 2005
4
関連研究 – 二次元姿勢推定 M-Pose Hypothesis method(MPH)[5]
統合結果 上位3個の 推定結果 [5] E. Cho and D. Kim, “Accurate Human Pose Estimation by Aggregating Multiple Pose Hypotheses Using Modified Kernel Density Approximation,” IEEE Signal Processing Letters, 2015.
5
提案手法 M-pose hypothesis methodを時間方向に拡張 → スコアについて上位M個の推定結果だけでなく、
前後のフレームの推定結果も統合する フレーム毎に 上位M個統合 推定1位 … 推定M位 時間
6
提案手法 さらに統合 時間
7
実験 TEDの三本の動画について を用いて姿勢推定 合計1000フレームで実験を行う
(a) FMM (b) MPH (c) 提案手法 を用いて姿勢推定 合計1000フレームで実験を行う (動画A :130, 動画B :340, 動画C :530) 動画A 動画B 動画C
8
実験 (a) FMM (b) MPH (c) 提案手法 (b), (c)ではスコアが上位16個の推定結果を統合
フレーム毎の重みは 姿勢推定を行うフレームを基準 前2フレームは統合して得られた結果を利用 後2フレームよりも大きな重みを与える w= 0.85, 0.9, 1.0, 0.6, 0.4 推定フレーム
9
実験 結果 (c) 提案手法は平均で、(a) FMMと比べて8.0% 、 (b) MPHと比べて4.3% の精度向上
10
実験 成功例 正解のフレームに挟まれることで失敗フレームが改善 FMM MPH 提案手法
11
実験 失敗例 FMM MPH 提案手法 話者のスピードによる失敗 失敗フレームに挟まれて失敗
12
今後の課題 姿勢推定の効率化 姿勢推定精度の向上 解像度にもよるが、処理時間は1フレーム当たり約2分
既存手法よりも精度が向上したとはいえ、まだ60%程度 現状推定に失敗しているのはほとんどの場合が腕の推定
13
姿勢推定の効率化 これまで1フレーム当たりの処理に2分ほどかかって いた
これまで1フレーム当たりの処理に2分ほどかかって いた 最も時間がかかっている処理は、human detectionと HOG特徴量を用いてのパーツの推定 human detectionに関してFaster R-CNN [6]を用いる ことで処理の効率化を図る [6] S. Ren, K. He, R. Girshick and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” arXiv, 2015.
14
姿勢推定の効率化 本研究の手法にFaster R-CNNを用いたhuman detection を併用 元の画像から人物領域を切り取る
得られた人物領域のみの画像に対して、HOG特徴 量を用いたパーツ推定を行う 抽出
15
姿勢推定の効率化 右に示す動画を用いて処理速度を比 較する実験を行った Faster R-CNNを用いると、用いな い場合と比較して約5倍
右に示す動画を用いて処理速度を比 較する実験を行った Faster R-CNNを用いると、用いな い場合と比較して約5倍 Faster R-CNNなし Faster R-CNNあり 処理速度 [s] 143.45 30.02
16
まとめ 動画の時間的連続性を考慮した高精度な姿勢 推定手法を提案 結果として従来手法と比べて推定精度が4.3% 向上
動画の時間的連続性を考慮した高精度な姿勢 推定手法を提案 結果として従来手法と比べて推定精度が4.3% 向上 Faster R-CNNを用いることにより処理速度 が約5倍
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.