時間連続性を考慮した 動画からの人物の姿勢推定

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
到着時刻と燃料消費量を同時に最適化する船速・航路計画
画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
Building text features for object image classification
Learning Appearance in Virtual Scenarios for Pedestrian Detection
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
リアルタイム単語認識技術を利用した カメラベース情報取得システム
Pose Tracking from Natural Features on Mobile Phones
国内線で新千歳空港を利用している航空会社はどこですか?
画像処理論.
画素密度検出エージェントを用いた文字列の検出と文字切り出し
ライフログデータとしての笑顔の蓄積システムの提案
符号化のための重み付きジョイントバイラテラルフィルタを用いた 奥行き画像超解像
神奈川大学大学院工学研究科 電気電子情報工学専攻
Nonrigid Structure from Motion in Trajectory Space
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Web画像を用いた マルチモーダル情報による物体認識
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
サーバ負荷分散におけるOpenFlowを用いた省電力法
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
Deep Learningを用いたタンパク質のコンタクト残基予測
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ステレオカメラを用いた歩行者の行動解析.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
Online Decoding of Markov Models under Latency Constraints
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
雑音環境下における 非負値行列因子分解を用いた声質変換
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
限られた保存領域を使用する Javaプログラムの実行トレース記録手法の 提案と評価
Javaプログラムの変更を支援する 影響波及解析システム
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
複数特徴量の重み付け統合による一般物体認識
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
ステレオカメラを用いた歩行者の行動解析 ステレオカメラを用いた歩行者の行動解析.
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
2007年度 長岡オープンハウス クロマキー合成 小山高専 電子制御工学科4年                       針谷 尚裕.
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
距離空間ピラミッドを用いた LLCによる3次元物体認識
停止ストリームの検知 情報工学部 情報工学科 06a2072 山下 雄
ETPB: Extraction of Context from Pedestrians' Behavior
ポッツスピン型隠れ変数による画像領域分割
ステレオカメラを用いた歩行者の行動解析.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
Webページタイプによるクラスタ リングを用いた検索支援システム
複雑度メトリクスを用いた JAVAプログラム品質特性の実験的評価
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
回帰テストにおける実行系列の差分の効率的な検出手法
勾配画像処理に基づく動画中の流体部分抽出
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
雑音環境下における Sparse Coding声質変換 3-P-49d
FSE/ASE勉強会 A10:Software Maintenance II
Detecting Software Modularity Violations
Presentation transcript:

時間連続性を考慮した 動画からの人物の姿勢推定 東京大学 藤枝慎・山崎俊彦・相澤清晴

はじめに メインテーマ 動画の時間連続性を考慮した全く新しい姿勢推定手法 を紹介 静止画中の人物の姿勢推定 Pictorial Structure Model(PSM)[1, 2] Flexible Mixtures-of-parts Model(FMM)[3] 動画の時間連続性を考慮した全く新しい姿勢推定手法 を紹介 [1] M. A. Fischler and R. Elschlager, “The representation and matching of pictorial structures,” IEEE Transactions on Computers, vol. 100, no. 1, pp. 67–92 , 1973. [2] M. Andriluka, S. Roth, and B. Schiele, “Pictorial structures revisited: People detection and articulated pose estimation,” IEEE Conference on Computer Vision and Pattern Recognition pp. 1014–1021, 2009. [3] Y. Yang and D. Ramanan, “Articulated human detection with flexible mixtures-of-parts,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 12, pp. 2878-2890, 2013.

関連研究 – 二次元姿勢推定 Flexible mixtures-of-parts model(FMM) HOG特徴量 [4]を利用してパーツ毎に重みづけ → 勾配についての様々なテンプレートを作成 1つのパーツを複数のテンプレートの連結で表現 従来 FMM [4] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” IEEE Conference on Computer Vision and Pattern Recognition, 2005

関連研究 – 二次元姿勢推定 M-Pose Hypothesis method(MPH)[5] 統合結果 上位3個の 推定結果 [5] E. Cho and D. Kim, “Accurate Human Pose Estimation by Aggregating Multiple Pose Hypotheses Using Modified Kernel Density Approximation,” IEEE Signal Processing Letters, 2015.

提案手法 M-pose hypothesis methodを時間方向に拡張 → スコアについて上位M個の推定結果だけでなく、   前後のフレームの推定結果も統合する フレーム毎に 上位M個統合 推定1位 … 推定M位 時間

提案手法 さらに統合 時間

実験 TEDの三本の動画について を用いて姿勢推定 合計1000フレームで実験を行う (a) FMM (b) MPH (c) 提案手法 を用いて姿勢推定 合計1000フレームで実験を行う (動画A :130, 動画B :340, 動画C :530) 動画A 動画B 動画C

実験 (a) FMM (b) MPH (c) 提案手法 (b), (c)ではスコアが上位16個の推定結果を統合 フレーム毎の重みは 姿勢推定を行うフレームを基準 前2フレームは統合して得られた結果を利用   後2フレームよりも大きな重みを与える w= 0.85, 0.9, 1.0, 0.6, 0.4 推定フレーム

実験 結果 (c) 提案手法は平均で、(a) FMMと比べて8.0% 、 (b) MPHと比べて4.3% の精度向上

実験 成功例 正解のフレームに挟まれることで失敗フレームが改善 FMM MPH 提案手法

実験 失敗例 FMM MPH 提案手法 話者のスピードによる失敗 失敗フレームに挟まれて失敗

今後の課題 姿勢推定の効率化 姿勢推定精度の向上 解像度にもよるが、処理時間は1フレーム当たり約2分 既存手法よりも精度が向上したとはいえ、まだ60%程度 現状推定に失敗しているのはほとんどの場合が腕の推定

姿勢推定の効率化 これまで1フレーム当たりの処理に2分ほどかかって いた これまで1フレーム当たりの処理に2分ほどかかって いた 最も時間がかかっている処理は、human detectionと HOG特徴量を用いてのパーツの推定 human detectionに関してFaster R-CNN [6]を用いる ことで処理の効率化を図る [6] S. Ren, K. He, R. Girshick and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” arXiv, 2015.

姿勢推定の効率化 本研究の手法にFaster R-CNNを用いたhuman detection を併用 元の画像から人物領域を切り取る 得られた人物領域のみの画像に対して、HOG特徴 量を用いたパーツ推定を行う 抽出

姿勢推定の効率化 右に示す動画を用いて処理速度を比 較する実験を行った Faster R-CNNを用いると、用いな い場合と比較して約5倍 右に示す動画を用いて処理速度を比 較する実験を行った Faster R-CNNを用いると、用いな い場合と比較して約5倍 Faster R-CNNなし Faster R-CNNあり 処理速度 [s] 143.45 30.02

まとめ 動画の時間的連続性を考慮した高精度な姿勢 推定手法を提案 結果として従来手法と比べて推定精度が4.3% 向上 動画の時間的連続性を考慮した高精度な姿勢 推定手法を提案 結果として従来手法と比べて推定精度が4.3% 向上 Faster R-CNNを用いることにより処理速度 が約5倍