2D to 3D Lifting 기법이 대다수이다 (Graph SH, CanonPose, ContextPose)
- HPE는 크게 Human Pose & Shape Estimation (Mesh Estimation)과 Keypoint Estimation으로 나뉜다
- Keypoint Estimation은 직접 RGB영상에서 3D Pose 정보를 추출하는 one stage 기법과 2D Pose 정보로부터 3D Pose 정보를 추출하는 two stage 기법으로 나뉜다
- 이번 CVPR 2021의 Keypoint Estimation 논문 중에는 2D-3D Pose Lifting 기법이 대다수였고, one-stage 기법은 거의 없던 것으로 확인했다
- 2D-3D Pose Lifting 기법은 onse stage 기법에 비해 이미 좋은 성능이 나오는 2D Pose Estimator의 장점을 이용하여 보다 정확하고 안정적인 결과를 뽑는다는 특징이 있다
- 단점은 two stage 형태이기 때문에 real-time 급으로 빠르게 동작하기는 쉽지 않다는 특징이 있고, 이번 CVPR 2021에서 real-time이거나 경량화되어 나온 3D Pose Estimation 논문은 많지 않았다.
3D Pose Data의 부족을 해결하려고한 논문들 (CanonPose, Pose Aug)
- 3D Pose Estimation 데이터는 제한된 수량, 제한된 환경(실내환경 등)이라는 특징으로 인해 Generalization에 취약
- Self-supervised model을 이용하여 라벨이 없는 view point의 Pose 데이터 생성
- 3D Pose Data를 위한 Data Augmentation 기법이 등장
여기서부터는 좀더 상세하면서 간단한 논문 리뷰.
Graph SH
- Full name : Graph Stacked Hourglass Networks for 3D Human Pose Estimation / Xu et al. (Osaka Univ)
- 개요 : 2D 관절 좌표로부터 아래 네트워크를 이용해서 3D 관절 좌표로 부스팅
- 동작 방법
1) Graph Stacked Hourglass Networks는 4개의 Graph Hourglass Module로 구성되어 각 모듈의 feature들을 최종적으로 Squeeze-Excitation block과 convolution 필터를 통과하여 아웃풋 출력
2) Graph Hourglass Module은 Autoencoder와 유사해보이는 구조로, Graph convolution / Skeletal Pooling, Skeletal Unpooling으로 구성
- 결과(데이터) : MPEJPE in millimeter : 51.9 (Human 3.6M), PCK : 80.1, AUC : 45.8 (둘다 MPI-INF-3DHP)
CanonPose
- Full name : CanonPose : Self-Supervised Monocular 3D Human Pose Estimation in the wild / Wnadt et al. (Leibniz University Hannover)
- 개요 : Multi-view 영상들로부터 동일한 Canonical 3D Pose를 추출
- 동작 방식
1) Pretrained 2D joint detector (AlphaPose)를 이용해서 입력 RGB 영상의 인물의 관절 (x,y)좌표와 각 좌표의 confidence(c)값을 추출
2) (x,y,c)를 입력으로 아래 네트워크를 이용해서 3D Pose와 Rotation Matrix를 추출. 학습시 3D Pose와 Rotation matrix를 이용해서 2D Pose로 복원이 가능해지도록 학습.
- 결과(데이터) : MPEJPE / PMPJPE in mm : 74.3, 53.0 (Human 3.6M), PCK : 77 (3DHP), CPS : 108.7 (SkiPose Dataset)
ContextPose
- Full name : Context Modeling in 3D Human Pose Estimation : A Unified Perspective / Ma et al. (Peking Univ)
- 개요 : RGB 영상으로부터 아래 네트워크를 통해 3D Pose를 추출
- 동작방식
1) RGB 영상 입력으로부터 2D CNN을 이용하여 feature 추출
2) 2D feature map을 3D 공간에 projection
3) Projection된 feature volume을 3D 네트워크 (인코더 - ContextPose - 디코더)에 입력으로 넣어서 3D Heatmap을 추출하고 최종적으로 3D Pose로 변환
- 결과(데이터) : MPEJPE in mm : 43.4 (Human 3.6M), PCK/AUC : 80.5/42.7 (3DHP)
- 소스코드 : https://github.com/ShirleyMaxx/ContextPose-PyTorch-release
ShirleyMaxx/ContextPose-PyTorch-release
This repository is the offical Pytorch implementation of ContextPose: Context Modeling in 3D Human Pose Estimation: A Unified Perspective (CVPR 2021). - ShirleyMaxx/ContextPose-PyTorch-release
github.com
MobileHumanPose
- MobileHumanPose: Toward real-time 3D human pose estimation in mobile devices / Choi et al. (KAIST)
- 개요 : MobileNetV2 기반의 경량화된 네트워크를 설계하여 실시간으로 3D Pose Estimation 수행
- Point
1) 변형된 MobileNetV2 backbone 사용
2) Activation function으로 p-relu사용하여 relu보다 조금 더 높은 정확도 성능 얻음
3) U-Net에서 사용된 Skip concatenation 사용
- 결과 : MPJPE 53.7 (Human 3.6M), inference speed 12.2 ms per frame (on Galaxy S21)
- 소스코드 : https://github.com/SangbumChoi/MobileHumanPose
GitHub - SangbumChoi/MobileHumanPose: This repo is official PyTorch implementation of MobileHumanPose: Toward real-time 3D human
This repo is official PyTorch implementation of MobileHumanPose: Toward real-time 3D human pose estimation in mobile devices(CVPRW 2021). - GitHub - SangbumChoi/MobileHumanPose: This repo is offici...
github.com
엄청 독창적인 아이디어가 들어간 논문은 아니지만 속도 성능이 엄청나다.
네이버의 MoVNect는 코드가 없어서 아쉬웠는데 이건 코드도 오픈되어 좋다.
아쉬운건 동영상 인풋의 데모가 없다는 점과 안드로이드 데모가 없다는 점?
참조문헌 (제목, 발행년도, 발행지)
[1] A survey on monocular 3D human pose estimation, 2020, Virtual Reality & Intelligent Hardware
[2] Graph Stacked Hourglass Networks for 3D Human Pose Estimation, 2021, CVPR
[3] CanonPose : Self-Supervised Monocular 3D Human Pose Estimation in the wild, 2021, CVPR
[4] Context Modeling in 3D Human Pose Estimation : A Unified Perspective, 2021, CVPR
[5] PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation, 2021, CVPR
[6] MobileHumanPose: Toward real-time 3D human pose estimation in mobile devices, 2021, CVPR
시간이 나면 Video Synthesis 분야 논문도 리뷰해보려고 한다.
깃헙에도 정리해야하는데 후..