Ray3D ray-based 3D human pose estimation for monocular absolute 3D localization

Ray3D: ray-based 3D human pose estimation for monocular absolute 3D localization (CVPR'2022)

Ray3D: 基于射线的三维人体姿态估计，用于单目绝对三维定位

摘要

本文提出了一种新颖的基于单眼射线的3D (Ray3D) 绝对人体姿态估计，带有校准相机。

从单目2D姿势输入中准确且可概括的绝对3D人体姿势估计是一个不适定的问题(ill-posed problem)。

ill-posed problem：

ill-posed就是不well-posed.

well-posedness的定义就是解存在唯一以及稳定。
适定问题（Well-posed problem）是指满足下列三个要求的问题:
1)解是存在的;
2)解是惟一的;
3)解能根据初始条件连续变化，不会发生跳变，即解必须稳定。
这三个要求中，只要有一个不满足，则称之为不适定问题（ill-posed problems）

不适定 ill-posted问题：

世界坐系下
不同参数组合可能得到相同的二维投影

(a). 身体大小和摄影机的距离都放大两倍
(b). 焦距和距离都扩大两倍

一张2D图片对应多个可能的3D姿态

图像处理中不适定问题（ill posed problem）或称为反问题（inverse Problem）的研究从20世纪末成为国际上的热点问题，成为现代数学家、计算机视觉和图像处理学者广为关注的研究领域。
典型的图像处理不适定问题包括：

图像去噪（Image De-nosing）

图像恢复（Image Restorsion）

图像放大（Image Zooming）

图像修补（Image Inpainting）

图像去马赛克（image Demosaicing）

图像超分辨(Image super-resolution )

等

Introduction

我们将输入从像素空间转换为3D归一化射线，这种转换使我们的方法对相机固有参数变化具有鲁棒性。

为了处理相机外部参数变化，Ray3D明确地将相机外部参数作为输入，并联合建模3D姿态射线和相机外部参数之间的分布。

相机参数包括：

相机内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；

相机外参数是在世界坐标系中的参数，比如相机的位置、旋转方向等。

在相机成像的过程中，三维世界的物体被投影到像素坐标上，是一个三维到二维的过程。人体2D关键点的像素位置（即在像素坐标系下的位置）由世界坐标系下人体大小、相机外部参数、相机内部参数和3D位置共同决定。这些因素为3D姿态估计带来了模糊性。如Figure1所示，(a)中身体大小和到摄影机的距离都放大两倍，则投影在相机上的二维关键点位置保持不变，同理（b）中焦距和距离都扩大两倍，在相机上得到的投影位置也保持不变。这样一来，便可得知在世界坐标系下，不同参数的组合可能得到相同的二维投影，如此一来，仅仅是简单的地学习从2D像素位置映射到3D世界位置的模型可能是错误的

为了解决这些模糊性，人们提出了许多单目3D人体估计方法，主要分为两种：（1）lifting methods；（2）image based methods。

lifting methods
- 对输入的2D pose归一化没有完全利用相机内参（只用到了相机中心位置，没有焦距）
- 没有用到相机的外参
image base methods
- 缺乏足够的训练数据
- 存在视角变化

为了更有效的解决这个问题，作者提出了Ray3D。首先，为了有一个不变的内在参数表示，作者将像素空间中的二维关键点转换为规范化三维空间中的三维光线。通过这种简单的设计，Ray3D方法不受相机内在参数变化的影响，实现了稳定的性能。受Videopose和RIE的启发，作者使用时间卷积来融合连续帧中的3D光线，以进一步解决遮挡带来的模糊性，并提高准确性。这种时间融合机制稳定了输出，并生成更精确的3D位置。其次，作者将摄像机的外部参数联合嵌入到网络中，相机外部参数包含精确的3D人体姿势估计的基本信息。作者认为，利用相机外部参数是解决人体部位尺寸模糊的唯一方法。

主要贡献

将输入空间从2D像素空间转换为规范化坐标系中的3D射线。这种简单的设计有效地规格化了摄像机内部参数变化和摄像机俯仰角变化带来的变化。
提出了一种新颖而简单的网络，该网络利用摄像机外部参数学习摄像机嵌入，并联合建模摄像机外部参数和3D射线的分布。
对现有的3D方法进行了全面和系统的基准测试，包括对相机姿态变化的鲁棒性以及跨数据集的泛化。
在三个真实基准数据集和一个合成数据集上的实验清楚地证明了Ray3D方法的优势。

方法

CCS：相机坐标系
NCS：标准坐标系
WCS：世界坐标系

直观地说，准确的单目3D绝对位姿估计依赖于充分的模糊度减少。该方法通过对关键点、时间卷积和摄像机嵌入的归一化表示，解决了摄像机内部参数变化、身体遮挡和摄像机姿态变化带来的模糊性。

Figure2为整体框架图，为了消除固有参数变化的影响，在相机坐标系（CCS）中的二维关键点被转换为三维光线。为了处理摄像机俯仰角的变化，作者进一步将这些3D光线转换为标准化坐标系（NCS）。同样，真实3D姿势也会转换为NCS。这样，模型的输入和输出都将对齐到同一坐标系中。时序关键点运动信息有助于解决由遮挡引起的3D姿势估计模糊。在这之后，作者在时序上融合连续帧中的3D光线，并对相对姿势光线进行编码，以捕获运动信息。具体来说，作者使用MLP网络来学习摄像机姿势表示的紧凑嵌入。该摄像机嵌入随后与潜在的3D射线特征连接，用于姿势预测。这种新颖的设计极大地提高了模型对摄像机姿势和身体比例变化的鲁棒性。

Figure 3. 将摄像机坐标系沿x轴以θ度旋转，沿世界坐标系z轴以h为距离平移，得到归一化摄像机坐标系。h为摄像机在WCS中的高度。使提升网络的输入和输出在同一坐标系中对齐。

Figure 4. 相对位姿估计和根联合估计网络共享相同的RIE架构。该网络具有位置和时间增强表示。基于MLP的摄像机嵌入作为一个插件生成嵌入特征，然后与潜在的射线特征连接，以实现最终的位姿预测。

Input pre-processing

Intrinsic parameter decoupling

基于提升的三维姿态估计方法利用深度神经网络将预测的二维关键点${p_i}^J_{i=1}$提升到三维关键点${p_i^C}^J {i=1}$。$p_i = [x_i, y_i]$表示人的第i个关节在输入图像坐标系中的位置，$p_i^C = [x_i ^C, y_i ^C, Z_i^ C]$表示CCS中相应的关节。J为关节指标。为了实现对相机固有参数变化的不变性，我们对${p_i}^J{i=1}$执行以下转换：
$$
x_i^{ray}=\frac{x_i-c_x}{f_x},\;y_i^{ray}=\frac{y_i-c_y}{f_y},\;z_i^{ray}=1\tag{1}
$$
这样就有了3D射线 ${p_i^{ray}}^J_{i=1}={[x_i^{ray},\;y_i^{ray},\; z_i^{ray}] }^J_{i=1}$

📝 本文由 deepseek-v4-pro 根据笔记内容自动发布