半监督二维人体姿态估计中的模型坍塌问题研究（代码已开源）|ICCV 2021

文章插图

AI科技评论报道

本文是计算机视觉领域顶级会议ICCV2021入选论文《An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation（半监督二维人体姿态估计中的模型坍塌问题研究）》的解读。该论文由北京大学王亦洲课题组与微软亚洲研究院合作完成，研究了一致性学习算法在二维人体姿态估计中的模型坍塌问题，并提出了构建预测难度存在差异的样本对来解决该问题。本文提出的算法可以有效地利用无标记数据中的信息，显著提高了姿态估计模型的泛化能力。

文章插图

论文地址：https://arxiv.org/abs/2011.12498

代码链接：https://github.com/xierc/Semi_Human_Pose

研究背景

二维人体姿态估计在公开数据集上的精度不断获得提升，但因为部署场景和训练数据的差异，绝大多数模型在实际使用时都会面临泛化性能降低这一挑战。半监督学习为解决这一问题提供了可能，它利用少量标注数据和大量无标注数据（比如来自实际部署场景）进行共同训练，期望提升模型在目标场景下的泛化能力。
目前半监督学习的方法中，结果最好的方法大多基于一致性训练（Consistency-based）[1][2]。也就是要求模型在一张图像的不同扰动（Perturbation）上产生一致的输出，从而去探索无标签图像中存在的特征。一致性损失如公式所示，

代表模型输出，

表示扰动参数。但是，目前绝大多数工作都只在分类任务上进行了算法有效性的验证。
但当我们把这些方法应用到二维人体姿态估计时，我们发现大部分的一致性训练方法都遇到了模型坍塌的问题（Model Collapsing）—— 模型在有标注的图像上能够预测出正确的heatmap，但在无标注的图像上对每个像素的预测都是0。注意在这种情况下，虽然一致性损失是最小的，但模型在无标签数据上却没有学到任何有意义的信息。

文章插图

图1. 经典的一致性训练方法在二维人体姿态估计任务上的表现。(a) 预测 Heatmap 响应的变化。(b) 平均精确率的变化。

具体情况如图1 (a) 所示，随着训练次数的增加，模型在无标注数据上产生退化的输出（整张图像被预测成背景）。有意思的是模型在标注数据上依然能够产生正确的输出，这个观察意味着网络能够区分训练图像来自于无标注/有标注数据集。在图1 (b) 中，模型在验证数据集上的精度逐渐接近于0，可确认此时发生了退化。

问题分析

在文章里，我们通过实验对这个现象进行了深入分析，发现可能是类别不均衡问题导致的。在人体姿态估计任务中，一张图像中绝大部分像素属于背景，只有一小部分属于前景（对应关节点附近的高斯区域）。因此该任务中存在非常严重的类别不均衡问题。

半监督二维人体姿态估计中的模型坍塌问题研究（代码已开源）|ICCV 2021 | 一致性