对比学习引领弱标签学习新SOTA，浙大新研究入选ICLR Oral( 二 ) 机器之心专栏作者：王皓波本

分类损失（ClassificationLoss）
给定数据集，每个元组包含和一个候选标签集合。为了有效解决PLL问题，研究者为每个样本维护一个伪标签向量。在训练过程中，研究者会不断更新这个伪标签向量，而模型则会优化以下损失进行更新分类器，
PLL的对比表征学习（ContrastiveRepresentationLearningForPLL）
受到监督对比学习（SCL）[3]的启发，研究者旨在引入对比学习机制，为来自同一类的样本学习相近的表征。 PiCO的基本结构和MoCo[4]类似，均由两个网络构成，分别为Query网络和Key网络。给定一个样本，研究者首先利用随机数据增强技术获得两个增广样本，分别称为QueryView和KeyView 。然后，它们会被分别输入两个网络，获得一对-归一化的embeddings ，即和。
实现时，研究者让Query网络与分类器共享相同的卷积块，并增加一个额外的投影网络。和MoCo一样，研究者利用Query网络的动量平均（MomentumAveraging）技术对Key网络进行更新。并且，研究者引入一个队列queue ，存储过去一段时间内的Keyembedding 。由此，研究者获得了以下的对比学习embeddingpool：。接着，研究者根据如下公式计算每个样本的对比损失：

文章图片
其中是对比学习中的正样本集，而。是温度参数。
PositiveSet选择。可以发现，对比学习模块中，最重要的问题即为正样本集合的构建。然而，在PLL问题中，真实标签是未知的，因此无法直接选择同类样本。因此，研究者采用了一个简单而有效的策略，即直接使用分类器预测的标签：，构建如下正样本集：
为了节约计算效率，研究者还维护一个标签队列来存储之前几个Batch的预测。尽管该策略很简单，却能得到非常好的实验结果，并且能够从理论上被证明该策略是行之有效的。
基于原型的标签消歧（Prototype-basedLabelDisambiguation）
值得注意的是，对比学习依然依赖于准确的分类器预测，因此依然需要一个有效的标签消歧策略，获取准确的标签估计。为此，研究者提出了一个新颖的基于原型的标签消歧策略。具体的，研究者为每个标签维护了一个原型embedding向量，它可以被看作一组具有代表性的embedding向量。
伪标签更新。在学习过程中，研究者首先将S初始化为Uniform向量。接着，基于类原型，研究者采用一个滑动平均的策略更新伪标签向量，

文章图片
即，研究者选择最近的原型对应的标签，逐步更新伪标签S 。此处，采用滑动平均原因是对比学习网络输出的embeddings在初始阶段并不可靠，此时拟合Uniform伪目标能够很好地初始化分类器。然后，滑动平均策略伪标签平滑地更新为正确的目标，以确保一个稳定的TraningDynamic 。
原型更新。为了更新伪标签，一个简单的方法是每个迭代或者Epoch中都计算一次每个类的中心，不过这会引起较大的计算代价。因此研究者再一次使用滑动平均技术更新原型，
即，当被预测为类别时，则令往对应的向量方向步进一些。
Insights.值得注意的是，这两个看似独立的模块实际上能够协同工作。首先，对比学习在embeddings空间中具有聚类效果，因此能够被标签消歧模块利用，以获得更准确的类中心。其次，经过标签消歧后，分类器预测的标签更准确，能够反哺对比学习模块构造更精准的PositiveSet 。当两个模块达成一致时，整个训练过程就会收敛。研究者在接下来在理论上更严格地讨论PiCO与经典EM聚类算法的相似之处。