对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral( 二 )


分类损失(ClassificationLoss)
给定数据集 , 每个元组包含和一个候选标签集合 。 为了有效解决PLL问题 , 研究者为每个样本维护一个伪标签向量 。 在训练过程中 , 研究者会不断更新这个伪标签向量 , 而模型则会优化以下损失进行更新分类器 ,
PLL的对比表征学习(ContrastiveRepresentationLearningForPLL)
受到监督对比学习(SCL)[3]的启发 , 研究者旨在引入对比学习机制 , 为来自同一类的样本学习相近的表征 。 PiCO的基本结构和MoCo[4]类似 , 均由两个网络构成 , 分别为Query网络和Key网络 。 给定一个样本 , 研究者首先利用随机数据增强技术获得两个增广样本 , 分别称为QueryView和KeyView 。 然后 , 它们会被分别输入两个网络 , 获得一对-归一化的embeddings , 即和 。
实现时 , 研究者让Query网络与分类器共享相同的卷积块 , 并增加一个额外的投影网络 。 和MoCo一样 , 研究者利用Query网络的动量平均(MomentumAveraging)技术对Key网络进行更新 。 并且 , 研究者引入一个队列queue , 存储过去一段时间内的Keyembedding 。 由此 , 研究者获得了以下的对比学习embeddingpool: 。 接着 , 研究者根据如下公式计算每个样本的对比损失:
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
文章图片
其中是对比学习中的正样本集 , 而 。 是温度参数 。
PositiveSet选择 。 可以发现 , 对比学习模块中 , 最重要的问题即为正样本集合的构建 。 然而 , 在PLL问题中 , 真实标签是未知的 , 因此无法直接选择同类样本 。 因此 , 研究者采用了一个简单而有效的策略 , 即直接使用分类器预测的标签: , 构建如下正样本集:
为了节约计算效率 , 研究者还维护一个标签队列来存储之前几个Batch的预测 。 尽管该策略很简单 , 却能得到非常好的实验结果 , 并且能够从理论上被证明该策略是行之有效的 。
基于原型的标签消歧(Prototype-basedLabelDisambiguation)
值得注意的是 , 对比学习依然依赖于准确的分类器预测 , 因此依然需要一个有效的标签消歧策略 , 获取准确的标签估计 。 为此 , 研究者提出了一个新颖的基于原型的标签消歧策略 。 具体的 , 研究者为每个标签维护了一个原型embedding向量 , 它可以被看作一组具有代表性的embedding向量 。
伪标签更新 。 在学习过程中 , 研究者首先将S初始化为Uniform向量 。 接着 , 基于类原型 , 研究者采用一个滑动平均的策略更新伪标签向量 ,
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
文章图片
即 , 研究者选择最近的原型对应的标签 , 逐步更新伪标签S 。 此处 , 采用滑动平均原因是对比学习网络输出的embeddings在初始阶段并不可靠 , 此时拟合Uniform伪目标能够很好地初始化分类器 。 然后 , 滑动平均策略伪标签平滑地更新为正确的目标 , 以确保一个稳定的TraningDynamic 。
原型更新 。 为了更新伪标签 , 一个简单的方法是每个迭代或者Epoch中都计算一次每个类的中心 , 不过这会引起较大的计算代价 。 因此研究者再一次使用滑动平均技术更新原型 ,
即 , 当被预测为类别时 , 则令往对应的向量方向步进一些 。
Insights.值得注意的是 , 这两个看似独立的模块实际上能够协同工作 。 首先 , 对比学习在embeddings空间中具有聚类效果 , 因此能够被标签消歧模块利用 , 以获得更准确的类中心 。 其次 , 经过标签消歧后 , 分类器预测的标签更准确 , 能够反哺对比学习模块构造更精准的PositiveSet 。 当两个模块达成一致时 , 整个训练过程就会收敛 。 研究者在接下来在理论上更严格地讨论PiCO与经典EM聚类算法的相似之处 。