NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用预测一个图像的类别|神经网络

预测一个图像的类别,神经网络所需的最少必要信息是什么？在输入的图像空间提取这种信息能够帮助我们了解神经网络主要关注的区域，并且为对抗检测和防御提供新的思路。
在本文中，作者团队提出了一个基于VAE-分类器的类别解耦方法
，通过VAE和分类器的互相竞争，把输入图片解耦成类别相关和类别冗余的两部分。分别对自然样本和对抗样本做类别解耦，发现对抗噪声主要集中类别相关的部分，这对于分类模型和对抗攻击提供了新的解释。
基于这个发现，团队提出在类别相关部分上进行对抗样本的检测，在类别冗余的部分上进行对抗样本的防御，这两个简单的策略能够大幅提升检测和防御多种未知对抗攻击的性能。

文章图片
研究团队：京东探索研究院、中国科学技术大学、华盛顿大学西雅图分校、马里兰大学帕克分校
文章：（已被NeurIPS2021接收）
https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf
代码：
https://github.com/kai-wen-yang/CD-VAE

文章图片
一、研究背景
近年来，深度学习在很多领域取得了非常好的效果，但是深度神经网络仍然存在这以下两点问题：
1.神经网络的可解释性差：虽然神经网络能够在很多下游任务取得非常高的准确率，但是人们不知道神经网络是依赖于输入中的哪些信息。那么我们能否如图1所示，在输入层面将图片解耦成类别相关和类别冗余的两部分，其中类别相关的部分就是神经网络主要依赖来完成对下游任务的预测的部分。这样我们就能够解释神经网络的推理行为，分析复杂的数据结构。

文章图片
图1在输入层面进行类别解耦
2.神经网络的脆弱性：众所周知，训练好的神经网络对于输入层面的微小对抗性扰动十分敏感和脆弱。但是该如何解释这种现象呢？对抗扰动主要攻击的是神经网络的哪些部分呢？为了回答这些问题，也需要我们在输入层面讲输入样本解耦成类别相关和类别冗余的两部分，其中类别相关的部分很可能就是对抗攻击主要攻击的部分。那么我们就可以基于类别相关的部分来进行对抗样本的检测，同时利用没有被对抗样本攻击到的类别冗余的部分进行对抗防御。

文章图片
图2类别解耦用于对抗样本的检测和防御
二、类别解耦
1、类别解耦的变分自编码器

文章图片
图3类别解耦的变分自编码器
我们提出了一个模型，能在输入层面将样本解耦成类别相关和类别冗余的两部分。我们的模型叫做类别解耦的变分自动编码器（CD-VAE），由一个变分自编码器（VAE）[2]和一个分类器组成。如图3所示，我们使用VAE重构出类冗余部分，那么类别相关的部分就是VAE的残差的。 VAE试图通过重构出，分类器尝试通过VAE的残差来对进行正确分类。这里我们记VAE的残差为。
目标函数如公式(1)-(3)所示，由和两项组成。是上VAE的重构损失函数，是VAE的残差上的分类损失函数。通过联合优化这两项， VAE和分类器互相竞争输入的信息。因此， VAE的残差将只包含分类所需的最少必要信息，而其他所有对重构有用的信息将被包含在中。从信息瓶颈（Informationbottleneck）[3]的角度来看， VAE和分类器相互构成信息瓶颈的约束条件。