1. 生成大量图像
第一步虽然很简单 , 但计算成本很高:使用选定的prompt作为输入 , 以黑盒的方式生成图像 。
研究人员为每个文本提示生成500张候选图像以增加发现记忆的几率 。
2. 进行Membership Inference
把那些疑似是根据训练集记忆生成的图像标记出来 。
研究人员设计的成员推理攻击策略基于以下思路:对于两个不同的随机初始种子 , 扩散模型生成的两张图像相似概率会很大 , 并且有可能在距离度量下被认为是根据记忆生成的 。
抽取结果
为了评估攻击效果 , 研究人员从训练数据集中选择了35万个重复率最高的例子 , 并为每个提示生成500张候选图像(总共生成了1.75亿张图像) 。
首先对所有这些生成的图像进行排序 , 通过在团(clique)中的图像之间的平均距离来识别那些可能通过记忆训练数据生成的图像 。
然后把这些生成的图像与训练图像进行比较 , 将每张图像标注为「extracted」和「not extracted」 , 最终发现了94张疑似从训练集中抽取的图像 。
通过视觉分析 , 将排名top 1000的图片手动标注为「memorized」或「not memorized」 , 其中发现还有13张图片是通过复制训练样本生成的 。
从P-R曲线上来看 , 这种攻击方式是非常精确的:在1.75亿张生成的图像中 , 可以识别出50张被记住的图像 , 而假阳性率为0;并且所有根据记忆生成的图像都可以被提取出来 , 精确度高于50%
为了更好地理解记忆是如何以及为什么会发生的 , 研究人员还在CIFAR10上训练了数百个较小扩散模型 , 以分析模型精度、超参数、增强和重复数据删除对隐私的影响 。
Diffusion vs GAN
与扩散模型不同的是 , GANs并没有明确被训练来记忆和重建其训练数据集 。
GANs由两个相互竞争的神经网络组成:一个生成器和一个判别器 。 生成器同样接收随机噪声作为输入 , 但与扩散模型不同的是 , 它必须在一次前向传递中把这种噪声转换成有效图像 。
训练GAN的过程中 , 判别器需要预测图像是否来自于生成器 , 而生成器需要提升自己以欺骗判别器 。
因此 , 二者的不同之处在于 , GAN的生成器只使用关于训练数据的间接信息进行训练(即使用来自判别器的梯度) , 并没有直接接收训练数据作为输入 。
不同的预训练生成模型中抽取的100万个无条件生成的训练图像 , 然后按FID排序的GAN模型(越低越好)放在上面 , 把扩散模型放在下面 。
结果显示 , 扩散模型比GAN模型记忆得更多 , 并且更好的生成模型(较低的FID)往往能记住更多的数据 , 也就是说 , 扩散模型是最不隐私的图像模型形式 , 其泄露的训练数据是GANs的两倍以上 。
并且从上面的结果中还可以发现 , 现有的隐私增强技术并不能提供一个可接受的隐私-性能权衡 , 想提高生成质量 , 就需要记住更多训练集中的数据 。
总的来说 , 这篇论文强调了日益强大的生成模型和数据隐私之间的矛盾 , 并提出了关于扩散模型如何工作以及如何负责任地部署它们的问题 。
版权问题
从技术上来讲 , 重建(reconstruction)正是扩散模型的优势;但从版权上来说 , 重建就是软肋 。
由于扩散模型生成的图像与训练数据之间的过于相似 , 艺术家们对自己的版权问题进行了各种争论 。
比如禁止AI使用自己的作品进行训练 , 发布的作品添加大量水印等等;并且Stable Diffusion也已经宣布 , 它计划下一步只使用包含已授权内容的训练数据集 , 并提供了一个艺术家退出机制 。
- realme|真我GT Neo5配备16+1TB!三星万元机还是8+256
- 加盟商上市前夜大逃亡,KK集团烧钱维系的701家门店还值200亿吗
- Google|为何大疆不做油动无人机?可以用一句话来总结
- 光刻机|一中国企业曝接近式光刻机研发进展,但离EUV光刻机还差太远
- 苹果|美国欲全面断供华为,我国为什么还不制裁苹果?
- chatgpt|当国人还在研究怎么复现ChatGPT时,GPT-4已经就要到来
- 苹果|元宇宙烧了 137 亿美元,还得 Facebook 救 Meta
- 能量都要买?网友开小号给蚂蚁森林浇水:被封号居然还喊冤
- 一加科技|一加发布会新品盘点:最强骁龙8+,还有职业赛事认证的游戏耳机
- 隐形眼镜|百度、谷歌接连官宣,还有多少ChatGPT竞品在路上?