联邦学习前路如何?杨强:已到“合久必分”的状态( 二 )


无免费午餐定理通过量化隐私和效用之间的约束关系 , 证明信息的相互泄露和模型效能是互相制约的 。
之所以叫“无免费的午餐” , 是因为研究表明 , 一般情况下 , 隐私和效用的权衡中 , 必须用一定程度的效用降低来交换隐私的保护 , 将潜在的隐私损失维持在可接受范围内 。
那么 , 能不能发明一种“聪明”的算法 , 把安全性、模型效能、准确率同时最大化呢?
微众银行AI团队和中山大学合作发表的另一篇论文——《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》——正面回答了这个问题 。
FedCG , 文章提出的一种新的联邦学习方法 , 利用条件生成对抗网络 , 以实现高水平的隐私保护 , 同时保持模型的性能 。
具体而言 , FedCG将每个联邦学习参与者的本地网络分解成一个私有提取器和一个公共分类器 , 然后保持提取器的本地性来保护隐私 。
联邦学习前路如何?杨强:已到“合久必分”的状态
文章图片
△FedCG概述图
它结合条件生成对抗网络和分割学习 , 不是暴露提取器 , 而是通过与服务器共享客户端的生成器来聚合客户端的共享知识 , 从而提高本地网络的性能 。
实验表明 , 与联邦学习基线相比 , FedCG有更好的隐私保护能力 , 同时在模型性能上也具有竞争力 。
另外 , 考虑到联邦学习不是一次性的训练 , 它涉及数据的收集、选择 , 模型的训练、推断甚至交换 , 整个过程可能面临非法复制、重新分发、滥用的风险 。
针对于此 , 结合对模型知识产权保护的思考 , 微众银行AI团队进行了一项工作:提出一种联邦深度神经网络(FedDNN)所有权验证方案 , 称为FedIPR 。
《FedIPR:联邦学习模型所属权验证》一文详细介绍道 , FedIPR方案允许嵌入和验证私有水印 , 来申明FedDNN模型的所有权 。
有了这个方案 , 模型由谁做出、有谁用过、谁进行过模型交易 , 以及模型的危险性、特别性等 , 都会得到很好的检测 。
联邦学习前路如何?杨强:已到“合久必分”的状态
文章图片
如此这般 , 方便了对联邦学习模型进行全生命周期管理 , 也对模型知识产权起到保护作用 。
模型的归属权验证一直是业界致力于解决的难题 , 微众银行AI团队是首个在联邦学习中融入这项工作的团队 。 长远来看 , 这项工作有利于数据和模型市场的建立和规范 。
综合看来 , 此次陆续发表的3篇联邦学习论文 , 分别从理论、实践、规模化、工程化等不同的角度 , 对可信联邦学习进行了全面探索 。
可信联邦学习的提出 , 通过提出端到端安全生命周期的管理、FedCG这种防火墙式的安全方法等一系列技术上的提升 , 再加入许多软件工程的管理 , 譬如软件治理、模型追踪等 , 将联邦学习领域的发展推进了一步 。
至此 , 联邦学习为何能够成为顶会们的香饽饽 , 也就有了清晰的眉目 。
而且对于联邦学习的火热 , 杨强还这样评价道:
联邦学习的第二阶段 , 也就是可信联邦学习 , 从全世界范围来看都是刚刚起步 , 到处都有学者响应 。
但正所谓能用起来的技术才是好技术 , 那么接下来的一个问题便是:
顶会们的“香饽饽” , 正如何改变我们的生活?正如我们刚才提到的 , 可信联邦学习需要处理的那些数据 , 一般都具备较强的独立性、隐私性、安全性 。
因此 , 金融、医疗、物流、政务等场景便成为了联邦学习发挥其实力极佳的“试验田”;尤其是在金融场景中 , 联邦学习涉足较早 。