混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突( 二 )


对于NeuralHash这种有200多层的网络来说 , 会导致大量的累积误差 。
哈希冲突
公开代码后的短短几小时内 , 英特尔实验室的研究人员CoryCornelius就发现了两张毫无关联的照片竟然有一样的哈希值!
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
哈希值同为59a34eabe31910abfb06f308
随后AsuharietYgvar也证实了这个发现 。
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
哈希是将任意长度的数据映射到有限长度的域上 , 并使输出作为这段数据的特征 。
同时 , 哈希算法所计算出来的哈希值(HashValue)具有不可逆(无法逆向演算回原本的数值)的性质 。
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
通常来说 , 哈希算法具有以下特点:
相同的输入一定得到相同的输出;
不同的输入大概率得到不同的输出 。
但是由于通过哈希函数产生的哈希值是有限的 , 当输入数据量达到一定的程度时 , 就会导致不同的数据在经过哈希函数处理之后产生相同的值 。
这也就产生了哈希冲突 。
然而 , 早在8月8日 , 有技术人员就指出 , NCMEC采用的PhotoDNA感知哈希算法存在缺陷 。
也就是说 , 如果有人利用被NCMEC标注的图片的哈希值改变其他图片 , 那么任何存储这些图片的人都将拥有儿童色情制品 。
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
https://www.hackerfactor.com/blog/index.php?/archives/929-One-Bad-Apple.html
微软表示「PhotoDNA的哈希值是不可逆的」 。
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
https://www.microsoft.com/en-us/photodna
而实际上 , PhotoDNA哈希值可以投射到26x26的灰度图像中 , 只是有点模糊 , 但细节足以识别人和物 。
而且逆向PhotoDNA哈希值并不比解开26x26的数独题更复杂 , 这是一项非常适合计算机的任务 。
同样 , CoryCornelius发现苹果的NeuralHash也能被同样的手法欺骗 。
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
利用模型得到狗图像的哈希值 , 然后让模型去改变灰度图像 , 使其输出与狗图像相同的哈希值 。
根据鸽巢原理可知 , 这是一个第二次原像攻击问题 。
对此 , 加州大学伯克利分校的高级研究员NicholasWeaver表示:「这只是用一些垃圾图像骚扰苹果的响应团队而已」 。
而SIXGEN公司网络产品总监RyanDuff说:「看起来苹果的算法相当容易受到原像攻击」 。
解释?狡辩?
苹果在一份白皮书中解释 , CSAM检测技术将在用户的设备上运行 。
检测技术会扫描用户上传到iCloud上的照片 , 将图像转换成哈希值后 , 与已知CSAM照片的哈希数据库进行比对 。
如果两者哈希值匹配次数超过30次 , 系统就会标记这个图像 , 由团队审查 。
而英特尔实验室研究人员发现两张图片哈希值相同后 , 苹果作出的解释是:
GitHub分析的版本只是一个通用版本 。
如果照片30次的哈希值比对都一样 , CSAM检测技术还有另一个非公开的算法 。
混进iOS 14.3!网友爆出苹果CSAM检测技术出现哈希冲突
文章图片
「非CSAM图像被对抗性干扰 , 令NeuralHash与设备上加密但CSAM数据库相匹配 , 导致超过了匹配阈值 , 这个可能性很低 , 但这个独立的哈希就是为了避免出现这种可能性 。 」
照这么说 , Ygvar逆向出来的代码发生哈希冲突也没有关系 , 苹果还有「双保险」 。