混进iOS 14.3！网友爆出苹果CSAM检测技术出现哈希冲突( 二 ) 新智元报道来源：Reddit编辑：

对于NeuralHash这种有200多层的网络来说，会导致大量的累积误差。
哈希冲突
公开代码后的短短几小时内，英特尔实验室的研究人员CoryCornelius就发现了两张毫无关联的照片竟然有一样的哈希值！

文章图片

文章图片
哈希值同为59a34eabe31910abfb06f308
随后AsuharietYgvar也证实了这个发现。

文章图片
哈希是将任意长度的数据映射到有限长度的域上，并使输出作为这段数据的特征。
同时，哈希算法所计算出来的哈希值（HashValue）具有不可逆（无法逆向演算回原本的数值）的性质。

文章图片
通常来说，哈希算法具有以下特点：
相同的输入一定得到相同的输出；
不同的输入大概率得到不同的输出。
但是由于通过哈希函数产生的哈希值是有限的，当输入数据量达到一定的程度时，就会导致不同的数据在经过哈希函数处理之后产生相同的值。
这也就产生了哈希冲突。
然而，早在8月8日，有技术人员就指出， NCMEC采用的PhotoDNA感知哈希算法存在缺陷。
也就是说，如果有人利用被NCMEC标注的图片的哈希值改变其他图片，那么任何存储这些图片的人都将拥有儿童色情制品。

文章图片
https://www.hackerfactor.com/blog/index.php?/archives/929-One-Bad-Apple.html
微软表示「PhotoDNA的哈希值是不可逆的」。

文章图片
https://www.microsoft.com/en-us/photodna
而实际上， PhotoDNA哈希值可以投射到26x26的灰度图像中，只是有点模糊，但细节足以识别人和物。
而且逆向PhotoDNA哈希值并不比解开26x26的数独题更复杂，这是一项非常适合计算机的任务。
同样， CoryCornelius发现苹果的NeuralHash也能被同样的手法欺骗。

文章图片
利用模型得到狗图像的哈希值，然后让模型去改变灰度图像，使其输出与狗图像相同的哈希值。
根据鸽巢原理可知，这是一个第二次原像攻击问题。
对此，加州大学伯克利分校的高级研究员NicholasWeaver表示：「这只是用一些垃圾图像骚扰苹果的响应团队而已」。
而SIXGEN公司网络产品总监RyanDuff说：「看起来苹果的算法相当容易受到原像攻击」。
解释？狡辩？
苹果在一份白皮书中解释， CSAM检测技术将在用户的设备上运行。
检测技术会扫描用户上传到iCloud上的照片，将图像转换成哈希值后，与已知CSAM照片的哈希数据库进行比对。
如果两者哈希值匹配次数超过30次，系统就会标记这个图像，由团队审查。
而英特尔实验室研究人员发现两张图片哈希值相同后，苹果作出的解释是：
GitHub分析的版本只是一个通用版本。
如果照片30次的哈希值比对都一样， CSAM检测技术还有另一个非公开的算法。

文章图片
「非CSAM图像被对抗性干扰，令NeuralHash与设备上加密但CSAM数据库相匹配，导致超过了匹配阈值，这个可能性很低，但这个独立的哈希就是为了避免出现这种可能性。」
照这么说， Ygvar逆向出来的代码发生哈希冲突也没有关系，苹果还有「双保险」。