挽救失足AI,不能光靠打骂 | 清华复旦新研究( 二 )


目前所有的去偏方法都干预了三种机制中的一种或两种 。
具体如下:
增强对D的数据干预 , 并在所有三种机制中进行干预;通过消除X在K中的性别空间上的几何投影 , 切断了D→X→K→Y的路径;性别平等正则化方法要么扭曲了D与X的关系 , 要么扭曲了D与K的关系 , 因此这类方法干预了D→X→Y和D→X→K→Y的机制 。在解释了当前去偏方法中存在的偏见-性能困境后 , 团队尝试提出一种微调方法 。
他们发现 , 三种机制中 , 有且仅有D→X→Y这种在导致性别偏见时 , 与transformer无关 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
如果微调方法仅仅通过D→X→Y纠正偏差 , 就可以在减少性别偏见的同时 , 保持模型的性能 。
根据分解定理 , 团队进行了数值实验 。
结果证明 , 这种方法能够带来双重红利:
减少部分性别偏见 , 同时避免性能下降 。
经过实验 , 团队成员把AI性别偏见的来源定位于预训练模型的两个架构:词嵌入和转换 。
据此 , 研究团队提出C4D方法 , 即通过调整标记嵌入来减少性别偏见 。
这个方法的核心思想是通过修正被误导的X , 来缩小TDE函数 , 从而减少总偏差 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
虽然团队也不知道正确的标记嵌入到底该是啥 , 但是他们开发了一种基于梯度的方法 , 来推断潜在的groundtruth 。
一切就绪 , 团队将C4D方法应用于GPT-2试验去偏结果 。
结果表明 , 在所有测试方法中 , C4D方法在小、中、超大型GPT-2上的困惑度都是最低 。
在大型GPT-2中 , C4D的困惑度排第二 , 只比最高分差了0.4% 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
而且 , 得分最高的方法 , 对性别歧视的去偏效果低于C4D 。
在GLUE数据集上 , C4D方法获得了最高平均分 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
这表明 , C4D可以明显地减少性别偏见 , 并保持模型性能 。
听了这么多理论方面的介绍 , 来看个图例直观感受一下 。
下面三张图中 , 蓝色的点代表潜入的男性偏见 , 红点代表女性偏见 。
图(a)是AI本来的理解;图(b)是人类无目的一通谩骂后 , 吓笨了的AI的理解;图(c)是人类找到原因 , 耐心讲解过后AI的理解 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
在图(b)和(c)中 , 男性偏见和女性偏见的嵌入更加集中 , 这意味着偏见的水平较低 。
同时可以注意到 , 图(c)中的嵌入仍然保持了图(a)中的拓扑结构 , 这也是C4D方法能够保持模型性能的原因 。
研究者:或许还能减少AI的其他偏见“尽管这个方法可以有效缓解语言模型中AI对性别的偏见 , 但仍不足以完全消除 。 ”
——研究者人员如实指出这个问题 。
若想在不降低AI性能的条件下 , 进一步纠正AI的偏见 , 还需要更好地理解语言模型的机制 。
挽救失足AI,不能光靠打骂 | 清华复旦新研究
文章图片
那怎样才能更好地理解?
一方面 , 是用本研究提出的“C4D方法”再去测试一下AI身上的其他偏见 。
本实验的主要研究对象是:职场上的性别偏见 。
而实际上 , 由于AI之前不断学习各种信息 , 属于来者不拒的那种 , 结果一不小心 , 还染上了宗教歧视、嫌黑爱白等社会固有的毛病……
所以 , 不妨去GPT-2上再测测去除其他偏见的最终效果 。