参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导

参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图

编译 | 王晔

校对 | 琰琰
可解释性对人工智能发展来说至关重要,但在可解释系统的可信度方面,理解其可能带来的负面效应亦同等重要。
近日,佐治亚理工学院研究团队发表最新研究,重点讨论了可解释人工智能系统(XAI)中一种重要却未被阐明的负面效应。
参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图
论文地址:https://arxiv.org/pdf/2109.12480.pdf
在这篇论文中,作者提出“可解释性陷阱(EPs)”的概念,指出即使设计者最初没有操控用户的意图,模型的可解释性也可能带来意料之外的负面影响,它不同于具有刻意欺骗性质的黑暗模式(DPs),但又与之相关。本文通过一项案例研究具体阐述了Eps概念,并证实解释的负面影响不可避免,最后作者进一步从研究、设计和组织三个层面提出了具体的应对策略。

1
【 参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导】
可解释性的“两面性”
发展可解释、可信的新一代人工智能越来越重要,因为人工智能已被广泛应用于医疗保健、金融、刑事司法等高风险决策领域。为了提高人工智能的安全性,我们需要打开AI内部运作的黑匣子,为用户提供可理解的解释。
目前关于可解释AI(XAI)的研究已经取得了令人称赞的进展,但最新研究发现,这些解释所带来的的影响不一定是积极的,也可能在下游任务中产生消极影响。例如设模型计者故意制造不合理的解释,让人们对人工智能系统产生信任,从而隐瞒其可能带来的风险。更重要的是,尽管模型设计的最初意图是好的,这种负面影响似乎也不可避免。
在这种情况下,我们要如何区分有意和无意的负面解释?又如何将有意的负面效应概念化?
参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图

作者引入“可解释性陷阱(Explainability pitfalls ,EPs)”的概念,指出人工智能解释可能会误导用户在不知情、无防备的情况下做出符合第三方利益的决策。用户对人工智能的信任,能力的高估,以及对某些解释的过度依赖,是他们在无意识中被“可解释性”操控的主要原因。
EPs和DPs之间的最大区别在于“意图”不同——DPs存在故意欺骗的性质,不考虑到用户的利益。但EPs通过故意设置“陷阱(pitfalls)”也可以变成黑暗模式。
EPs的概念并不是纯粹的理论推导后的结果,而是在大量实际工作和经验的基础上提出的。这项工作展示了尽管没有欺骗的意图,但在人工智能解释的确会出现意料之外的负面影响.
本文不是一篇关于EPs的全面论述,而是在现有概念和实践上迈出了基础性的一步。作者表示,提出可解释性陷阱的概念,是为了让人们认识到未曾发掘的知识盲点(围绕人工智能解释的负面影响),并以此扩大XAI系统的设计空间。

2

多智能的“解释陷阱”