参与者|佐治亚理工学院发文：不要迷信可解释性，小心被误导

文章插图

编译 | 王晔

校对 | 琰琰

可解释性对人工智能发展来说至关重要，但在可解释系统的可信度方面，理解其可能带来的负面效应亦同等重要。

近日，佐治亚理工学院研究团队发表最新研究，重点讨论了可解释人工智能系统（XAI）中一种重要却未被阐明的负面效应。

文章插图
论文地址：https://arxiv.org/pdf/2109.12480.pdf

在这篇论文中，作者提出“可解释性陷阱（EPs）”的概念，指出即使设计者最初没有操控用户的意图，模型的可解释性也可能带来意料之外的负面影响，它不同于具有刻意欺骗性质的黑暗模式（DPs)，但又与之相关。本文通过一项案例研究具体阐述了Eps概念，并证实解释的负面影响不可避免，最后作者进一步从研究、设计和组织三个层面提出了具体的应对策略。

【参与者|佐治亚理工学院发文：不要迷信可解释性，小心被误导】

可解释性的“两面性”

发展可解释、可信的新一代人工智能越来越重要，因为人工智能已被广泛应用于医疗保健、金融、刑事司法等高风险决策领域。为了提高人工智能的安全性，我们需要打开AI内部运作的黑匣子，为用户提供可理解的解释。

目前关于可解释AI（XAI）的研究已经取得了令人称赞的进展，但最新研究发现，这些解释所带来的的影响不一定是积极的，也可能在下游任务中产生消极影响。例如设模型计者故意制造不合理的解释，让人们对人工智能系统产生信任，从而隐瞒其可能带来的风险。更重要的是，尽管模型设计的最初意图是好的，这种负面影响似乎也不可避免。

在这种情况下，我们要如何区分有意和无意的负面解释？又如何将有意的负面效应概念化？

文章插图

作者引入“可解释性陷阱（Explainability pitfalls ，EPs）”的概念，指出人工智能解释可能会误导用户在不知情、无防备的情况下做出符合第三方利益的决策。用户对人工智能的信任，能力的高估，以及对某些解释的过度依赖，是他们在无意识中被“可解释性”操控的主要原因。

EPs和DPs之间的最大区别在于“意图”不同——DPs存在故意欺骗的性质，不考虑到用户的利益。但EPs通过故意设置“陷阱（pitfalls)”也可以变成黑暗模式。

EPs的概念并不是纯粹的理论推导后的结果，而是在大量实际工作和经验的基础上提出的。这项工作展示了尽管没有欺骗的意图，但在人工智能解释的确会出现意料之外的负面影响.

本文不是一篇关于EPs的全面论述，而是在现有概念和实践上迈出了基础性的一步。作者表示，提出可解释性陷阱的概念，是为了让人们认识到未曾发掘的知识盲点（围绕人工智能解释的负面影响），并以此扩大XAI系统的设计空间。

多智能的“解释陷阱”