电子商务|Meta开发了一个AI模型,解决维基百科的「性别偏见」问题

电子商务|Meta开发了一个AI模型,解决维基百科的「性别偏见」问题

文章图片

电子商务|Meta开发了一个AI模型,解决维基百科的「性别偏见」问题

维基百科一直是全球访问量Top 10的网站 , 是许多人搜索历史人物与领创者资讯的第一站 , 但这些人物的传记 , 并不总被“平等”的呈现在维基百科上 。



Meta人工智能研究科学家Angela Fan在一篇博文中指出 , 维基百科的所有英文传记中只有20%是关于女性的 。 且这个数字在交叉性群体中估计就更少了 , 例如科学界的女性、非洲的女性和亚洲的女性等 。
甚至 , 维基百科内容里“女性代表不足”的情况 , 也延伸到了该组织本身 , 该网站上只有15%的编辑表明自己是女性(来自维基媒体《2021年社群洞察报告》) 。
Angela Fan提到 , “女性在历史上对科学、政治、社会甚至创新创业的各个部分都产生了巨大影响 。 但是这些女性人物却被忽视 , 或是被以不成比例的方式在维基百科上呈现 。 ”
比如 , 加拿大物理学家Donna Strickland , 曾在2018年获得诺贝尔物理学奖 , 第一时间维基百科上却无法找到任何关于她的资讯 , 直到维基百科发布了关于她的工作传记后才得到改善 , 然而那时距离她获得诺奖已经过去很多天了 。 ”
针对女性传记缺乏的情况 , Meta公司宣布开源旗下的一个“生成式(Generative)”人工智能模型 , 该模型可以自动研究并创建一些重要人物的高质量传记文章 。
该模型的工作方式与人类研究员的工作方式相似 , 分三步走:首先是「检索模块」 , 搜索特定人物的相关信息;然后是「生成模块」 , 起草一个维基百科式的人物条目;最后是「引用模块」 , 附上引证信息的来源 。 最终达到涵盖维基百科传记所需要的所有元素 , 如传记人物的早期生活、教育和职业 。



由于该AI系统仍还存在一些限制 , 因此在定位上 , 需要能与维基百科编辑互补——由AI系统产生草稿 , 接着再由编辑进行事实查证和补充 。 模型的限制包括 , 用来创建维基百科条目的网页内容 , 可能存在文化偏见 , 需要依靠人工鉴别;而且在技术上 , 文本生成系统容易产生幻觉(Hallucination) , 也就是非事实的内容;此外在语义方面 , AI的连贯性和逻辑也有些力不从心 。
即便如此 , 该AI模型仍然令人印象深刻 。 下图彩色文本 , 是由AI模型替无脊椎动物的研究先驱Libbie Hyman , 所生成的简短传记 。 绿色文本来自参照文章;紫色文本则来自网络上的证据;橘色文本则表示幻觉 , 是由模型脑补 , 无法被验证的资讯 。



虽然模型所生成的结果无法直接发布 , 但该模型已经拿到了足够多与Libbie Hyman相关的信息(包括对无脊椎动物的研究、重要出版物和工作等) , 人类研究员或作家可以根据这些信息迅速上手并完成这篇文章 。
尽管技术方面还在完善中 , 但这是对维基百科内容的性别平等踏出的重要一步 。 研究人员提到 , 他们目前的工作 , 仅是解决一个复杂问题的一小部分 , 接下来还有很多工作要做 , 包括识别不同的“偏见”问题:比如女性传记往往涉及额外的生活细节 , “离婚”一词出现在女性传记的频率是男性传记的4倍;一些“小报”往往更关注女性的生活 , 而这些细节可能冲淡人物更应该被关注的成就;跨性别和二元性别人物的传记 , 往往长度更长 , 但是大部分章节都是描写个人生活 , 而非个人成就 。