Line|「反 ChatGPT 神器」来了!背后还有一个被忽略的互联网难题( 二 )


目前这个检测器还很初级 , 甚至可以说这是一个「半成品」 。

除了 OpenAI 自己提到的儿童内容和非英文内容 , 有点年头的英文内容也很容易被误判 。
已经逝世的知名作家们的作品几乎无一幸免 , 带有时代特色的表达方式很容易被判定为 AI 作品 。 莎士比亚就惨遭毒手 , 他最短的悲剧《麦克白》就被判定为「该文本很可能是人工智能生成的 。 」
▲ 莎士比亚的作品很可能是 AI 生成的
连创造者 OpenAI 都有点束手无策 , 辨别 AI 生成内容的道路依旧任重道远 。
当然这也很好理解 , 画作相对文字还要更高门槛一些 , 通过笔触、风格、水印 , 大家还能看出 AI 模仿学习的痕迹 。
但文字没有「水印」 , 大家用创作出的文字也非常多样 , 因为创作者受教育的高低程度和表达风格 , 在最终文本上有较大差别也是可以理解的 。
▲ AI 创造的内容越来越接近人 图片来源:Midjourney
甚至可以这么说 , 等 ChatGPT 再进一步 , 可能人类都无法判定这是否是人工智能生成的文本了 。 因为它就像身边你我会写出来的内容——没有陌生的自创词汇 , 不会前言不搭后语 , 内容言之有物 。
如果人已经分辨不出内容的源头了 , 那 AI 就成了未来的希望了 。 不管是用 AI 生成的内容自动加「水印」 , 还是检测器经过多次迭代后正确率无限提高 , AI 都是更好完成辨别的特殊角色 。

除了创造者 OpenAI 在行动 , 还有不少学者、实验室、大公司都在努力辨别 AI 内容 。
一个叫做 Edward Tian 的学生创建了一个网站 , 想要「检测 AI 剽窃」;Google 为了不在人工智能发展中掉队 , 据称将上架 6 个 AI 相关应用 , 其中就有检测应用;抄袭检测器 Turnitin 正在开发自己的 AI 生成文本检测器 。
当然 , 这都属于未来 , 我们面临的现状是 AI 可以轻松制造大量内容 , 最终模糊信息源 , 而身为普通消费者的我们将很难辨别它的生产源头 。

AI 文本生成 , 轻易污染信息的模糊未来 还记得我们曾在《她在中文维基百科上胡编了上百万字的古罗斯历史 , 把俄罗斯人都骗了》写的故事吗?
一个高中毕业生靠着「一腔热情」在维基百科上写了几百万字的历史内容 , 这些内容甚至流传到了外网 , 被很多外网内容引用为来源 。

如果将这个高中毕业生看作 AI , 你就能懂 ChatGPT 的存在对信息可能造成怎样的污染了 。
这位高中生 3 年编了百万字历史 , AI 的效率只会比他更高 。
【Line|「反 ChatGPT 神器」来了!背后还有一个被忽略的互联网难题】他用三年生成的内容 , 随着 AI 的进步可能三天甚至三小时不到即可生成 。 更低的内容制作成本 , AI 只会做得更好 , 毕竟它本身就是在模仿学习 , 继续模仿真实的历史生成一段「历史」并不难 。

当然 , AI 还没有进化到《流浪地球 2》Moss 那样的地步 。 它还没有意识要去做这件事 , 有意识也不一定有意愿去做这件事 。 但 AI 本身就是一种工具 , 就像用人用刀切菜做佳肴一样 , 也可能有人持刀伤人 。
千万别说没人这么无聊 , 既然有人一字字都能编出百万历史 , 那门槛更低的 AI 内容会生成什么故事、用于哪里都是正常的 。 人类的多样性总是超乎想象 , 当这种多样碰上了 AI 的高效 , 信息被污染的情况只会越来越多 。

这还只是 ChatGPT 刚出现几个月后人们的想象 。
在 ChatGPT 爆火的两个月内 , 学生就已经自发用这种工具做作业、写论文偷懒 , 编剧会用它编故事试试出乎人意料的故事走向;文案编辑用它来给自己打工 。