人工智能语言|专家创建“新图灵测试” 能够更好评估人工智能的隐秘能力
据英国《新科学家》周刊网站6月14日报道 , 包括美国谷歌公司多名专家在内的400多位人工智能(AI)研究者建议升级著名的图灵测试 , 以提高为人工智能技术评分的能力 。
【人工智能语言|专家创建“新图灵测试” 能够更好评估人工智能的隐秘能力】报道称 , 近年来 , 人工智能语言模型表现出惊人的与人对话的能力 , 这要归功于实验规模不断扩大——我们有了更强的算力和庞大的训练数据集 。 谷歌公司的一名工程师近日对一个模型印象深刻 , 甚至宣称这个模型已经有了意识(虽然遭到很多人的质疑) 。 有科研人员预计这些模型的规模仍将继续扩大 , 并在今后几年里展现出新的能力 。
为评估目前的技术水平并为迎接未来更强大的模型做好准备 , 来自132家机构的442名研究者花费两年时间 , 创造出一套取代图灵测试的方法 , 用于评估人工智能模型的隐秘能力 , 且可在必要时扩展评估范围 。 这套方法名为“超越模仿游戏基准”(BIG-bench) , 包含204项不同的任务 , 覆盖语言学、数学、棋类等一系列主题 。 根据设计 , 这些任务将无法被当前最先进的模型完全解决 。
科研人员在一篇介绍“超越模仿游戏基准”的论文中指出 , 它将成为一项重要工具 , 可以启发未来的研究 , 以及识别和预见新兴人工智能的任何颠覆性新能力或潜在的有害影响 。
人类专家完成了这204项任务 , 为每项任务确定了平均分和最高基准分 。 科研人员发现 , 虽然算力的提高帮助人工智能模型取得越来越好的成绩 , 但人工智能在大多数任务中的表现仍然不如人类 。
科研人员还发现 , 扩大人工智能模型的规模并没有提高其在某些任务中的表现 , 比如涉及长文本的逻辑推理 。 这等于暗示说 , 对于一些智力领域而言 , 单单扩大规模并不能解决问题 。 事实上 , 这项研究还表明 , 规模甚至可能带来问题 , 比如在某些情况下 , 衡量社会偏好的一些测试会给较大的模型打出较低的分数 。
该研究团队的核心成员包含多位谷歌专家 , 但该公司没有回应采访人员的采访请求 。
英国萨里大学的阿德里安·希尔顿认为 , 图灵测试未必过时 , 但对现代人工智能而言不够有效 , 或者说覆盖面不够广 。 图灵测试最初还被用来评估智力 , 尽管其是否能够评估智力是值得商榷的 。 希尔顿怀疑此次公布的新基准恐怕也无法衡量真正的智力 。
他说:“我认为这是一种有效的测试 , 但我不会据此认为 , 说一台机器很聪明与说它有意识是一回事 。 我相信 , 设置一组基准是比较一种机器学习算法与另一种算法的一个办法 , 也是比较一种人工智能与另一种人工智能的一个办法 。 但我并不认为这一定能解答关于智力的问题 。 有了机器学习技术 , 机器就能谱写乐曲 , 甚至回答问题、写散文 , 且是以一种比较有说服力、比较接近人类的方式做这些事情 。 但这真的是智力吗?我认为并非如此 。 ”
- 机器人|中国机器人及人工智能大赛 安徽赛区决赛拉开帷幕
- |“缺芯”根本问题找到了!美芯片专家一半是中国学霸,官方出手了
- 景区|河南一景区爆满游客因插队打架:高温让漂流受追捧 专家提醒天热容易暴躁
- 本文转自:长江网长江网讯(见习记者 包孟)关于“艺术”的讨论|人工智能绘画艺术发展,人人“艺术家”时代何时到来?
- 直播|东方甄选被投诉桃子霉烂长毛 官方已退款处理:为何产品频出问题?专家揭秘
- |华为正式确认,自研编程语言要来了,任正非:向下扎到根
- hr|从新增数量看热门专业:大数据、人工智能和物联网前三
- 数字经济为高质量发展注入新动能(专家解读)
- CPU处理器|给台积电28nm芯片厂补贴240亿元 专家揭秘:日本不单纯
- 华为“新技术”确定,自研编程语言今年发布,有望从根本上突破!