王者绝悟:AI江湖里的"武林高手"( 二 )


但是,AlphaGo仅仅是单体智能决策,而且围棋是一个规则明确、完全信息透明的单人游戏。如今,真正在各个场景下发挥重大应用价值的,是技术相对更加复杂的多智能体决策,这也就对测试环境提出了更高的要求。
【 王者绝悟:AI江湖里的"武林高手"】简而言之,就是要模拟出一个工厂之类的环境,测试如何让工厂里的各个机器人在不吵架(或者可以吵架)的前提下,既完成自己的小目标,也完成好组织要求的“装好一辆汽车”的大目标。
现实情况下,不可能天天给科学家们找几家工厂来实验。于是,谷歌、Facebook、特斯拉等公司,开始直接或者让投资组合下的公司开启多智能体AI在多人竞技游戏环境下的实验,而在中国,王者荣耀与腾讯AI Lab一同推出了王者绝悟。
不过,为什么偏偏是王者绝悟;或者说,为什么说王者荣耀能成为一个绝佳的研究环境呢?
“王者荣耀的游戏机制具有很强的多人协作性、在不对称信息下博弈空间极大、协作竞技性很强,非常适合使用多智能体人工智能技术来提高生产和测试效率。此外,王者荣耀产品中的视野非全局性,敌我双方的实时位置、状态能信息非理想透明,游戏测试环境中能提供丰富的数据,模拟的场景,为研究模仿学习提供了保障;再者,天然的层次结构,在高层次对应大局观,在低层次中对应了微操,适合层次强化学习研究。”腾讯互动娱乐天美L1工作室总经理、王者荣耀执行制作人黄蓝枭说到。
与AlphaGo相比,王者绝悟在技术复杂度与应用价值上,都有了显著的提升。据了解,王者绝悟在一局里有高达10的20000次方种操作可能性,整个宇宙原子总数也只是10的80次方。
面对这么复杂的决策,王者绝悟这几年飞速成长,训练效率非常高,一天的训练强度高达人类 440 年。
表面上,选手和王者绝悟打了一场电竞表演赛。但是实际上,王者绝悟背后,是AI从单体智能交互,到与多智能体交互的发展变化,这是其一。其二,是AI成长模式的进化:人工干预开始减少,机器智能对于环境的自主学习能力大大增强,从模仿学习,到深度学习,从“人工+智能”向自主智能转化。
如今,王者绝悟已经有了几个兄弟,可以应用于足球、FPS、RTS游戏,并且都达到了国际领先水平,其可迁移性得到了论证。此外,当王者绝悟从0到1去学习进化,并发展出一套合理的行为模型之后,其中的方法和经验,也能够在其他医疗、制造、无人驾驶等场景中得到运用。
以上种种,一方面,代表着人们距离多智能体的大范围实际应用在技术层面又向前走了一步;另一方面,也意味着“通用人工智能”在技术路径上,也不再那么遥不可及。这才是王者绝悟背后真正的价值所在。
【结束语】1943年,图灵制造了一个叫做“巨人”的机器,用于破解德军的密码电报,标志着AI的诞生。2012年,华裔科学家吴恩达展现了一个超强的神经网络,在自助观看千万张图片之后,识别图片内容,开启了AI的新时代。
可以发现,AI与人类对战,并不是其诞生的理由;AI战胜人类,也不是其诞生的目的。这是人们在走向通用AI上的一条“捷径”,让人们以一种更低成本、更安全、更有效的方式走向那个科幻般的未来。
王者绝悟的多智能体博弈和自生长能力,是通用人工智能(AGI)成长路径上的关键技术节点。在如此复杂的虚拟环境下,如果AI能够表现出较高的智能水平,那么,在真实世界中的应用前景就更值得期待了。
当然,在这其中,王者绝悟并不是第一个,也不会是最后一个。但是,数字时代的潮水还在向前奔流,每一朵大的浪花都值得铭记。