11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗( 二 )


11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
然后 , 这些行为经过调整 , 可以改变用途 , 并解决其他任务 , 如爬楼梯和通过有墙壁的走廊 。
第三篇论文提出了一个基于最先进的生成模型的神经网络体系结构 。
这项研究展示了这种架构如何能够学习不同行为之间的关系 , 并模仿向agent展示的特定动作 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
经过训练后 , 这些系统可以编码一个观察到的动作 , 并创造一个新的动作 。
扩展数据驱动的机器人技术
DeepMind研究了一个数据驱动的机器人框架 , 该框架使用大量的机器人体验数据集 , 然后使用学习奖励函数将其扩展到几个任务 。
该框架可用于在真实机器人平台上完成三种不同的物体操纵任务 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
科学家们使用人类注释作为监督 , 让agent学习奖励功能 , 并用任务不可知(task-agnostic)的记录经验来演示任务 。 这有助于agent处理现实世界中无法直接获得奖励信号的任务 。
基于学习到的奖励和从不同任务中获得的大量经验数据集 , 使用批量强化学习离线学习机器人策略 , 这种方法可以训练agent执行具有挑战性的操作任务 , 如堆叠刚性物体 。
堆叠的新基准
最近 , DeepMind推出了RGB堆叠 , 作为基于视觉的机器人操作任务的新基准 。
在这里 , 机器人必须学会如何抓住不同的物体 , 并使它们相互平衡 。 这不同于以前的工作 , 因为所用物体非常多样 , 为验证结果的准确性也需要进行各种经验评估 。
结果表明 , 使用模拟和真实世界数据的组合可以学习复杂的多对象操作 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
这个实验为新物体的概括提出一个强有力的基线 , 也被认为是DeepMind在制造通用机器人方面的一个重大进步 。
DeepMind现在将致力于让机器人更好地理解不同几何形状物体间的相互作用 。 RGB堆叠基准已经与构建真实机器人的RGB堆叠环境、RGB对象的模型和3D打印信息的设计一起开源 。
MuJoCo
最后 , 来聊聊这次DeepMind收购的MuJoCo 。
MuJoCo(Multi-JointDynamicswithContact)是一款物理引擎模拟器 , 可促进机器人学、生物力学、图形、动画等需要快速准确模拟的领域的研发 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
MuJoCo由EmoTodorov为RobotiLLC开发 , 是第一批全功能模拟器之一 , 从零开始设计 , 通过触点进行基于模型的优化 。
在DeepMind被收购之前 , 2015年至2021年间 , MuJoCo一直是一款商业产品 , 也就意味着需要收费 , 而且并不便宜 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
MuJoCo有助于提升计算密集型技术 , 如最佳控制、系统识别、物理一致状态估计和自动化机构设计 , 然后将其应用于具有丰富接触行为的复杂动态系统 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗
文章图片
MuJoCo还有一些应用 , 比如 , 在物理机器人、游戏和交互式科学部署之前 , 经常会在MuJoCo上测试和验证控制方案 。
机器人研究的未来
今年 , DeepMind的竞争对手OpenAI , 在机器人领域投入多年的研究、资源和努力后 , 最终决定解散其机器人研究团队 , 将重点转移到数据更容易获得的领域 。
11年,从亏6亿到赚6000万!DeepMind不止那只会下棋的狗