从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践

从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践
文章图片
导读
7月6日 , 后摩智能联合智东西公开课策划推出的「存算一体大算力AI芯片在线研讨会」顺利完结 。 东南大学电子科学与工程学院副研究员司鑫、后摩智能联合创始人&芯片研发副总裁陈亮、后摩智能联合创始人&产品推出副总裁信晓旭三位主讲人参与了本次在线研讨会并进行了主题分享 。
陈亮博士的演讲主题为《从硬件架构到软件工具链 , 存算一体大算力AI芯片的创新与实践》 。 他首先以FSD和Tenstorrent两个典型的AI处理器架构为例 , 介绍了传统处理器架构的不足 , 之后围绕存算单元Macro、层次化的AI核设计、软件工具链、软件栈、编程模型等方面对后摩智能存算一体大算力AI芯片进行了深入讲解 。 错过直播的朋友 , 可以点击“阅读原文”观看回放 。
本文为陈亮博士的主讲回顾:
大家好 , 我是后摩智能联合创始人&芯片研发副总裁陈亮 , 很高兴跟大家做今天的分享 , 我讲解的主题是《从硬件架构到软件工具链 , 存算一体大算力AI芯片的创新与实践》 , 主要从以下三个部分展开介绍:
第一部分会讲下典型的AI处理器架构 , 这里会围绕特斯拉FSD和Tenstorrent芯片做介绍;
第二部分是后摩AI处理器的架构设计 , 主要分为存算单元Macro的设计考虑、层次化的AI核的设计 , 还有基于存算一体的AI核设计过程中的一些工程化考虑;
第三部分是软件工具链方面 , 我们知道每个NPU , 每个AI核都有自己的软件工具链、编译器等 , 我会介绍下后摩智能AI处理器的软件栈和编程模型 。
一、典型的AI处理器架构
第一个典型的AI处理器架构是特斯拉的FSD 。 特斯拉FSD发布于2017年左右 , 是一个非常简洁、高效的设计 , 因为它是特斯拉专用的AI处理器 , 主要的组成部分包括一个96×96的MACs阵列、一个片内32MB的SRAM、一个非常简洁的指令集 , 指令集里面包括了两个DMA指令、三个点乘指令、一个scale即标量指令、一个eltwise指令和一个stop指令 。 如果不算stop指令 , FSD只有7条计算指令 。
从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践
文章图片
上图的下半部分是它的架构图和版图 , 从它的架构图和版图来看 , 它具有非常简洁的设计 , 带来的好处是非常高效 。 当时在计算效率、能效比等方面 , FSD要比英伟达的GPU高几个量级 。 这也是因为应用的场景不一样 , 它是一个专用的AI处理器 , 特斯拉自己的算法运行在特定的处理器上 。 FSD架构的主要设计者是吉姆·凯勒 , 他是处理器领域架构设计的大牛 , 简洁设计也跟他个人的风格有关 , 他本人是一个非常崇尚极简主义的架构师 。
第二个典型的AI处理器架构是吉姆·凯勒的另外一个作品 , 这是他近两年加盟的一个新创业公司Tenstorrent , Warmhole是2021年他们公司一款芯片的名字 。 我们认为TenstorrentWarmhole , 还有常听说过的GraphCore , 它们都属于近存计算的范畴 。
从硬件架构到软件工具链,存算一体大算力AI芯片的创新与实践
文章图片
从这两个典型的AI处理器架构可以看出 , 经过一段时间的演变 , 传统存储和计算分离的架构已经演进成了近存计算 。 那近存计算是指什么呢?从上图可以看出整个芯片架构的概况 。 左下角大的方块 , 是它的芯片 , 芯片内部由若干个Tensixcore组成 , 这些小方块就是Tensixcore , 这些Tensixcore之间是用Network-on-chip , 即NoC连接在一起的 。 若干个二维的Tensixcore阵列通过NoC连接在一起 , 组成一个芯片 , 芯片间又通过Ethernet把芯片连接在一起 , 这样在芯片间再做一个2Dmesh扩展 。