寒武纪|寒武纪:等待下一个爆发期

寒武纪|寒武纪:等待下一个爆发期

文章图片

寒武纪|寒武纪:等待下一个爆发期

【寒武纪|寒武纪:等待下一个爆发期】[亿欧导读

AI芯片市场 , 巨头不会通吃一切 。

题图来自“外部授权”
文|陈俊一


编辑|顾彦
前几日 , 寒武纪在官网宣布推出第三代云端AI芯片思元370及搭载该芯片的MLU370-S4、MLU370-X4加速卡和全新升级的Cambricon Neuware软件栈等新品 。 没有华丽的发布会 , 没有炫彩的PPT , 寒武纪发布新品的风格 , 依然是典型的朴素“理工男”特点 。
在这个愈发重视AI芯片自主架构、能拥有“杀手级”应用场景、能实现算力突破与能耗双控的时代 , 思元370其实具有多项领先优势:
在架构上 , 思元370属于寒武纪第四代自研智能芯片架构 , 第一代架构MLUarch00主打智能加速IP核 , 第二代MLUarch01主打多核架构 , 第三代MLUarch02主打多核共享片内存储 , 第四代MLUarch03更是寒武纪首款采用 chiplet(芯粒)技术的AI芯片 , 在国内应该也属于行业首颗chiplet AI芯片 。
在应用场景灵活性上 , 由于思元370在一颗芯片中封装2颗AI计算芯粒(MLU-Die) , 每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口 , 不同MLU-Die可以组合规格多样化的产品 , 为用户提供适用不同场景的高性价比AI芯片 。
在算力上 , 基于台积电 7nm 制程工艺、整体集成390亿个晶体管的思元370最大算力达到 256TOPS(INT8) , 相比上一代思元270算力直接翻倍 。
不到18个月就实现了算力翻倍 , 在通用处理器领域已经失效的摩尔定律 , 在AI芯片领域还在延续 。
造芯片 , 技术和市场各有多重要算力翻倍究竟有多重要?
现实世界对于算力的需求远没有到达顶峰 。 以英伟达为例 , 自2017年底英伟达发布Tesla V100之后 , 训练最大模型的算力需求增长了3000倍 。
举例来说 , 仅是分析3000万路视频 , 以常见的英伟达Tesla P4显卡为例约需100万块 , 总硬件成本200亿元以上 , 一块显卡按照75瓦起步功耗计算总功耗也高达7.5万千瓦 。
通过如思元370这样更具效率的AI芯片在云端场景替代传统GPU , 就能够大幅降低前期基础设施建设成本 , 减少后期运行能耗 。
可以说 , 思元370成功推出的背后 , 不仅是寒武纪研发人员的日夜努力 , 也是社会各行各业对更高效率AI芯片的迫切需求 。 正如恩格斯所说 , “社会一旦有技术上的需要 , 则这种需要就会比十所大学更能把科学推向前进” 。
随着新一轮产业竞争与供应链争夺正在展开 , 对人工智能、数字化技术的需求只增不减 。 而各行各业更是向科创类产业企业界提出了前所未有的技术需求 , 在这种需求刺激下 , AI创业企业的研发成果获得落地应用的机会更多 , 市场也更大 。
乘风起势 , 市场的需求让AI芯片赛道涌入更多入局者 , 推动新技术的不断迭代 , 也让行业格局逐渐发生变动 。
目前 , 英伟达在AI芯片领域仍具有最大的影响力 。 在全球云端训练芯片市场 , 英伟达基本是一家独大 , 其GPU+CUDA计算平台是应用最多的AI训练方案 。 在推理芯片领域 , 则呈现出百家争鸣的竞争生态 , 因为推理芯片更注重功耗、时延、成本等因素 , 且相比于训练芯片需求量更高 , 使用场景更广泛 。
英伟达之外 , 英特尔、谷歌、IBM、AMD等巨头以及寒武纪等初创企业 , 都在AI芯片领域耕耘多年 , 并一步一步进行纵深研发 。