寒武纪|寒武纪：等待下一个爆发期 ai芯片|软件|英伟达|it芯片

文章图片

【寒武纪|寒武纪：等待下一个爆发期】[亿欧导读

AI芯片市场，巨头不会通吃一切。

题图来自“外部授权”
文｜陈俊一

编辑｜顾彦
前几日，寒武纪在官网宣布推出第三代云端AI芯片思元370及搭载该芯片的MLU370-S4、MLU370-X4加速卡和全新升级的Cambricon Neuware软件栈等新品。没有华丽的发布会，没有炫彩的PPT ，寒武纪发布新品的风格，依然是典型的朴素“理工男”特点。
在这个愈发重视AI芯片自主架构、能拥有“杀手级”应用场景、能实现算力突破与能耗双控的时代，思元370其实具有多项领先优势：
在架构上，思元370属于寒武纪第四代自研智能芯片架构，第一代架构MLUarch00主打智能加速IP核，第二代MLUarch01主打多核架构，第三代MLUarch02主打多核共享片内存储，第四代MLUarch03更是寒武纪首款采用 chiplet（芯粒）技术的AI芯片，在国内应该也属于行业首颗chiplet AI芯片。
在应用场景灵活性上，由于思元370在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，不同MLU-Die可以组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片。
在算力上，基于台积电 7nm 制程工艺、整体集成390亿个晶体管的思元370最大算力达到 256TOPS（INT8），相比上一代思元270算力直接翻倍。
不到18个月就实现了算力翻倍，在通用处理器领域已经失效的摩尔定律，在AI芯片领域还在延续。
造芯片，技术和市场各有多重要算力翻倍究竟有多重要？
现实世界对于算力的需求远没有到达顶峰。以英伟达为例，自2017年底英伟达发布Tesla V100之后，训练最大模型的算力需求增长了3000倍。
举例来说，仅是分析3000万路视频，以常见的英伟达Tesla P4显卡为例约需100万块，总硬件成本200亿元以上，一块显卡按照75瓦起步功耗计算总功耗也高达7.5万千瓦。
通过如思元370这样更具效率的AI芯片在云端场景替代传统GPU ，就能够大幅降低前期基础设施建设成本，减少后期运行能耗。
可以说，思元370成功推出的背后，不仅是寒武纪研发人员的日夜努力，也是社会各行各业对更高效率AI芯片的迫切需求。正如恩格斯所说， “社会一旦有技术上的需要，则这种需要就会比十所大学更能把科学推向前进” 。
随着新一轮产业竞争与供应链争夺正在展开，对人工智能、数字化技术的需求只增不减。而各行各业更是向科创类产业企业界提出了前所未有的技术需求，在这种需求刺激下， AI创业企业的研发成果获得落地应用的机会更多，市场也更大。
乘风起势，市场的需求让AI芯片赛道涌入更多入局者，推动新技术的不断迭代，也让行业格局逐渐发生变动。
目前，英伟达在AI芯片领域仍具有最大的影响力。在全球云端训练芯片市场，英伟达基本是一家独大，其GPU+CUDA计算平台是应用最多的AI训练方案。在推理芯片领域，则呈现出百家争鸣的竞争生态，因为推理芯片更注重功耗、时延、成本等因素，且相比于训练芯片需求量更高，使用场景更广泛。
英伟达之外，英特尔、谷歌、IBM、AMD等巨头以及寒武纪等初创企业，都在AI芯片领域耕耘多年，并一步一步进行纵深研发。