多名中国和硅谷的芯片从业者表示,壁仞这家中国GPU公司因技术上新尝试而受到来自全球芯片行业的关注程度,是近年中国公司少有“享受”的待遇 。
与瀚博不同,壁仞选择的路线是“一步到位”研发GPU 。在8月发布BR100后,9月,壁仞出现在全球最受瞩目的芯片行业会议HotChips上,在 GPU板块,跟在英伟达,AMD和英特尔之后做了主技术分享 。
“我发现BR100的架构思路很有意思,它打市场时显然不想完全沿着英伟达的思路去做 。”一名硅谷芯片行业的华裔资深架构师对品玩表示 。
“GPU采用多核结构,并行计算很厉害,但问题又来了,核数再多以后,数据和存储都要从一个门进出,虽然核内计算是很厉害的,但是数据和存储有瓶颈,就像我们经常说的CPU太快了,内存跟不上了,GPU的数据传输也遇到了问题,所以架构上各方面还要调整,比如说采用一些分布式的架构 。”中国互联网投资基金管理公司总经理李筱强说 。
我们可以把芯片设计类比为在一个固定面积的土地做城市规划:如何在有限土地上组织街区之间的大路,和一户户房屋之间的小路,决定了这个城市的最终运输效率 。
而根据多个芯片设计从业者的分析,从壁仞公开的架构设计来看,它用了大量的创新来提高这个运输网络的效率 。比如建设距离街区更近的停车场,并且用一种技术让这些停车场可以连通起来当作一个大停车场来调配;比如在它的两个城市之间建设足够快速的公路,从而让两个城市在人们的感受上也看起来像是同一个城市——BR 100 使用了Chiplet封装,但两个芯粒可以被软件识别为同一个GPU来运转 。
当然,同时也会牺牲一些其他的性能作为代价,比如计算的精度,以及高负载下的传输瓶颈 。以及,在实现Chiplet的环节,对由芯片制造厂掌握的新技术的依赖,也带来不小的不确定性 。
不过,前述硅谷芯片人士认为,壁仞能带着BR100上HotChips34去分享,就是因为它的设计思路里,有些地方的确是近几年GPU行业少见的尝试——哪怕不是完全新的东西,但英伟达这些年垄断不只是市场,也让其他公司对技术路线的野心少了许多,因为试错的代价高昂 。
据壁仞内部人士称,在2019年成立之初壁仞设定了自己的GPU设计出来后的算力必须达到英伟达当时产品的10倍 。而2019年,英伟达处在过渡到安培架构的过程,但当今年BR100推出时,英伟达最新的产品已经是Hooper架构下的H100 。不过测试数据显示,在矩阵乘法的吞吐量上,BR100的确与H100不相上下 。
在GPU领域,最接近“工业标准认定”的较权威评测,是MLPerf的比赛 。它由多个行业重要公司一同发起,简单来说,就是通过让各家产品来跑最主流的模型来考察它们的算力 。壁仞在HotChips上分享之后,9月第一次参加MLPerf,用BR100的“小弟”BR104芯片拿下两个全球第一,分别是一个主流的自然语言理解模型和图像分类模型 。
某种程度上,壁仞在今年就是全球华人芯片从业者最关注的焦点公司:一次采访中,壁仞科技CTO兼首席架构师洪洲也曾形容 “从90年代开始的20多年内成长起来的(华人)架构师,基本上都在我们这边 。”
“壁仞的节奏感很好,从发布到参加HotChips再到MLPerf,和目前定的量产节点,都是按整个芯片行业的最专业的标准在做 。如果最终可以在年底按计划量产,那这种把控力还是挺难的 。”上述硅谷人士称 。
“天天背着包到处跑客户”
芯片设计上有了突破,接下来的难题是芯片制造环节 。
有分析指出,美国商务部的最新限制,事实上是“假定拒绝”原则,据财新梳理,“运算速度达到4800TOPS (每秒1万亿次传输)、传输力达到600GB/s(每秒1G比特传输速率)的高性能计算芯片,都将被严格限制 。”而根据壁仞在HotChips的PPT介绍,其芯粒间传输速度达到896GB/s 。
- NVIDIA|越卖越贵!NV要放弃千元显卡 留给AMD玩?供应链称暂时不会 就问你买吗
- 华为|四款国产机皇本月发布:小米、华为、OPPO、iQOO哪款更强
- 华为|华为新品手表耳机二合一?论外观国产智能手表似乎不输苹果
- 显卡|顶配低价,混合降噪43dB,通勤降噪神器贝壳王子MO3 2代来了
- 谁说只有苹果手机售后好?明明我们国产手机,现在售后也很不错
- AMD|用了4年,终于发现了这款国产报表工具的魅力
- dido|智能手环市场再现国产黑马,24小时全面健康监测,dido Y1S初体验
- 百度网盘|国产知名网盘推永久 VIP,看到价格我跪了
- 芯片|国产芯片天花板!紫光展锐发布6nm旗舰芯片,可惜无法供货华为
- 芯片|国产存储芯片突然宣布最新技术突破,成功反超美日韩芯片