先进封装最强科普( 二 )


一个新的晶圆厂需要4到5年的时间才能建成并具有生产价值 。 不是解决今天的危机 , 投资于未来 , 不要选择向后投资 。 相反 , 我们应该将所有设计迁移到新的现代节点 , 为未来增加供应和灵活性做好准备 。
Intel的问题在于 , 当从古老的节点转移到相对现代的节点时 , 这些设计将受到pad限制 。 由于每mm2的成本较高 , 单位成本经济学在这里不起作用 , 因为由于pad有限 , 芯片面积不能很好地缩放 。 除了这些成本之外 , 由于必须在较新的节点上重新设计旧芯片和整个重新认证过程 , 因此一次性成本也很高 。 将旧芯片移到新节点的解决方案是不可行的 。
那么如何增加IO计数呢?
一种途径是寻找使芯片更大的方法 。 面积越大 , IO的空间就越大 。 这不是最佳途径 , 但设计人员会经常增加芯片上的内存 , 以便在芯片上存储更多数据 。 这反过来又在一定程度上减少了IO需求 。 AMD最近的架构就是一个很好的例子 , 因为它们在CPU和GPU上都有巨大的缓存 。
AMD将其命名为InfinityCache(无线缓存) 。 解决方案是通过提供大量的片上SRAM来存储处理器中与计算最相关的数据 , 从而降低内存带宽要求 。 在GPU领域 , AMD明确表示他们能够通过添加无限缓存将GDDR6总线大小从384位减少到256位 。 苹果在这方面也很积极 , 在他们内部设计的处理器上塞满了大量的缓存 。 这些设计选择的一个组成部分与功率有关 , 但很大一部分也是由于pad限制 。
另一种途径是添加各种专用电路以提高芯片效率 。 我们在大量的异构计算中看到了这一点 。 回到我们的AppleA15芯片分析 , 令人惊讶的是CPU或GPU的专用区域如此之少 。 这是人们谈论最多的两个方面 。 Apple没有专注于这些营销方面 , 而是将大量区域用于其他功能 。 虽然没有标注 , 但右下角主要是图像信号处理器 。 这块巨大的部分正在做与拍照和视频相关的计算 。 还有另一个未标记的块与媒体编码和解码相关的计算有关 。 在SoC周围 , 可以找到这些相当小的统一矩形 , 它们是SRAM缓存 , 可将更多数据保存在芯片上 , 而不必进入内存 。
先进封装最强科普
文章图片
这些工作负载不能在传统CPU上运行 。 AI的模型越来越大 , Facebook的深度学习推荐系统模型有超过12万亿个参数 。 不断膨胀的模型尺寸致力于让你在应用上停留更长时间并点击更多广告 。 谷歌开发了自己的芯片 , 用于人工智能模型的训练和推理 , 称为TPU 。 随着VCU(一种新型处理器)的出现 , 他们扩大了在芯片工作的研究 , 如果专用于同一任务 , 它能够取代1000万个CPU 。
亚马逊有定制的网络芯片 , 也运行他们的管理程序和管理堆栈 。 他们拥有自己的芯片 , 专门用于AI训练、AI推理、存储控制和CPU 。 当你查看Marvell和BroadcomASIC服务的重点时 , 就会发现 , 硬件设计和架构的分散性只会增加 。
就连英特尔 , 这家认为每个工作负载都应该在CPU上运行的公司 , 也认识到唯一的前进道路是异构设计 。 与针对每项任务的通用CPU硬件不同 , 该行业正在采用常见的工作负载并专门为它们构建芯片 。 这使架构师能够获得更高的每单位硅性能 。
长话短说 , 除了CPU之外 , 专用集成电路的异构集成是至高无上的 。 不过 , 更多内存和更多异构计算并不是万能的 。 虽然通过增加内存和异构计算来增加芯片尺寸对于消除pad限制和提高能源效率非常有用 , 但这些都是要花钱的 。 很多钱 。
更多的芯片面积意味着更多的引脚、更多的集成功能 , 但这也是成本失控的绝妙方法 。 并且芯片尺寸已经达到极限 。 例如 , 看看英伟达或英特尔的数据中心阵容 。 两者都接近“标线限制”超过5年 。 即使他们愿意 , 他们也无法继续制造更大的芯片 。 芯片收缩已经大幅放缓 , 助长了这个问题 。