5G|三问CIPU,阿里云的葫芦不卖“药”

5G|三问CIPU,阿里云的葫芦不卖“药”

文章图片


作者 | 魏启扬
来源 | 洞见新研社

不久前结束的阿里云峰会上 , 阿里云释放了一枚“重磅炸弹” , 发布了一款自研的云数据中心专用处理器 , 这款处理器取名为CIPU(Cloud Infrastructure Processing Units 数据中心专用处理器) 。
很多媒体都对CIPU的功能特点进行了非常详尽的解读 , 我们就不再赘述 。
简而言之 , CIPU是一颗云端处理器 , 向下接入物理的计算、存储、网络资源 , 快速云化并进行硬件加速;向上接入飞天云操作系统 , 管控阿里云全球上百万台服务器 。

图源:阿里云官方
无论是阿里云公布的数据指标 , 还是业内专家的评价 , 都指向一个结论——CIPU很NB , 它让中国在争取云计算的定义权中 , 处在有利位置 。


“阿里云提出的CIPU技术 , 把上一代计算架构的中心完全打破了 , 在基础技术上实现了世界领先 , 跟国际巨头站在同一个起跑线上 。 ”
——中国工程院院士郑纬民
不就是一颗芯片嘛 , CIPU到底有啥特殊 , CIPU对于阿里 , 对于整个云计算行业而言 , 又意味着什么
01 , 已经有CPU了 , 为什么还需要CIPU?一般来说 , 驱动创新的力量有两个 , 要么是解决已有问题 , 要么是创造新的机会 。
CIPU诞生则是这两股力量兼而有之 。
我们先来看看云计算发展到现在到底出了什么问题 。
阿里云智能总裁张建锋(花名:行癫)将云计算过去十多年的发展总结成两个阶段:
第一阶段是分布式和虚拟化技术替代了大型机 , 满足了当时企业因业务扩张而带来的算力弹性需求;
【5G|三问CIPU,阿里云的葫芦不卖“药”】第二阶段出现了资源池化技术 , 通过把计算和存储资源分离 , 然后再规模化编排和调度 , 形成了超大规模的计算和存储资源池 。
这两个阶段 , CPU在云计算体系架构中都是无可争议的C位 , 可随着以大数据应用为代表的数据密集型场景越来越多 , 海量数据在不同系统中搬运计算 , CUP维持”C位”逐渐变得“力不从心” , 这种以CPU为中心的传统架构的短板也暴露出来了 。
首先是慢 。
在分布式体系架构下 , 很多大型应用会分散在多个子系统中去部署 , 这就对各系统之间的延迟提出了很高的要求 , 此外 , 由于大数据应用的增长 , 数据中心内部数据的迁移流量也在增大 , 这对网络带宽又是一个挑战 。
其次是超大规模的复杂管理 。
这里既包含了云计算超大规模基础设施的硬件管理 , 也有云内部超大应用、复杂应用的管理 。 像阿里云在全球27个国家和地区、84个可用区、2800个网络节点 , 运营着上百万台服务器 , 服务着全球400多万客户 , 如此大的规模 , 其中的管理难度和成本超乎想象 。
矛盾点在于 , CPU最开始时并不是为了搭载云操作系统而设计的 , CPU的优势是单核性能强 , 在指令性计算任务处理时 , 性能优异 , 但对数据处理并不擅长 , 数据吞吐能力弱 , 一旦遇到分布式大数据系统就要消耗大量的资源用于数据搬运 。
针对上述短板 , 英伟达和英特尔分别给出了DPU和IPU两个解决方案 。
DPU做的是集成加速平台 , 即对CPU部分功能进行卸载 , 优化 , 减轻CPU的负担 , 侧重解决数据迁移带宽不够用 , 速度“慢”的问题 。
IPU强调虚拟化云化能力 , 通过网络虚拟化、存储虚拟化、网络存储管理以及安全等功能 , 加速网络基础设施 , 释放CPU核来提高应用程序性能 , 侧重解决“超大规模复杂管理”的问题 。