云计算|从去IOE到CIPU,中国云计算要走出自己的路径( 三 )


看未来 , 云计算终会突破单一企业成为公共资源 , 在线的数据是一种资源——这是美好的愿景 。 回到当下 , 以阿里云为代表的云计算大厂 , 到底要如何直面竞争?
“大家都在同一条起跑线上 , 大家都有同一个目标 , 怎么样把成本降到最低 , 把性能提到最高 。 所以这个投入不是说有没有什么选择 , 是没有选择的 。 ”张建锋接受在最近接受专访时提到 。
他的另一个表达更为直接:“我们(阿里云)要做的东西 , 本来就是更底层一点 , 但为了客户能用起来 , 我们已经自己用业务翻译了一层 , 搞各种数字化的项目 , 结果这个越搞越厚了 , 离云越来越远 。 ”
“商业模式越来越贴近用户的本质需求 , 但是对于下面的技术要求就会越来越高 。 你要管理好 , 才有利润 。 ”这句话是一个对整个行业的提醒 。
走向深度回归本质 。 对于云计算来说 , 答案无疑是底层技术 。 一方面 , 仅靠软件调度数据中心已经不足够 。 云计算面临挑战:另一方面 , 面临的新型数据计算难题 , 以及庞大的IT资源管理成本 , 在数据密集型新的计算场景下 , “低时延、高带宽”挑战有了新的“内涵” 。
云计算行业风云迭起 , 争夺不休 , 但核心未变:云计算作为IT行业的新兴技术 , 形态还在不断演进中 , 能抢先推出、推广新技术的云厂商 , 就有定义行业标准的机会 。 当数据量大到一定程度 , 必须解决成本线性增长问题 。 云计算底层就是要拼技术能力 , 来解决规模达到一定程度时候的成本和稳定性 。
十年过去 , 云计算已经经历了分布式和虚拟化技术替代了大型机 , 满足了当时企业所需的算力规模;以及资源池化技术 , 通过计算存储分离架构 , 将计算、存储、网络资源分别池化 , 突破了规模和稳定性的瓶颈 , 提供了超大规模的云计算服务 。 云计算最重要的特点是软件定义 , 但软件定义同时会带来的问题 , 系统的性能在传输中会有损失 。 从分布式到以CPU为中心的云时代 , 要满足下一阶段的技术要求 , 要在庞大的基础设施上 , 平衡灵活性和性能 。 这两个阶段的共性都是通过软件进行定义 , 基于传统的以CPU为中心的体系架构去做优化 。
云计算是规模经济 , 真正有能力做甚基础 , 等到临界点之后的爆发只有少数企业 。
阿里云现在承担着超大规模的复杂管理问题 。 全球27个国家和地区、84个可用区 。 更具体一点看 , 随着数据密集型计算越来越多 , 传统以CPU为中心的计算体系架构无法适应以CPU为中心的架构导致了计算和网络传输的时延大;大数据应用增多 , 导致数据中心内部数据迁移量增多 , 以CPU为中心的架构无法提供高带宽;管理的基础设施规模越来越大 ,
与英特尔、英伟达的路线不同(产业链上的供应商)的是 , 阿里云这次研发CIPU(Cloud infrastructure Processing Units)是通过云的规模、业务 , 客户云的需求 , 根据飞天操作系统从顶层定义 , 又根据垂直业务定义芯片 。
CIPU的研发是要协助或者说承载飞天云操作系统需要去纳管的整体编排、调度的上百万台服务 。 “飞天+CIPU” , 形成软硬件结合 。 CIPU向下接入物理的计算、存储、网络资源 , 快速云化并进行硬件加速;向上接入飞天云操作系统 , 管控阿里云全球上百万台服务器 , 让算力虚拟化损耗降到0 , 并通过规模化应用RDMA网络技术 , 让访问云端比访问本地硬盘更快 。
阿里云的解题思路在2021年已有雏形 , 张建锋曾指出阿里云发展的四个核心战略:做深基础、做厚中台、做强生态、做好服务 。 这其中 , “做深基础”投入最多、期望最高、挑战最大 , 同时也是阿里云的立足之本 。 要提供最好的计算产品和服务 , 就必须坚持自研 , 把“做深基础”做到极致 。