芯片|超30城火拼智算中心!从建起来到用起来,要越过这五道坎

芯片|超30城火拼智算中心!从建起来到用起来,要越过这五道坎

文章图片

【芯片|超30城火拼智算中心!从建起来到用起来,要越过这五道坎】芯片|超30城火拼智算中心!从建起来到用起来,要越过这五道坎

文章图片




作者 | 李水青
编辑 | 漠影
近来 , 对话式AI模型ChatGPT一夜间刷屏圈内外 , 自动驾驶模型训练速度提升超百倍 , AI助力靶向药研究成果频登顶刊……AI(人工智能)技术正更深入人们的生产生活 , 背后的算力需求呈现指数级增长态势 。
智能计算中心(简称:智算中心)是一种面向AI技术研发与应用的数据中心 , 专门满足海量而多元化智能算力需求 。
2023年1月10日 , 国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》(简称:《报告》) , 指出经过5年多发展 , 智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段 。

什么是智算中心2.0时代?我国智算中心发展面临什么样的真实挑战?随着当下各行各业数字化转型加快 , 作为数字化基础设施的智算中心的又遵循什么样的发展规律?回答这些问题具有很强的实际意义 。
近日 , 智东西通过对话智算中心领域代表企业中科曙光相关负责人 , 对这些问题进行了深入探讨 。 《报告》收录了多项先锋实践 , 其中 , 曙光凭借5A级智算中心、浸没式相变液冷技术、全国一体化算力服务平台等多项方案成果成为典型样板 。
一、超30城落地智算中心 , 1.0时代面临五大挑战
随着人工智能产业发展 , 我国智算中心建设自2017年以来按下快进键 , 进入十四五发展新时期更是被要求“适度超前发展” 。 根据《报告》 , 2017~2022年以来 , 我国超30城快速布局智算中心 , 涌现出包括京津冀大数据智算中心、长沙5A级智能计算中心等多个典型案例 。
曙光相关负责人告诉智东西 , 当下智算中心主要分为企业自建和公共基础设施 , 全国30城智算中心大多是第二种情况 , 用于支持地方产业AI化、AI产业化及智能化治理等 。
比如曙光目前在运营中的合肥、长沙等地中心 , 已为科学研究、工业制造、政务服务等多领域提供支撑 , 助药物研发、材料解析等近百项成果登上国际顶刊《Science》杂志 , 累计服务用户突破10万+ 。
根据《报告》 , 当下智算中心已逐渐赋能区域产业集群发展 , 但值得注意的是 , 其在多元算力融合、上下游协同、建设应用联动、能源消耗、使用价格等方面仍面临至少以下五大挑战:
1、通用算力和专用算力待融合 。 在自动驾驶、智慧医疗、智慧城市等不同场景中 , 算力需求不同 。 单一化算力方案难以满足多元算力需求 , 不能兼顾多产业和多领域 。
2、算力、算法和数据协同不足 。 这些年来建设的智算中心 , 不同的芯片平台、算法模型、数据库、应用层面部分处于垂直一体化“孤岛”状态 , 软硬件兼容性问题有待改进 。
3、投资建设运营有待联动 。 智算中心投资、建设和运营往往由不同主体负责 。 前期建设单位往往对建设后运营的模式、服务标准投入不足 , 出现了管头不管尾、建设运营割裂的现象 , 影响客户体验 。
4、碳排放和能耗高 。 设备自身的能耗排放带来非常大的挑战 , 比如OpenAI公司的超大规模预训练模型GPT-3训练所需的耗电量为19万千瓦时 , 相当于2021年人均用电量的228倍 。
5、投资成本和应用价格待规范 。 智算中心的投建成本较高 , 部分智算中心每100P半精算力的投资成本高达5-6亿元 , 远远高出正常市场价格 , 同时使用成本也较高 , 比如据保守估计GPT-3大模型训练费用超过1200万美元 。