|AIGC元年,全球巨头进入人工智能决赛圈?( 三 )


所以大模型的“大”主要体现在两个方面 , 一个是AI模型自身的参数数量在呈指数级增加 , 另一个是用于训练AI的样本也在质和量上有着越来越夸张的提升 。
如果把AI模型比作人的大脑 , 那参数就相当于大脑中神经元的数量 。
早在2019年 , Open AI实验室核算了自2012年以来模型所用的计算量 。
从最早的AlexNet模型 , 就是在AI分类比赛中让卷积神经网络一战成名 , 是影响AI进程冠军模型 , 到AlphaGo Zero模型 , 即打败韩国围棋九段棋手李世石的AlphaGo增强版 , 七年里 , 两者之间参数指标增长30万倍 。
那些同时期堪称“最大”的AI训练模型所使用的计算量 , 呈指数型增长 , 平均3.4个月就会倍增 , 比芯片摩尔定律还要快 。
国内也是一样 , 百度2016年用于语音识别的DeepSpeech训练模型的参数是亿级 , 到了今天的用于绘画、写作、聊天的文心大模型中 , 也有多个模型参数达到了千亿级别 。
简单来说 , 大模型突出的就是一个“力大砖飞” , 让AI的能力在参数增加到某个阶段就突然获得从量变到质变突破性进展 。
这种“突现能力”的具体原因科学家还在研究 , 可能是代码、指令上的微调 , 还可能是AI在预训练的海量数据中偶然学到了类似问题的思维链参数 。
似乎只要参数够大 , 一切皆有可能 。
如果有一天AI像人脑一样 , 有百万亿个参数 , 那AI的智能可能真的可以和人类比肩 。

但这并没有那么容易 。
面对这么大的参数量 , 不管是百度还是谷歌 , 都认为自然语言处理对整个人工智能的未来都是非常大的挑战 。
因为整个AI框架的设计是否合理 , 芯片之间如何分配工作量 , 如何让更多的芯片满负荷运作 , 这些在实际应用中是很难同时达到完美状态的 。
总之 , 对于AI训练来说 , 巨大的参数代表着算力、技术与费用的暴增 , 而且产出并不是线性增长的 。 说不定100个AI芯片砸下去 , 也就比1个AI芯片提升了几倍的效率 , 投入效费比极速下跌 。
像OpenAI公司GPT-3这种千亿级别参数的大模型 , 一次训练的花销高达千万美元 , 而同样是马斯克创立的SpaceX , 一颗卫星成本也不过是五十万美元 。
据马里兰大学副教授Tom Goldstein粗略估计 , 如果100万ChatGPT用户平均每天只进行10次对话 , 那么Open AI就需要为ChatGPT每天烧掉10万美元(68万人民币) 。
而现在ChatGPT的对话水平只能说交流没问题 , 还远远到不了能够创造利润的地步 , 而未来每一次的训练进步 , 都是钱烧出来的 。
所以 , 短期来看 , 为每一个人配备钢铁侠贾维斯那样全知全能的AI看来是无望了 。
在国内 , 像是百度的文心大模型在不断推进算法、算力的同时 , 更加专注模型的效率 , 而且更加贴近产业落地应用 。
比如GPT-3很聪明 , 可以生成所有的结果 , 但它没有人类习惯的常识 。 比如AI绘画中 , 人的手指总是出问题 , 从三根四根到七根八根都可能出现 , 结果是精美的画面常常出现低级错误 。
这时候就需要给AI一个常识 , 帮助AI快速理解人类社会 。
而如果这个知识图谱足够专业、细致 , 那么大模型就能干更专业的事情 。
所以在庞大的参数基础上 , 文心大模型有两个突出特点——知识增强和产业级 , 知识增强也就是类似AI绘画海量图文匹配的大规模数据样本 , 比如文心一格就采用了10亿张图文来配对 , 大幅增强了模型对于知识的记忆与推理能力 , 学习效率更高 , 而且在实体问答、知识预测、可控文本生成上拥有更好的效果 。
为此 , 文心大模型背后还拥有一套从整个互联网世界自动挖掘知识的方法体系 , 突破了从无结构直言语言数据中挖掘大规模结构知识的技术瓶颈 , 让百度打造了拥有5500亿知识的多元异构超大规模的知识图谱 。