gpu|干货3个重要因素，带你看透AI技术架构方案的可行性( 三 )

2、采用预训练模型也是降低数据需求量的一个很好的办法，迁移学习已经在图像分类问题上广泛运用，BERT模型也将预训练模型带入自然语言处理的大门。在一些特定问题上，如果能找到合适的预训练模型，再加之少量自己的数据进行微调，不但对数据的需求量降低，训练时间也大大降低，一举两得。只是合适的预训练模型可遇而不可求。
3、还有一个减少数据需求的变通的办法是采用少量数据先“启动”，然后不断获取数据，并加快模型更新频率，直至采用“在线学习”的方法。这里实际上是将总的数据需求，拉长到时间维度去解决。当然，这里也需要业务上允许前期模型的准确度不是那么高，随着数据的增多和模型的不断更新，逐步达到预期效果。
举个例子，酒店shopper类产品的售卖，为了加快展现速度，通常采取供应商数据预抓取的方式落地。但供应商给的QPS极其有限，每次只能抓取一个酒店，高频率的抓取可以保证酒店数据的新鲜度，给客人更好的体验；低频率的抓取因库存、价格信息时效性不能保证，往往就会导致预定失败，造成损失。因此，如何在酒店间合理的分配QPS就是一个典型的机器学习问题。
我们从酒店热度、预定周期、节假日等多个维度进行了特征挖掘，最后却发现“季节”这个关键因素，我们却提取不到有效特征，原因是数据仓库里只有三个月的数据，也就是只有当季的数据。
为了解决这个问题，我们重新设计了模型，调整了架构方案，采用“在线学习”的方式，将模型更新问题纳入到了解决方案中。原始数据只用来训练一个初始模型，上线后，模型不断拿新产生的数据并进行迭代更新，同时对时间线更近的数据赋以更高的样本权重，以此来保证对季节性因素的跟进。系统上线后，取得了很好的效果。
4、强化学习在初始数据缺乏的情况下，大多数时候也是一个备选方案。强化学习采用“试错”的方式，不断演化，并最终学到规律。当然这需要业务模型做相应的调整，同时，如果演化周期过长，那有可能模型在前期相当长的时间内，都不能做出较优的决策，因此需要业务容忍度较高。
算力
众所周知，训练过程是一个典型的“计算密集型任务”，没有强大的算力，是难以支撑算法模型的训练和研究的。做机器学习的计算平台，GPU几乎是标配，其训练时间比CPU一般能缩短5倍以上。
目前，主要有自建和租赁云平台两种途径获取。如果“不差钱”，当然可以选择自建，但现在GPU升级换代太快，基本一年一换。对于做机器学习的GPU来说，运算速度是关键，很可能花了大价钱搭建的GPU集群，过几年却变成了一台“老爷车”。
租赁云平台虽然可以随时享受最新GPU运算速度带来的“快感”，但所需花费的精力也不少。不但要详细对比每家云平台提供的服务和成本，还要合理的搭配CPU和GPU，做到资源利用最大化。
说了这么多，提的最多的可能就是“成本”和“收益”这两个词了，这也是业务最关心的问题。无论是计算资源还是系统架构，上一套AI架构的解决方案都是需要投入相当大的成本的，如果选择得当，在一个合适的场景下，AI也是能带来相当不错的收益；但如果入不敷出，选择AI架构的解决方案就要慎重了。
最后，技术人员储备和法律因素也是上AI架构前需要考量的问题，前阵子还发生了国家工信部约谈AI换脸应用企业的事件。
AI是一场浪潮，它不仅带来了新的技术和行业，也给了老系统焕发新生命活力的机会。作为技术人员，我们不仅要拥抱新技术带来的挑战，更要清楚其技术选型的主要因素和背后的风险，这样才能屹立浪潮之巅。那么，你是否需要AI架构的解决方案呢？