腾讯发布万亿大模型训练方法：最快256卡1天训完万亿NLP大模型( 五 ) 允中发自凹非寺量子位|公众号

大模型压缩和分布式推理（太极-HCFToolKit）一个典型的预训练大模型应用流程如下所示，为了使大模型能够在可接受的推理成本下最大化业务效果，设计了一套“先蒸馏后加速”的压缩方案实现大模型的业务落地。
为此腾讯推出了太极-HCFToolKit ，它包含了从模型蒸馏、压缩量化到模型加速的完整能力。

文章图片
太极-HCFdistributed（大模型分布式推理组件）：我们采取了服务化teacher大模型来加速蒸馏训练，利用训练框架的分布式能力做大模型推理是一种简单直接的做法，但是训练框架在推理过程包含很多冗余的步骤，会占用额外的资源，造成不必要的浪费，且无法充分利用现有的单卡推理优化能力。
为此我们融合分布式能力和单卡推理优化构建了一套分布式推理的工具HCF-distributed ，它兼顾分布式高效推理能力的构建和易用性建设。
基于我们的分布式推理能力， HunYuan-NLP1T大模型推理只需96张A100(4G)卡，相比于megatron至少需要160卡，资源设备占用减少了40% 。
太极-SNIP（大模型压缩组件）：我们结合量化、稀疏化和结构化剪枝等多种加速手段，进一步加速了student模型的推理速度。
我们先将大模型蒸馏到较小(bert-base,bert-large)的中间规模，然后在此基础上利用模型压缩手段加速中间规模模型的推理速度，最终获得一个效果更好，推理更快的业务模型。
在技术上，我们从蒸馏框架和压缩加速算法两方面，实现了迭代更快，效果更好，成本更低的大模型压缩组件。
应用案例HunYuan先后支持了包括微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务，通过NLP、CV、跨模态等AI大模型，不仅为业务创造了增量价值而且降低了使用成本。特别是其在广告内容理解、行业特征挖掘、文案创意生成等方面的应用，在为腾讯广告带来大幅GMV提升的同时，也初步验证了大模型的商业化潜力。
接下来，我们通过样例展示混元AI大模型在对话生成和小说续写等场景下的能力。
对话应用案例

文章图片
小说续写应用案例[18]

文章图片
广告文案生成和衍生应用案例
广告文案生成：

文章图片
广告文案衍生：

文章图片
附录：混元顶会论文
文章图片
参考链接：
[1]BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstandinghttps://arxiv.org/abs/1810.04805
[2]RoBERTa:ARobustlyOptimizedBERTPretrainingApproachhttps://arxiv.org/abs/1907.11692
[3]ALBERT:ALiteBERTforSelf-supervisedLearningofLanguageRepresentationshttps://arxiv.org/abs/1909.11942
[4]LanguageModelsareUnsupervisedMultitaskLearnershttps://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
[5]ExploringtheLimitsofTransferLearningwithaUnifiedText-to-TextTransformerhttps://arxiv.org/abs/1910.10683
[6]T-NLGhttps://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/
[7]LanguageModelsareFew-ShotLearnershttps://arxiv.org/abs/2005.14165
[8]SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsityhttps://arxiv.org/abs/2101.03961
[9]PanGu-α:Large-scaleAutoregressivePretrainedChineseLanguageModelswithAuto-parallelComputationhttps://arxiv.org/abs/2104.12369