Jeff Dean:我们写了一份“稀疏模型设计指南”,请查收( 二 )
接下来 , 他们研究了即将进入router的logit上的约束 。 router以float32计算专家的概率分布 。 然而 , 研究者发现 , 在最大的规模下 , 这不足以带来可靠的训练结果 。 为了解决这个问题 , 他们引入了routerz-loss ,
其中 , B是token的数目 , N是专家数 , x∈RB×N是将要进入router的logit 。
下表4显示 , 在三次运行中 , updateclipping和routerz-loss都稳定了模型 , 但是updateclipping严重影响了模型的质量 。 因此 , 研究者使用z-loss方法来固定模型稳定性 。
文章图片
routerz-loss引入了另一个超参数(c_z) , 这是一个加权系数 , 作为优化的总损失的一部分 。 总损失是交叉熵损失(crossentropyloss,L_CE)、辅助负载平衡损失(auxiliaryloadbalanceloss,L_B)和routerz-loss(L_Z)的线性加权组合 。
文章图片
基于用超参数扫描进行预训练后的最佳模型质量 , 研究者选择c_z=0.001的值 。 附录B记录了预训练过程中的损失 。
稀疏模型的设计
密集模型的设计受到Kaplanetal.(2020)的基础工作的指导 。 但是到了稀疏模型这里 , 还有无数的额外问题需要解决 , 比如:(1)使用多少专家?(2)使用哪种routing算法?(3)容量因子(capacityfactor)的值是多少?(4)硬件如何改变这些决策?在本文中 , 研究者给出的建议是:
1、在他们的设置中 , 他们推荐容量因子为1.25的top-2routing , 每个核心最多有一个专家;
2、在评估期间 , 可以更改容量因子 , 以适应新的内存/计算要求;
3、密集层叠加和乘法偏置(multiplicativebias)可以提高质量 。
更多细节请参考原论文 。
文章图片
【Jeff Dean:我们写了一份“稀疏模型设计指南”,请查收】论文链接:https://arxiv.org/pdf/2202.08906.pdf
- 小米|刚发布的小米12 Pro,居然还打不过小米10?我们来了一场横评对比
- 浏览器|工信部出手!我们最讨厌的上网操作,要凉了
- |微信支付或“取消”?我们账上的余额会“清零”吗?准确答案来了!
- 软件|周鸿祎:我们为何没有独立软件生态?
- 手机拍照已成我们硬性需求,透过新机配置,我仿佛看穿大势
- 直播|视频号直播该怎么玩?首播冲破双10万+后,我们的内部复盘与思考
- m苹果不需要折叠屏MacBook
- 3G网络|谁在“谋杀”我们的3G网络?
- reno|专访 OPPO 李杰:Find X5 系列是我们重新找回的冒险精神
- 销售额|吴婷:如果公司的宿命是衰亡,我们该如何扭转局面?