Jeff Dean：我们写了一份“稀疏模型设计指南”，请查收( 二 ) 机器之心报道编辑：张倩、杜

接下来，他们研究了即将进入router的logit上的约束。 router以float32计算专家的概率分布。然而，研究者发现，在最大的规模下，这不足以带来可靠的训练结果。为了解决这个问题，他们引入了routerz-loss ，
其中， B是token的数目， N是专家数， x∈RB×N是将要进入router的logit 。
下表4显示，在三次运行中， updateclipping和routerz-loss都稳定了模型，但是updateclipping严重影响了模型的质量。因此，研究者使用z-loss方法来固定模型稳定性。

文章图片
routerz-loss引入了另一个超参数(c_z) ，这是一个加权系数，作为优化的总损失的一部分。总损失是交叉熵损失(crossentropyloss,L_CE)、辅助负载平衡损失(auxiliaryloadbalanceloss,L_B)和routerz-loss(L_Z)的线性加权组合。

文章图片
基于用超参数扫描进行预训练后的最佳模型质量，研究者选择c_z=0.001的值。附录B记录了预训练过程中的损失。
稀疏模型的设计
密集模型的设计受到Kaplanetal.(2020)的基础工作的指导。但是到了稀疏模型这里，还有无数的额外问题需要解决，比如：(1)使用多少专家？(2)使用哪种routing算法？(3)容量因子（capacityfactor）的值是多少？(4)硬件如何改变这些决策？在本文中，研究者给出的建议是：
1、在他们的设置中，他们推荐容量因子为1.25的top-2routing ，每个核心最多有一个专家；
2、在评估期间，可以更改容量因子，以适应新的内存/计算要求；
3、密集层叠加和乘法偏置（multiplicativebias）可以提高质量。
更多细节请参考原论文。

文章图片
【Jeff Dean：我们写了一份“稀疏模型设计指南”，请查收】论文链接：https://arxiv.org/pdf/2202.08906.pdf