-
斯坦福大学的研究人员推出了Sophia:用于语言模型预训练的可扩展的二阶优化器
鉴于训练语言模型的前期成本很高,对优化过程的任何非微不足道的改进都会大大减少完成训练过程所需的时间和金钱。长期以来,Adam及其变体是最先进的技术,而二阶(基于Hessian的)优化器由于其每步开销较大而很少被利用。 研究人员提出了一个对角线Hessian的轻量级估计,作为二阶优化器Sophia的预设条件,即二阶剪切随机优化。Sophia是一个新颖的优化器,它可以以两倍于Adam的速度解决LLMs…
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!