AdaX:一个比Adam更优秀,带”长期记忆“的优化器

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

知行编程网 人工智能前沿 2年前 (2022-01-19) 25 0

前言 这篇文章简单介绍一个叫做AdaX的优化器,来自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介绍这个优化器的原因是它再次印证了之前在《硬核推导Google AdaFactor:一个省显存的宝藏优化器》一文中提到的一个结论,两篇文章可以对比着阅读。 Adam & AdaX AdaX的更新格式是 其...

扫一扫二维码分享