Adam优化器（通俗理解）(adamax优化器)

编辑：rootadmin

Adam优化器（通俗理解）

推荐整理分享Adam优化器（通俗理解）(adamax优化器)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:adam优化器 pytorch,adam优化器与sgd比较,adam优化器与sgd比较,adam优化器的作用,adamw优化器,adam优化器使用,adam优化器全称,adam优化器的作用,内容如对您有帮助，希望把文章链接给更多的朋友！

网上关于Adam优化器的讲解有很多，但总是卡在某些部分，在此，我将部分难点解释进行了汇总。理解有误的地方还请指出。

Adam，名字来自：Adaptive Moment Estimation，自适应矩估计。是2014年提出的一种万金油式的优化器，使用起来非常方便，梯度下降速度快，但是容易在最优值附近震荡。竞赛中性能会略逊于SGD，毕竟最简单的才是最有效的。但是超强的易用性使得Adam被广泛使用。

Adam的推导公式：

解释：

第一项梯度就是损失函数对求偏导。

第二项为t时刻，梯度在动量形式下的一阶矩估计。

第三项为梯度在动量形式下的二阶矩估计。

第四项为偏差纠正后的一阶矩估计。其中：是贝塔1的t次方，下面同理。

第五项为偏差纠正后的二阶矩估计。

最后一项是更新公式，可以参考RMSProp以及之前的算法。

问题：

1. 梯度下降：不懂梯度下降建议先搞懂SGD优化器。

2. 动量：在之前的SGDM优化器中就被应用了。

3. 矩估计：不懂请看大学里面的《概率论与数理统计》。

4. 为什么需要偏差纠正：

这里只是讲讲我的理解。拿二阶矩估计来举例，各个的公式如下：

而我们实际上需要的是梯度的二阶矩估计，也就是。因此使用动量求出来的二阶矩估计是有偏的，需要纠正。我们对动量二阶矩估计求期望，可以通过等比数列公式得到与的关系：

因此，要得到，就需要除掉前面的系数（是一个常数，是贝塔2的t次方，t：t时刻）。

主要问题就是这些，其他的可以多看Adam之前一些优化器的资料，很多是一脉相承的。

本文链接地址:https://www.jiuchutong.com/zhishi/287178.html 转载请保留说明！

上一篇：最早的手机是什么(最早的手机是哪一年)

下一篇：【vue项目部署CSS失效】VUE部署后css样式加载无效和失效多种情况解决方案(vue写css)

相关产品

随机推荐

前辈们总结的几个SEO忌讳问题(前辈经验的作用)

苹果相册画笔在哪里(苹果相册里的画笔在哪里)

三星m2071清零方法(三星m2021清零方法)

换手机后微信群不见了怎么办(换手机后微信群聊在哪里找出来)

iphone连接wifi同时作为热点(连同样的wifi为什么苹果手机网速慢)

华为荣耀30pro+什么时候上市(华为荣耀30pro+什么水平)

手机插头发烫怎么回事(手机插头很烫)

手机突然电话没名字了(手机突然电话没了怎么回事儿)

什么是数据库安全的第一保障(什么是数据库安全性?DBMS有哪些安全措施)

华为荣耀怎么分屏操作(华为荣耀怎么分屏操作技巧)

电脑b站怎么下载视频缓存(电脑b站怎么下载原神)

谷歌服务框架安装失败怎么办(谷歌服务框架安装了谷歌商店还是闪退)

oracle存储结构正确的是(oracle存储过程简单实例)

苹果11是磨砂的吗(苹果11哪款是磨砂的)

苹果11系列都是双卡双待吗(苹果11系列都是lcd屏幕吗)

72mbps是多少兆的网速(72mbps相当于多少兆)

vivox27支持nfc吗(vivox27支持nfc么)

手机连接不上蓝牙耳机怎么办(手机连接不上蓝牙打印机怎么回事)

曲面屏的好处(手机曲面屏的好处)

电脑文件怎么发送到qq(电脑文件怎么发送到qq邮箱)

如何使用Windows 10系统自带的随意截图功能(如何使用windows的记事本创建文件)