“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化

  Рет қаралды 9,177

王木头学科学

王木头学科学

2 жыл бұрын

随机梯度下降
牛顿法
动量法
Nesterov
AdaGrad
RMSprop
Adam

Пікірлер: 18
@yeee7059
@yeee7059 2 ай бұрын
優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。
@leowang11
@leowang11 2 жыл бұрын
淺簡易懂的數學解釋得很清楚 希望可以出一期講解 BERT 的影片
@user-jv8hv8vr2c
@user-jv8hv8vr2c Жыл бұрын
听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。
@swing4335
@swing4335 2 жыл бұрын
听完了,很棒,涵盖了基本的优化方法
@user-gl3lz7nl7x
@user-gl3lz7nl7x Жыл бұрын
對我幫助很大 感謝你的教學
@siyuanxiang1636
@siyuanxiang1636 2 жыл бұрын
讲的非常好👍感谢
@woodywan4010
@woodywan4010 2 жыл бұрын
講得太好了!
@ztc106
@ztc106 2 жыл бұрын
非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!
@genlinlin887
@genlinlin887 2 жыл бұрын
哇!讲得很好!!!!
@yuhao8430
@yuhao8430 7 ай бұрын
讲的太好了!!!
@zichenwang8068
@zichenwang8068 Жыл бұрын
来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化
@user-nr8oi6nv3r
@user-nr8oi6nv3r 2 ай бұрын
超棒的
@buzailunhui
@buzailunhui Жыл бұрын
大神,太厉害了
@user-yp2tp7so1t
@user-yp2tp7so1t 2 жыл бұрын
感謝你拯救了看不懂原文書的我!
@cabbagecat9612
@cabbagecat9612 Жыл бұрын
讲得太好了,狂点like十下! 对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。 但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。 另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。 没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!
@anonymous1943
@anonymous1943 2 жыл бұрын
你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了
@gaidou1941
@gaidou1941 2 жыл бұрын
高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子
@linHsinHsiang
@linHsinHsiang Жыл бұрын
動量法 adam
What it feels like cleaning up after a toddler.
00:40
Daniel LaBelle
Рет қаралды 70 МЛН
彻底弄懂,神经网络的误差反向传播算法
12:15
小黑黑讲AI
Рет қаралды 3,2 М.
「珂学原理」什么是牛顿迭代?
15:08
珂学原理
Рет қаралды 1,3 М.
7. 程序员的性格为什么那么轴,那都是有原因的
29:47
王木头学科学
Рет қаралды 5 М.
Optimizers - EXPLAINED!
7:23
CodeEmporium
Рет қаралды 113 М.
3.5: Mathematics of Gradient Descent - Intelligence and Learning
22:36
The Coding Train
Рет қаралды 240 М.
如何通俗地解释梯度下降法
6:09
马同学图解数学
Рет қаралды 6 М.
1$ vs 500$ ВИРТУАЛЬНАЯ РЕАЛЬНОСТЬ !
23:20
GoldenBurst
Рет қаралды 1,8 МЛН
iPhone, Galaxy или Pixel? 😎
0:16
serg1us
Рет қаралды 926 М.
Rate This Smartphone Cooler Set-up ⭐
0:10
Shakeuptech
Рет қаралды 1,1 МЛН
Как удвоить напряжение? #электроника #умножитель
1:00
Hi Dev! – Электроника
Рет қаралды 932 М.
САМЫЙ ДОРОГОЙ ЧЕХОЛ! В стиле Mac Pro
0:35
Romancev768
Рет қаралды 180 М.