“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化

  Рет қаралды 9,175

王木头学科学

王木头学科学

2 жыл бұрын

随机梯度下降
牛顿法
动量法
Nesterov
AdaGrad
RMSprop
Adam

Пікірлер: 18
@yeee7059
@yeee7059 2 ай бұрын
優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。
@leowang11
@leowang11 2 жыл бұрын
淺簡易懂的數學解釋得很清楚 希望可以出一期講解 BERT 的影片
@user-jv8hv8vr2c
@user-jv8hv8vr2c Жыл бұрын
听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。
@swing4335
@swing4335 2 жыл бұрын
听完了,很棒,涵盖了基本的优化方法
@user-gl3lz7nl7x
@user-gl3lz7nl7x Жыл бұрын
對我幫助很大 感謝你的教學
@siyuanxiang1636
@siyuanxiang1636 2 жыл бұрын
讲的非常好👍感谢
@woodywan4010
@woodywan4010 2 жыл бұрын
講得太好了!
@ztc106
@ztc106 2 жыл бұрын
非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!
@genlinlin887
@genlinlin887 2 жыл бұрын
哇!讲得很好!!!!
@yuhao8430
@yuhao8430 7 ай бұрын
讲的太好了!!!
@zichenwang8068
@zichenwang8068 Жыл бұрын
来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化
@user-nr8oi6nv3r
@user-nr8oi6nv3r 2 ай бұрын
超棒的
@buzailunhui
@buzailunhui Жыл бұрын
大神,太厉害了
@user-yp2tp7so1t
@user-yp2tp7so1t 2 жыл бұрын
感謝你拯救了看不懂原文書的我!
@cabbagecat9612
@cabbagecat9612 Жыл бұрын
讲得太好了,狂点like十下! 对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。 但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。 另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。 没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!
@anonymous1943
@anonymous1943 2 жыл бұрын
你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了
@gaidou1941
@gaidou1941 2 жыл бұрын
高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子
@linHsinHsiang
@linHsinHsiang Жыл бұрын
動量法 adam
Heartwarming Unity at School Event #shorts
00:19
Fabiosa Stories
Рет қаралды 18 МЛН
تجربة أغرب توصيلة شحن ضد القطع تماما
00:56
صدام العزي
Рет қаралды 58 МЛН
ТАМАЕВ УНИЧТОЖИЛ CLS ВЕНГАЛБИ! Конфликт с Ахмедом?!
25:37
如何用面条计算圆周率π?蒙特卡罗方法与布丰的面条
24:01
ChatGPT:自然语言处理技术发展史
14:31
赛博兔Sara
Рет қаралды 3,8 М.
任务109: 梯度下降法
23:33
William
Рет қаралды 2,5 М.
7. 程序员的性格为什么那么轴,那都是有原因的
29:47
王木头学科学
Рет қаралды 5 М.
6. 软件工程背后的思想是如何影响编程的
47:32
王木头学科学
Рет қаралды 9 М.
教科书为什么反人性?我们还可以如何学?
23:54
王木头学科学
Рет қаралды 3,3 М.
Top 50 Amazon Prime Day 2024 Deals 🤑 (Updated Hourly!!)
12:37
The Deal Guy
Рет қаралды 1,4 МЛН
iPhone socket cleaning #Fixit
0:30
Tamar DB (mt)
Рет қаралды 15 МЛН
Klavye İle Trafik Işığını Yönetmek #shorts
0:18
Osman Kabadayı
Рет қаралды 6 МЛН
Зачем ЭТО электрику? #секрет #прибор #энерголикбез
0:56
Александр Мальков
Рет қаралды 633 М.