【人工智能】如何搭建10万个H100的GPU集群 | 40亿美元成本| 电力150兆瓦 | 并行化挑战 | 网络拓扑结构 | 可靠性与恢复 | 成本优化

  Рет қаралды 7,949

Best Partners TV

Best Partners TV

4 күн бұрын

今天我们来聊一个非常硬核,但是对于一般人来说可能不一定有用的话题,那就是如何搭建一个10万个H100 GPU的集群。
原文链接:www.semianalysis.com/p/100000...
成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利:
/ @bestpartners
#人工智能 #gpu #h100

Пікірлер: 59
@FooFighter5212
@FooFighter5212 2 күн бұрын
我也是飘了,连这样的节目也敢看了😂
@auroroabc
@auroroabc Күн бұрын
还开了倍数……
@carloshsueh9195
@carloshsueh9195 Күн бұрын
演算法真是太看得起我了,還推薦我這樣的影片,可見對我還有點期待😂
@austinsu5838
@austinsu5838 2 күн бұрын
早說嘛!原來這麼簡單,明天就來搭建一套😂
@bestpartners
@bestpartners 2 күн бұрын
赞,我就知道有人有一片园区的😁
@kangcc912
@kangcc912 14 сағат бұрын
是不是可以戰略合作。 google、open AI等 共同搭建,各自訓練。 以君子協議 或其他契約 限制公開的D day, 可能同時同天,也可能基於其他參數調整發布的先後順序。
@fan5188
@fan5188 Күн бұрын
哇,原来跟我一起看大飞视频的还有Nvidia的大佬。十分荣幸😊
@samzong
@samzong 20 сағат бұрын
真硬核,学习到了
@scchen2011
@scchen2011 Күн бұрын
很棒的一集,benchmark的算力作法😊😊
@changxu21
@changxu21 2 күн бұрын
让我想起了五六十年代的巨型计算机,而算力还不如当今的计算器。也许大飞描述的10万卡,再过十年也就一个机柜的算力。
@bestpartners
@bestpartners 2 күн бұрын
嗯,真搞不好
@Guavaava
@Guavaava 2 күн бұрын
​@@bestpartners感觉很难。现在制程升级速度慢了很多很多
@shixiancui6870
@shixiancui6870 Күн бұрын
@@Guavaava 算法上还有很多的可以优化的
@zhaocaixiaoDU
@zhaocaixiaoDU 2 күн бұрын
优秀
@user-zb7ex4ue3y
@user-zb7ex4ue3y 2 күн бұрын
謝謝
@wonmanintp
@wonmanintp 23 сағат бұрын
老馬就要建個10萬個H100,再建個30萬顆GB200 總價要90億美刀
@icatzhao6780
@icatzhao6780 2 күн бұрын
牛逼啦
@user-fp2xk6tu9l
@user-fp2xk6tu9l Күн бұрын
不管在簡單的工作,當它的規模大到一定程度的時候,都會變成極度複雜的工程
@zhiboli8306
@zhiboli8306 2 күн бұрын
学习了,虽然大概率用不到🤣
@zohar6006
@zohar6006 2 күн бұрын
老黃都幫你安排的整整齊齊
@mactive
@mactive 3 күн бұрын
大飞以后会有机会搭建的
@HarimotoSatoshi
@HarimotoSatoshi Күн бұрын
大飞忘记讲最关键的一个话题,即如何搞定40亿美元,期待更新中😂😂😂
@bestpartners
@bestpartners Күн бұрын
哈哈,这是个好话题
@zcq6516
@zcq6516 2 күн бұрын
只要scaling law没有看到尽头,集群的规模也看不到尽头
@havenqi3261
@havenqi3261 2 күн бұрын
指明了devops的未来😂
@yangyang1412
@yangyang1412 2 күн бұрын
哥 你很幽默喔 你覺得你的ta有誰有能耐或需求要知道怎樣搭100k h100 cluster
@vincentwang9599
@vincentwang9599 3 күн бұрын
这期硬核系列 不过依旧感兴趣 对想了解AI产业的人来说 (大飞最近换收音设备了吗)
@bestpartners
@bestpartners 3 күн бұрын
没换,是收音有什么问题么
@vincentwang9599
@vincentwang9599 3 күн бұрын
@@bestpartners没什么问题,不过听上去有种空旷感,个人感觉是回音造成的。
@bestpartners
@bestpartners 3 күн бұрын
@@vincentwang9599 好的,我看看怎么调整下
@kaizhu1142
@kaizhu1142 2 күн бұрын
Leaf交换机就可以,不需要翻译成叶交换机。
@bestpartners
@bestpartners 2 күн бұрын
ok
@changxu21
@changxu21 2 күн бұрын
我想问一下各位大佬,未来ai算力是趋于集中还是趋于分散或者分布式?对于2-5年没什么好讨论的集中更多算力才能训练更大的模型,如果把时间尺度放到10-20年是一个什么趋势?
@hubertw9752
@hubertw9752 Күн бұрын
个人认为:基于目前的GPU技术,AI算力希望不断扩容但是电力无法支撑算力集中,趋势是跟随电力资源去分布算力。如果下一代专门针对LLM的TRANSFORMIER计算的专用芯片成功推出,能耗承几十倍的下降,算力分布会向集中靠拢。电力的供应和消耗成为驱动因素。
@changxu21
@changxu21 Күн бұрын
似乎有些思路了,也就是说算力本身是趋向于集中,而受限于电力供应,不得不考虑能源分布,而导致算力分散。是这个意思吧?从生物界也许能推出这个结论,单个生物体的神经元规模越来越大,就像人类为了发育足够的脑容量,"早产"出生。
@hubertw9752
@hubertw9752 Күн бұрын
@@changxu21 目前GPU的解决方案是把并行计算发挥到及至,在处理有大量数据背景的AI问题上远超CPU。就是老黄说的“加速运算”。但都是数据及运算分离的,大量资源消耗在数据搬运上,所以能耗惊人。因为电力瓶颈所以算力分散。美国好像目前有多达16家创新公司在搞核电。哪天核能突破,电力瓶颈就会消失。即便算力集中了可是数据中心的位置又会受到散热、水源左右,会建在远离城市的海边、湖边或两极;人脑不然,860多亿神经元,整个功率大概20W。据称结构是存算一体的。计算机是硅基的而人脑是碳基的。从材料到信息原理,人脑到底是如何工作已经能否被“仿生” 还是一个未知数,无法类比。
@LeonZhangxiaolin
@LeonZhangxiaolin 2 күн бұрын
膜拜这位大佬,求联系方式
@bestpartners
@bestpartners 2 күн бұрын
原文链接放视频简介里了
@user-it7ds3px6b
@user-it7ds3px6b 2 күн бұрын
我支持核電
@netoearth
@netoearth 2 күн бұрын
冯诺依曼体系不存在了,物理学不存在了,超高速网络,存储,架构全部需要重新设计了,苹果还在死守8G不动摇!
@yanjh222
@yanjh222 2 күн бұрын
讲个好故事,找马一龙啊
@Guavaava
@Guavaava 2 күн бұрын
我好像读了这篇文章的一部分,因为舍不得花钱订阅读全文😂
@bestpartners
@bestpartners 2 күн бұрын
其实最后就剩了一点了,不多了,免费可阅读的部分占了 85% 左右
@Guavaava
@Guavaava 2 күн бұрын
@@bestpartners 舍不得花钱看全文的人肯定都没有40亿😂
@mengmeng4312
@mengmeng4312 2 күн бұрын
😂😂😂
@LindaZhang-fh2ck
@LindaZhang-fh2ck 2 күн бұрын
好奇怪谁会有需要看这个,老黄要沦落到这样推销的地步还需要一些时间吧。
@frank_zhao
@frank_zhao Күн бұрын
可惜只是泛泛讲了下,没有细节
@bestpartners
@bestpartners Күн бұрын
还得多细啊,你是有40亿美元打算搭一个么😁
@frank_zhao
@frank_zhao Күн бұрын
细节比如用备份设备替换,那业务要怎么适配,如何替换故障轨道的gpu;再比如为什么是7:1收敛比,有什么讲究,阿里是15:1,等等了
@frank_zhao
@frank_zhao Күн бұрын
没别的意思呀,我只是想了解些细节,因为自己不懂
@bestpartners
@bestpartners Күн бұрын
@@frank_zhao 没事,这得有机会慢慢做了,随便一个问题拿出来可能都得讲半天了
@yuguo7138
@yuguo7138 2 күн бұрын
谁借我40亿美元我自己搭个练习一下。
@user-qz9mx8pr4r
@user-qz9mx8pr4r 2 күн бұрын
本来以为会增加一些没用的知识,可点进来之后,虽然每个字我都认识,但说的是啥?一句没听懂!!😮‍💨😮‍💨😮‍💨
@3742185
@3742185 2 күн бұрын
有40億美元我還不放著給他生利息就可以過上好日子了,幹嘛瞎折騰
@corgirun7892
@corgirun7892 2 күн бұрын
懂了,这是博通的带货广告
@bestpartners
@bestpartners 2 күн бұрын
博通得给我广告费了🤣
@forcebender5079
@forcebender5079 2 күн бұрын
这集的标题应该是:“如何让NVIDIA的显卡卖的更快”,没兴趣看广告,撤了。
@bestpartners
@bestpartners 2 күн бұрын
嗯,我应该管老黄要广告费啊🤣
He sees meat everywhere 😄🥩
00:11
AngLova
Рет қаралды 10 МЛН
Wait for the last one! 👀
00:28
Josh Horton
Рет қаралды 132 МЛН
WHO DO I LOVE MOST?
00:22
dednahype
Рет қаралды 80 МЛН
NVIDIA Unveils "NIMS" Digital Humans, Robots, Earth 2.0, and AI Factories
1:13:59
How AI was Stolen
3:00:14
Then & Now
Рет қаралды 572 М.
Learn RAG From Scratch - Python AI Tutorial from a LangChain Engineer
2:33:11
时事大家谈:颁布农村集体经济组织法,习近平继续开倒车?
30:32