上海汽车报电子报

2024年6月9星期日
国内统一刊号:CN31-0035

上海汽车报他山之石 造车新势力的算力“军备竞赛”

按日期检索

12 2017
3
4

上海汽车报

电子报刊阅读器
放大 缩小 默认

造车新势力的算力“军备竞赛”

5月21日,小米科技创始人雷军直播小米SU7城市NOA(驾驶辅助系统)时,说了这样一句话:“目前,业内实现智驾全自研的,国内有7家公司,都是决心强大。”

雷军口中的“战国七雄”是谁?舆论场有无数组合。但是,当我们把目光聚焦在技术本身,一个关键词语在这两年成为证明车企自研智驾的决心,甚至引发暗自较劲的热词:训练算力,以及有关训练算力的资金投入。

这场算力大赛,在4月28日被特斯拉创始人马斯克直接拉到“天花板”。他在X平台(原推特)上说:“特斯拉今年预计将投资100亿美元,用于训练和推理相结合的人工智能,后者主要用于汽车。任何没有这种规模投入的企业,并且高效推进,没法玩(cannot compete)。”

100亿美元约合723亿元人民币,整个华为公司2023年的研发投入是1647亿元,723亿元是1647亿元的43.9%。

这笔钱让马斯克拥有了全球最多的“计算卡”储备:到2024年年底储备85000块英伟达H100(高端加速芯片),直接成为全球最大的“卡王”。如果说自动驾驶能够引发下一次生产力爆炸,那么目前谁拥有的训练算力越多,谁就更接近于造出第一颗自动驾驶“核弹”。

同样竞逐智能驾驶高峰的新势力车企,他们手握的智能驾驶“核弹当量”之间有没有距离?

E时代

算力语境中,E指的是Exa,1Exa翻译过来,就是10的18次方,即100亿亿。比如,在4月11日召开的鸿蒙智行春季发布会上,华为常务董事余承东表示,目前华为的云端训练算力已经达到了3.3EFLOPS(ExaFLOPS,每秒进行百亿亿次浮点运算能力),相比去年11月智界S7首次发布时公布的2.8EFLOPS,又提升了约20%。

为什么进入E级训练算力时代,对于智能驾驶如此重要?

训练training,在人工智能领域指的是学习,也就是用巨量数据“喂”出一个足够强大的神经网络模型;推理inference,指的是基于这个训练好的神经网络模型,使用新的、规模相对较小的现实数据,得出预测结果。常见的Orin X(英伟达智驾芯片),就是用于推理的小算力芯片;A100/H100(高端加速芯片)则是用于训练的大算力芯片。或者举一个很形象的例子,推理芯片是学生拿着现成的教材学习,训练芯片就像是教案组编写教材,两者的难度有本质不同。

结果就是掌握的智能驾驶训练算力越庞大,离那本“万能教材”就越近,起码在舆论层面可以营造这样的氛围。

“蔚小理华”的算力军备

“蔚小理华米”手里有多少训练算力资源?

有意思的是,目前来看,“蔚小理”三家各自有了不同的算力扩张方向。

在去年9月召开的NIO IN(蔚来技术创新)全栈技术发布会上,蔚来晒出了这样一张PPT:38100POPS(PetaPOPS,每秒一千万亿整数运算)的“群体智能车队算力”,约合38E,INT8精度(神经网络量化精度)看起来相当炸裂。在NIO Day 2020上,蔚来发布了NT2.0平台,4颗英伟达Orin X的配置堪称奢华。直到那张PPT晒出,大家才真正知道第4颗Orin X的用途(安全冗余)。

不过,根据NIO IN的信息,每台NT2.0上的其中一颗Orin X实际用于本地智驾路线的快速验证。所以,它不是传统意义上的“人工智能大模型训练”。实际上,NAD(蔚来自动驾驶)中央智能计算集群算力是1400P,约合1.4E(算力精度未公布)。38E群体算力,更像广义上智驾训练的其中一环,也是蔚来随着保有量上升,加速智驾功能实现的独家武器。

理想目前披露的信息不多,只有2023年的一些旧闻。去年6月,理想汽车智能驾驶副总裁郎咸朋表示,理想拥有1200PFLOPS的训练算力(精度未知),约合1.2EFLOPS。

不过,另一则消息透露了更多细节。去年6月,雷锋网报道,理想向字节跳动旗下数据服务公司火山引擎租用了300多台英伟达人工智能训练服务器,用于训练智能驾驶大模型,这一批服务器的总算力超过750PFLOPS。如果报道属实,那就意味着理想租用的是英伟达上一代人工智能服务器DGX A100,平均每个DGX A100的FP16精度算力为2.5PFLOPS,换算成FP8,就是5PFLOPS,累计约1500PFLOPS,约合1.5E。

租用服务器的好处是资产负担相对较小,尤其对于进展迅速的半导体行业:在2024 GTC大会上,英伟达拿出了A100的下一代再下一代产品,即B200(下一代产品是B100)。

当然,长期采用租赁的形式,对供应商能力的依赖、数据/模型交流的延迟都需要斟酌。

在小鹏汽车520 AI DAY发布会上,小鹏汽车创始人何小鹏表示,小鹏汽车今年会拥有超过7000张卡,每年会在算力上投入“7个亿”。

这两个数字是什么规模?

H100有很多版本,但只有最贵,也是最强的H100 SXM(H100的一种通用版本)可以组成延迟最低的DGX H100(AI专业基础架构第四代产品)训练服务器。

如果这7000张卡都是H100,也就是28000PFLOPS的FP8算力,换算下来,约合32E,放在“云端训练算力”语境中,竞争力当然极强。如果这7000张都是A100,那么估算结果大约为8.75E INT8(一种数据类型),也够卷了。

然后算算何小鹏的7亿元。闲鱼渠道显示,一台DGX H100的报价在250万元以上。换算下来,7亿元可以购买约250台DGX H100,其中包含2000颗H100 SXM,估算算力约为8个E。

预算+行情=实力,小鹏汽车这次是直接将牌甩在了桌上。当然,高达32个E的估算规模,能佐证何小鹏的信心:从国内来看,足够“梭哈”了。

华为系的算力,3.3EFLOPS的规模堪称庞大。而且在4月25日开幕的北京车展同期召开的华为乾崑发布会上,这个数字已经迭代到了3.5EFLOPS(算力精度未知)。

作为智能汽车新军,小米汽车尚未公布训练算力的具体规模。但是有一个大概的认知:想要维持“战国七雄”的地位,3个E的算力是起步。

全球第一当量?

4月24日,英伟达数据中心副总裁Norm Marks在北京接受采访时分享了这样一张图:各家客户目前已拥有的“DGX equivalant nodes”。这个词的意思,是手里的卡等效于多少个DGX H100节点,而非真的拥有这么多H100,因为还算上了A100。

可以看到第二位是一家OEM(主机厂),它有1866个等效DGX H100 Pods,算力规模大约是等效不到1.5万块H100。

第一位是第二位的四倍多,换算下来,大约是超过6万块H100的算力。

然后,Norm Marks来了句:“You know who it is.(笑)。”背景是,他说这句话的5个小时前,马斯克说到2024年年底,特斯拉会拥有超过8.5万块H100的算力规模。

85000块H100有多少算力?

一块H100的最高算力是3958T,85000块最高可达340EFLOPS(FP8),相当于三位数的Exa级算力。

这样写可能还不够直观,一块Orin X的算力是254T(INT8),340E大约就是133.9万块Orin X,相当于67万辆小米SU7 Max,或者其他采用了双Orin X的车型算力总和。

当然,马斯克给出了更广泛的语境“人工智能”,而不只是“自动驾驶”,但他还有另外一句话:“自动驾驶就是真实世界里的人工智能。”

马斯克手里的85000块H100,组成了2024全球智能汽车领域的究极核弹,“自动驾驶就是真实世界里的人工智能”这句话,可能会成为这颗“核弹”的引爆按钮。

算力看不见,摸不着,但算力制霸背后需要极大的资源投入,从资金本身,再到数据运转的体系,甚至企业“梭哈”自研智驾的决心。(文章来源:第一电动网)

放大 缩小 默认
关于我们 | 企业公示 | 手机版
主办单位:上海汽车报社有限公司 备案号:沪ICP备16052313号-2