上海汽车报电子报

2023年6月25星期日
国内统一刊号:CN31-0035

上海汽车报他山之石 争夺AI入场券:科技公司竞逐GPU

按日期检索

12 2017
3
4

上海汽车报

电子报刊阅读器
放大 缩小 默认

争夺AI入场券:科技公司竞逐GPU

相比海外巨头,中国大型科技公司采购GPU更为急迫。在过去两年的降本增效中,一些云计算平台减少了GPU采购,储备不足。此外,谁也不敢保证,今天能购买的高性能GPU,明天会不会受到新的限制?

从砍单到加购,同时内部腾挪

今年年初之前,中国大型科技公司对GPU的需求不温不火。

GPU在中国大型互联网科技公司主要有两个用途:一是对内支持业务和做一些前沿AI研究,二是把GPU放到云计算平台对外售卖。

阿里曾在2018-2019年积极采购GPU。一位阿里云人士称,当时阿里的采购量至少达到上万块规模,购买的GPU更多给到了阿里云,用于对外租赁。但是,包括阿里云在内,一批中国云计算公司高估了中国市场的AI需求。一位科技投资人称,大模型热潮来临前,国内主要云厂商的GPU算力不是紧缺,而是愁卖,云厂商甚至得降价卖资源。去年,阿里云先后进行6次降价,GPU租用价格下降超过两成。

然而,没过多久,到了2022年年初,ChatGPT改变了所有人的看法,并很快达成共识:大模型是不容错过的大机会。

各公司创始人亲自关注大模型进展:字节跳动创始人张一鸣开始看人工智能论文;阿里巴巴董事局主席张勇接手阿里云,在阿里云峰会上发布阿里大模型进展时称,“所有行业、应用、软件、服务,都值得基于大模型能力重做一遍。”

研发自己的通用大模型只是第一步,各公司的更大目标是推出提供大模型能力的云服务,这是真正可以匹配投入的大市场。

微软的云服务Azure在中国云计算市场原本没有太强的存在感,入华10年来,主要服务跨国公司的中国业务。但如今,客户得排队等待,因为它是OpenAI商业化的唯一云代理商。

阿里在4月召开的云峰会上,再次强调MaaS(模型即服务)是未来云计算趋势,在开放自研的通用基础模型“通义千问”测试之外,还发布了一系列帮助客户在云上训练、使用大模型的工具。不久后,腾讯和字节火山引擎先后发布自己的新版训练集群服务。腾讯称,利用新一代集群训练万亿参数的混元大模型,时间可被压缩到4天;字节称,它们的新集群支持万卡级大模型训练,国内做大模型的数十家企业中,多数已使用火山引擎。

新的GPU到货前,各公司通过内部腾挪,优先支持大模型研发。

能一次释放较多资源的做法是砍掉一些不是那么重要,或短期内看不到明确前景与方向的业务。“大公司有好多半死不活的业务占据着资源。”一位互联网大公司AI从业者说。

今年5月,阿里达摩院裁撤自动驾驶实验室:300多名员工中,大约有1/3划归菜鸟技术团队,其余员工被裁,达摩院不再保留自动驾驶业务。研发自动驾驶系统也需要用高性能GPU进行训练。这一调整可能与大模型无直接关系,但确实让阿里获得了一批“自由GPU”。

字节和美团则直接从给公司带来广告收入的商业化技术团队那里获得GPU。

不过,这种“拆东墙补西墙”的做法能获得的GPU数量有限,训练大模型所需要的大头GPU还得靠各公司过去的积累和等待新GPU到货。

全世界都在抢算力

不过,海外巨头大量购买GPU更早,采购量更大,近年来的投资相对连续。

2022年,Meta和甲骨文就已对A100进行大投入。Meta在去年1月与英伟达合作建成RSC超级计算集群,它包含1.6万块A100。同年11月,甲骨文宣布购买数万块A100和H100搭建新计算中心。如今,该计算中心已部署了超过3.27万块A100,并陆续上线新的H100。

微软自2019年第一次投资OpenAI以来,已为OpenAI提供数万块GPU。今年3月,微软又宣布,已帮助OpenAI建设了一个新计算中心,其中包括数万块A100。Google在今年5月推出了一个拥有2.6万块H100的计算集群Compute Engine A3,服务自己训练大模型的公司。

现在,中国大型公司的动作和心态比海外巨头更急迫。以百度为例,该公司今年向英伟达新下的GPU订单量高达上万块。

据了解,字节、腾讯、阿里、百度这四家中国投入AI和云计算最多的科技公司,过去积累的A100数量都达到上万块。其中,字节的A100绝对数最多。不算今年的新增订单,字节A100和前代产品V100总数接近10万块。

仅看总数,这些GPU供各公司训练大模型似乎绰绰有余。但中国大型公司过去采购的大量GPU要支撑现有业务,或放在云计算平台售卖,并不能自由地应用于大模型开发和对外支持客户的大模型需求。AI公司旷视科技CEO印奇接受《财新》采访时说:“目前,中国可用于大模型训练的A100总共只有约4万块。”

主要反映对芯片、服务器和数据中心等固定资产投资的资本开支,可以直观说明中外大型公司计算资源的数量级差距。

最早开始测试ChatGPT产品的百度,自2020年以来,每年的资本开支在8亿~20亿美元之间,阿里在60亿~80亿美元之间,腾讯在70亿~110亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据中心的美国科技公司每年的资本开支均超过150亿美元。

训练大模型的GPU已不算充足,各家中国公司如果真的要长期投入大模型,并赚到给其他模型需求“卖铲子”的钱,未来还需要持续增加GPU资源。

走得更快,OpenAI已遇到了这一挑战。5月中旬,OpenAI CEO SamAltman在与一群开发者进行小范围交流时说,由于GPU数量不够,OpenAI当前的API服务不够稳定,速度也不够快。

与OpenAI合作颇深的微软也面临类似情境:今年5月,有用户吐槽New Bing回答速度变慢。微软回应,这是因为GPU补充速度跟不上用户增长速度。

中国大型公司如果不是仅把训练并发布一个大模型作为目标,而是真的想用大模型创造服务更多用户的产品,并进一步支持其他客户在云上训练更多大模型,就需要提前储备更多的GPU。

为什么只能是那四款卡?

在AI大模型训练上,现在A100、H100及其特供中国市场的减配版A800、H800找不到替代品。据量化对冲基金Khaveen Investments测算,2022年英伟达数据中心的GPU市占率达88%,AMD和英特尔瓜分剩下的那部分市场份额。

预训练环节尤其消耗算力,它对单个GPU的性能和多卡间的数据传输能力有极高要求。

目前,只有A100、H100能达到预训练所需的计算效率,它们看起来昂贵,反倒是最低廉的选择。如今,AI还处于商用早期,成本直接影响服务是否可用。在大模型庞大的计算需求下,用更多低性能GPU共同组成算力已行不通了。

去年,美国商务部对GPU的出口规定正是卡在算力和带宽这两条线上:算力上线为4800TOPS,带宽上线为600GB/s。

A800和H800的算力和原版相当,但带宽打折。即便如此,A800和H800的性能依然超过其他大型公司和创业公司的同类产品。短期内,唯一影响英伟达数据中心GPU销量的可能只有台积电的产能。H100/800为4nm制程,A100/800为7nm制程,这四款芯片均由台积电代工生产。

自从适用于并行计算的GPU被引入深度学习的十多年来,AI发展的动力就是硬件与软件,GPU算力与模型和算法交叠向前:模型发展拉动算力需求;算力增长,又使原本难以企及的更大规模训练成为可能。

在上一波以图像识别为代表的深度学习热潮中,中国的AI软件能力比肩全球最前沿水平;算力是目前遇到的难点——设计与制造芯片需要更长时间的积累,涉及漫长的供应链和浩繁的专利壁垒。

大模型是模型与算法层的又一次大进展,没时间慢慢来了,想做大模型或提供大模型云计算能力的公司必须尽快获得足够强大的先进算力。在这轮热潮使第一批公司振奋或失望前,围绕GPU的抢夺不会停止。(文章来源:晚点LatePost 作者:张家豪)

放大 缩小 默认
关于我们 | 企业公示 | 手机版
主办单位:上海汽车报社有限公司 备案号:沪ICP备16052313号-2