AI

大模型训练有多卷?揭开大模型算力之谜

抢算力的前提,是算力正在成为一种新的商业模式。大模型“炼丹”的热潮会过去,算力服务商要做的是未雨绸缪,及时转向。

使用全球40年的天气数据,用200张GPU卡进行预训练,2个月左右的时间,训练出了参数量达亿级的盘古气象大模型。

这是清华大学毕业3年的毕恺峰训练大模型的故事。

不过,从成本上看,按照正常情况下,一张GPU 7.8元/小时计算,毕恺峰盘古气象大模型的训练成本可能超出200万。这还是气象领域的垂直大模型,如果训练的是通用大模型,成本可能要翻百倍。

有数据统计,中国当下10亿参数规模的大模型已经超百个。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题。算力成本高企,缺算力、缺资金也成为了摆在行业面前最直观的问题。

1、高端GPU,有多缺?

“缺,当然缺,但是我们能有什么办法。”某大厂高管被问及是否缺算力问题时脱口而出。

这似乎已经成了行业公认的一道无解题,顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币,单台A100服务器的月租价格也飙到了5万-7万/月。但是即便如此,高昂的价格依然可能拿不到芯片,一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历。

一位云计算行业高管周立军也谈及类似的感受:“算力短缺的情况确实存在。我们有很多客户都想要高端GPU资源,但能提供的也暂时无法完全满足广泛的市场需求。”

某云服务商搭载A1

违法和不良信息举报电话:010-64158500-8113,18610056652    举报邮箱:infoweb@zero2ipo.com.cn    举报网上不良信息