20万块GPU“烧出”的Grok 3到底是不是地表最强AI?对此不乏争议。但毋庸置疑的是,Grok 3绝对是有史以来能耗最高的大模型。训练消耗的能源相当于一座小城市一年的用电量,或者4万多辆燃油车一年的碳排放量。
比如,从整体执行效率来看,经过 Megatron 优化的几乎所有模型都有 30% 的吞吐量提升,并且随着模型大小的增加,可以实现更高的 GPU 利用率。在 1750 亿参数的 GPT-3 模型上,GPU 利用率可以达到 52.8%。
1. 背景近几年,随着“大模型”概念的提出,深度学习模型越来越大,如何训练这些大模型成为一个亟待解决的工程问题。最初的视觉模型只有几百兆的参数量,而现在的语言模型中,动则百亿,千亿的参数量,甚至万亿的大模型也是见怪不怪。如此巨大的参数量将会消耗巨大的存储空间。
每当有新版本的大模型发布时,业界总是热衷于引用第三方榜单数据,拿自家大模型和GPT-4一起"跑个分",声称已经在某些指标上实现了超越,以此来证明自己的大模型技术实力。但在近日百度董事长李彦宏和内部员工的一场交流中,他捅破了大模型行业跑分的"窗户纸"。
“外界对大模型有相当多的误解”,近日,李彦宏的一则内部讲话流出。南都记者了解到,在最近一次和员工交流中,李彦宏谈及三个大模型认知误区,涵盖了大模型竞争、开源模型效率、智能体趋势等热点话题。李彦宏认为,“未来大模型之间的差距可能会越来越大。