1. 背景近几年,随着“大模型”概念的提出,深度学习模型越来越大,如何训练这些大模型成为一个亟待解决的工程问题。最初的视觉模型只有几百兆的参数量,而现在的语言模型中,动则百亿,千亿的参数量,甚至万亿的大模型也是见怪不怪。如此巨大的参数量将会消耗巨大的存储空间。
你敢信吗?一块24G显存的显卡,居然能跑671B参数的大模型!是不是觉得有点“离谱”?但清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目,真的做到了这一点。今天,我们就来聊聊这个让无数开发者直呼“真香”的技术突破。大模型的硬件门槛有多高?
通过这种优化方法,在最新的 Llama2 的 7B 和 13B 模型中,如果用一块 AMD Radeon RX 7900 XTX 速度可以达到英伟达 RTX 4090 的 80%,或是 3090Ti 的 94%。
不过,如果我们可以用A卡代替N卡,甚至不需要GPU就可以训练大模型,一切又会发生怎样的变化呢?通过这种优化方法,在最新Llama2的7B和13B模型中,用一块AMD Radeon RX 7900 XTX,速度已可达到英伟达RTX 4090的80%,或是3090Ti的94%。