1. 背景近几年,随着“大模型”概念的提出,深度学习模型越来越大,如何训练这些大模型成为一个亟待解决的工程问题。最初的视觉模型只有几百兆的参数量,而现在的语言模型中,动则百亿,千亿的参数量,甚至万亿的大模型也是见怪不怪。如此巨大的参数量将会消耗巨大的存储空间。
每经记者:岳楚鹏 每经编辑:兰素英2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。此前,拥有671B参数的MoE架构大模型DeepSeek-R1在推理时困难重重。
通过这种优化方法,在最新的 Llama2 的 7B 和 13B 模型中,如果用一块 AMD Radeon RX 7900 XTX 速度可以达到英伟达 RTX 4090 的 80%,或是 3090Ti 的 94%。
不需要额外训练一个模型,也不需要对计算硬件做优化,单张A100最快几小时就能微调完成。这项新研究名叫Medusa,来自普林斯顿、UIUC、CMU和康涅狄格大学,FlashAttention作者Tri Dao也在其中。
今天我们就用HP Z6 G5这个台式工作站来窥探一二吧。其次,它的前面板采用了丰富的定制化设计,共拥有4个USB接口、1个3.5毫米音频接口以及一个读卡机预留位,同时还可选择外部机架模块,前置热插拔托架最多支持4个M.2 SSD或1个HDD硬盘,这意味着我们不需要拆盖就能进行存储拓展。
在农历龙年的最后几天,横空出世的DeepSeek如飞龙在天,给了全球科技界“亿点点”震撼。 DeepSeek是量化巨头幻方量化旗下大模型公司,1月20日,该公司正式发布推理大模型DeepSeek-R1。