人民财讯3月17日电,今天,联想宣布旗下首款AMD AI大模型训练服务器联想问天WA7785a G3在单机部署671B(满血版) DeepSeek大模型时,可实现极限吞吐量6708token/s,将单台服务器运行大模型的性能推向了新高,充分展现了联想在AI基础设施领域技术的深厚积
AMD人工智能事业部高级总监王宏强谈道,AMD在单个GPU能做到上千T的浮点算力规模,通过多节点横向扩展,更是能达到每秒百亿亿次浮点计算能力,并提供额外的超大内存容量及带宽,可实现700亿参数级大模型在单个GPU上的部署,并达到更高的TCO。
1 至强6性能核的核心规模。此前,有业者预测,预计至强6性能核处理器每颗计算单元芯片中的内核数量为43,加上每个计算单元有两组双通道内存控制器各占一个网格,那么总共占用43+2=45个网格,可以由5×9的布局构成。
对于FP16精度的模型,在搭载了13代Intel Core i9和单张RTX 4090的高端PC上,PowerInfer平均实现了7.23倍的速度提升,其中在Falcon 40B上实现了高达11.69倍的速度提升。
每经记者:岳楚鹏 每经编辑:兰素英2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。此前,拥有671B参数的MoE架构大模型DeepSeek-R1在推理时困难重重。
截至目前,DeepSeek R1模型本地部署最具性价比的方案就是清华大学团队提出的KTransformer方案和Unsloth动态量化方案,两套方案都是借助CPU+GPU混合推理,来降低GPU购买的硬件成本,并且底层CPU推理实现也都是基于llama.cpp。