AMD人工智能事业部高级总监王宏强谈道,AMD在单个GPU能做到上千T的浮点算力规模,通过多节点横向扩展,更是能达到每秒百亿亿次浮点计算能力,并提供额外的超大内存容量及带宽,可实现700亿参数级大模型在单个GPU上的部署,并达到更高的TCO。
通过这种优化方法,在最新的 Llama2 的 7B 和 13B 模型中,如果用一块 AMD Radeon RX 7900 XTX 速度可以达到英伟达 RTX 4090 的 80%,或是 3090Ti 的 94%。
不过,如果我们可以用A卡代替N卡,甚至不需要GPU就可以训练大模型,一切又会发生怎样的变化呢?通过这种优化方法,在最新Llama2的7B和13B模型中,用一块AMD Radeon RX 7900 XTX,速度已可达到英伟达RTX 4090的80%,或是3090Ti的94%。
当ROG幻X 2025亮出128GB LPDDR5X内存+256bit带宽的王炸组合时,整个AI圈炸了——这台1.2kg的二合一本竟敢叫板云计算服务器!**AMD锐龙AI Max+395的核弹级操作:抢48GB内存当显存还不够,直接给70B大模型在本地安了家!
随着DeepSeek持续火爆出圈,人们开始不满足于网页端和APP端上使用DeepSeek,而尝试将DeepSeek进行本地化部署。本地化部署是指将DeepSeek的AI大模型安装到本地计算机内,不依赖网络或云服务。