AMD人工智能事业部高级总监王宏强谈道,AMD在单个GPU能做到上千T的浮点算力规模,通过多节点横向扩展,更是能达到每秒百亿亿次浮点计算能力,并提供额外的超大内存容量及带宽,可实现700亿参数级大模型在单个GPU上的部署,并达到更高的TCO。
编辑:编辑部【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中。与此同时,外媒爆料称,OpenAI和微软联手打造的下一个超算集群,将由10万块GB200组成。
随着国产GPU(图形处理器)芯片的兴起,如何将进口和国产GPU有效结合在一起,打造异构芯片算力集群,成为发展人工智能的一个重要问题。2024世界人工智能大会上,上海企业无问芯穹发布了业内首个千卡规模异构芯片混训平台,其算力利用率最高达到97.6%。
UCS 搭载xGPU&Volcano智能调度引擎,加速数据中心AI计算。华为云分布式云原生UCS服务,是面向分布式云场景下的新一代云原生产品,提供UCS 、UCS 、UCS 、UCS 以及UCS 等产品,覆盖公有云、多云、本地数据中心、边缘等分布式云场景。
比如,从整体执行效率来看,经过 Megatron 优化的几乎所有模型都有 30% 的吞吐量提升,并且随着模型大小的增加,可以实现更高的 GPU 利用率。在 1750 亿参数的 GPT-3 模型上,GPU 利用率可以达到 52.8%。
在这场竞赛中,速度是抢得先发优势的关键,从模型训练到落地部署,都对更高性能的AI芯片提出迫切需求。爱芯元智联合创始人、副总裁刘建伟在近日接受芯东西等媒体采访时谈道,AX650N芯片在跑Transformer时优势明显,而Transformer是当前大模型普遍采用的结构。
新黄河 2月3日晚间,百度智能云宣布,百度智能云千帆平台已正式上架DeepSeek-R1和 DeepSeek-V3模型,推出了超低价格方案,还可享受限时免费服务,登录百度智能云千帆ModelBuilder即可快速体验。
“百模大战”下大模型算力需求猛增。北京超级云计算中心计划今年下半年起陆续上线3万余张满足大模型训练场景用的GPU卡,搭建超算架构大模型算力矩阵;并组建一支7×24小时技术服务团队。“在未来的市场竞争上,谁能把可用的资源变成好用的资源,谁就会在市场上胜出。”北京超级云计算中心机房。