8日有消息称,阿里达摩院正在研发类ChatGPT的对话机器人,目前已开放给公司内员工测试。曾格外引发关注的是,达摩院团队使用512卡GPU即训练全球首个10万亿参数大模型M6,同等参数规模能耗为此前业界标杆的1%,相当程度降低了大模型训练门槛。
【1】图二. 引用自:Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models . arXiv: 1910.02054v3 , 2020-05-13.
【阿里云副总裁李飞飞:AI下半场打“系统战” 大模型预训练将走向“寡头化”】财联社2月26日电,阿里云智能集团副总裁、数据库产品事业部负责人李飞飞2月26日在2025阿里云PolarDB开发者大会上谈到对DeepSeek近日开源周相关发布的看法,他认为,随着DeepSeek的火爆
国家超算互联网平台接入阿里千问大模型,对外提供千问QwQ-32B API服务,用户可免费获得100万tokens。作为国家级综合算力服务平台,超算互联网已连接国内14个省区市20多家超算和智算中心,并上线算力商品超6500款。
12月27日,海外社交媒体平台X被来自中国的大模型DeepSeek-V3刷屏了,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。
近期,阿里巴巴宣布投入3800亿元建设云和AI硬件基础设施,世界首富马斯克旗下xAI公司计划再筹100亿美元并将智算中心GPU扩容至100万块,两大事件吸引业界关注,并释放出明显信号:AI爆发远超预期,全球AI竞赛进入白热化阶段。
蚂蚁集团使用国产AI芯片训练大模型,成本可进一步降低。 近日,蚂蚁集团Ling团队发表了一篇技术成果论文。论文显示,蚂蚁集团推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.