在国外大模型排名榜 Chatbot Arena 的基准测试里,DeepSeek-R1 的排名迅速攀升至全类别大模型第三,与 OpenAI 的 ChatGPT-4o 最新版并肩,并且在风格控制类模型分类中,和 OpenAI 的 o1 模型并列第一。其预训练费用仅 557.6 万美元,在 2048 块英伟达 H800 GPU 集群上运行 55 天即可完成训练。
这一架构基于多代英伟达技术构建,性能、效率和规模出众,为生成式AI计算新时代开启新篇章。它在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况下,在数学、代码以及自然语言推理等任务上,性能比肩OpenAI o1正式版。
【文/观察者网 陈思佳】这两天,中国人工智能公司深度求索(DeepSeek)发布的大模型DeepSeek-R1震动业界,该模型使用更低的成本和更小的算力规模,实现了足以匹敌美国顶尖AI模型的效果。这一成果引发全球科技行业高度关注,西方媒体也发文感叹“中国AI模型震惊硅谷”。
青云科技同样不甘示弱,在DeepSeek - V3发布时便迅速开展内部测试,DeepSeek - R1发布后,更是马不停蹄地上线4个DeepSeek - R1系列模型和文生图版本模型,并且积极筹备DeepSeek - R1满血版的测试工作。
当硅谷仍在为GPU万卡集群豪掷千亿资金时,来自杭州的一群年轻人用557.6万美元证明:AI大模型的比拼或许并不只靠规模,而是要看使用效率。只要技术实力足够强,一款上架不足半个月的App也能击败ChatGPT,在1月27日登顶苹果应用商店排行榜。