【独家|李飞飞团队“50美元”复刻DeepSeek的R1真相:基于阿里云Qwen模型监督微调而成】《科创板日报》6日讯,今日有报道称李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。
近日,有消息称,华裔科学家、“AI教母”李飞飞的团队研究人员以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型。记者从相关人士处了解到,这个s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。
来源:环球网 【环球网科技综合报道】2月11日消息,紫光股份旗下新华三集团发布基于DeepSeek大模型的一体机UniCube,全面搭载DeepSeek V3、R1模型,并实现671B DeepSeek大模型单机推理及单机训推一体服务。
【文/观察者网 陈思佳】这两天,中国人工智能公司深度求索(DeepSeek)发布的大模型DeepSeek-R1震动业界,该模型使用更低的成本和更小的算力规模,实现了足以匹敌美国顶尖AI模型的效果。这一成果引发全球科技行业高度关注,西方媒体也发文感叹“中国AI模型震惊硅谷”。
·DeepSeek同时考虑算法精度和系统效率。除了极致的底层优化,协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。从最顶层的产品应用到底层的基础设施,大模型的每一个层级都已经形成了非常好的生态,每一个层级上都存在着优化空间。
最近Deepseek成为了AI圈中最火爆的话题,一方面通过稀疏激活的MoE架构、MLA注意力机制优化及混合专家分配策略等创新手段,实现了高效的训练和推理能力,同时大幅降低了API调用成本,达到了行业领先水平。
当所有人都在猜测苹果国行 AI 的下一步棋会落在哪里时,答案既出人意料又在情理之中。作为业界率先实现「全尺寸、全模态、多场景」的开源大模型,阿里云 Qwen 模型更是为开发者和企业提供了从 1.5B 到 72B 乃至 110B 的尺寸及版本,充分满足不同应用场景的需求。