来源:转载机器之心报道机器之心编辑部今天,一个国产大模型火遍了世界。打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.
《科创板日报》1月28日讯 一天内登顶中美App Store免费榜、火到两天崩溃两次、Meta开设四个作战室研究,近几日以来,DeepSeek犹如一颗 “东方核弹”,引爆了全球AI圈。DeepSeek这次引发全球震动的根源之一,就是其最新发布的开源模型DeepSeek-R1。
《科创板日报》12月30日讯 日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。