就在2024年12月26日,国产大模型DeepSeek V3的发布在国际AI圈投下一个重磅深水炸弹,引入瞩目。为什么会得到这么大的刷屏关注度,一起来看这个国产AI大模型DeepSeek的厉害之处,在一众国内外的AI中到底亮眼之处在哪里。
本报记者 吴清 北京报道近日,一家来自中国的公司Deepseek在全球AI界刷屏,其最新推出的大模型DeepSeek-V3,迅速在AI行业内引发广泛关注和热议,主要原因就是预训练成本之低,其训练同样性能的大模型成本仅是行业主流的十分之一左右。
从某种意义上说,2024年不仅是技术突破的一年,更是行业走向成熟的重要转折点。顶级大模型的训练成本大幅降低:DeepSeek v3仅需557万美元训练成本,便可达到与Claude 3.5 Sonnet等模型比肩的性能。
《科创板日报》12月30日讯 日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。