从某种意义上说,2024年不仅是技术突破的一年,更是行业走向成熟的重要转折点。顶级大模型的训练成本大幅降低:DeepSeek v3仅需557万美元训练成本,便可达到与Claude 3.5 Sonnet等模型比肩的性能。
来源:转载机器之心报道机器之心编辑部今天,一个国产大模型火遍了世界。打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.
界面新闻记者 | 伍洋宇 李彪界面新闻编辑 | 文姝琪2024年底,DeepSeek(深度求索)再次凭借模型性能在行业中掀起一个小高潮。这家独立于大模型“六小虎”格局之外、不容行业所忽视的公司,发布了新一代MoE模型DeepSeek-V3首个版本并同步开源。