deepseek V3训练原理

资讯

详解DeepSeek-V3：大模型训练加速神器，MoE焕发新生丨智源深度
我国科技企业在过去的几年里，始终坚持着开发出能够解决更为复杂问题并处理更大数据量的模型的目标，而这一切并不需要依赖过多的计算能力。
人工智能学家
4评论
国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf
来源：转载机器之心报道机器之心编辑部今天，一个国产大模型火遍了世界。打开 X，满眼都是讨论 DeepSeek-V3 的推文，而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.
人工智能学家
56评论
“价格屠夫”DeepSeek的理想主义：开源、降本与AI普惠
《科创板日报》1月28日讯一天内登顶中美App Store免费榜、火到两天崩溃两次、Meta开设四个作战室研究，近几日以来，DeepSeek犹如一颗 “东方核弹”，引爆了全球AI圈。DeepSeek这次引发全球震动的根源之一，就是其最新发布的开源模型DeepSeek-R1。
财联社
3评论
DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代
《科创板日报》12月30日讯日前，深度求索DeepSeek-V3横空出世，在AI行业内引发巨震，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。
财联社
19评论

视频