deepseek 训练

资讯

打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域全复盘
刚刚过去的 2024 年是生成式 AI 大发展的一年，我们见证了 OpenAI Sora 的崛起，大模型服务价格的飞速下降，以及国内开源大模型的奋起直追。
机器之心Pro
4评论
国产之光DeepSeek把AI大佬全炸出来了！训练671B只需此前算力1/10
在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——
量子位
226评论
DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代
《科创板日报》12月30日讯日前，深度求索DeepSeek-V3横空出世，在AI行业内引发巨震，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。
财联社
19评论
省钱也是技术活：解密DeepSeek的极致压榨术
当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时，DeepSeek-V3用557.6万美元的预算，在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间，就达到了足以与它们比肩的性能。
人工智能学家
26评论
DeepSeek V3爆火背后：“AI界拼多多”能否复制？
界面新闻记者 | 伍洋宇李彪界面新闻编辑 | 文姝琪2024年底，DeepSeek（深度求索）再次凭借模型性能在行业中掀起一个小高潮。这家独立于大模型“六小虎”格局之外、不容行业所忽视的公司，发布了新一代MoE模型DeepSeek-V3首个版本并同步开源。
界面新闻
2评论

视频

问答

深度学习的训练方式有哪些？
头条问答
深度学习分布式训练的常用方法都有哪些？有何技巧？
头条问答