即使是Deepseek 的 V3 模型训练,DP的研究人员在英伟达 H800 GPU 的 132 个流式多处理器中,专门分配 20 个用于服务器间的通信任务,以突破处理器互联带宽限制,加快数据传输速度。
以参数量高达 671b 的 DeepSeek - v3 大模型为例,仅用 2048 块 GPU 训练 2 个月,耗费 557.6 万美元,相较于 GPT - 4 等大模型,成本大幅降低,却能实现相当甚至更优的性能。
尽管春节假期已经过半,但是“来自东方的神秘力量的 DeepSeek”仍在引起全世界热议,各路业内人士也仍在从不同角度分析 DeepSeek 的模型和技术文章。北京时间1月31日,英伟达宣布DeepSeek-R1模型登陆NVIDIANIM。
他们真的绕过CUDA限制,打破了Nvidia的护城河了吗?DeepSeekAI最近发布的几个模型,如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论,特别是低成本训练出高质量模型之后,引起了很多的争论。