即使是Deepseek 的 V3 模型训练,DP的研究人员在英伟达 H800 GPU 的 132 个流式多处理器中,专门分配 20 个用于服务器间的通信任务,以突破处理器互联带宽限制,加快数据传输速度。