以参数量高达 671b 的 DeepSeek - v3 大模型为例,仅用 2048 块 GPU 训练 2 个月,耗费 557.6 万美元,相较于 GPT - 4 等大模型,成本大幅降低,却能实现相当甚至更优的性能。