DeepSeek V3作为其最新版本,采用了先进的MoE架构,拥有671B参数和37B激活参数,通过14.8T高质量数据进行预训练,在多项基准测试中达到了开源模型的SOTA水平,甚至在某些任务上超越了闭源顶尖模型如GPT-4o和Claude 3.5 Sonnet。