这两款模型以其低廉的成本和卓越的性能,迅速在AI领域引起了轩然大波。DeepSeek-V3的预训练过程仅用了266.4万H800 GPU Hours,而Meta的Llama 3系列模型的计算预算则多达3930万H100 GPU Hours。