这两款模型以其低廉的成本和卓越的性能,迅速在AI领域引起了轩然大波。DeepSeek-V3的预训练过程仅用了266.4万H800 GPU Hours,而Meta的Llama 3系列模型的计算预算则多达3930万H100 GPU Hours。
近日,中国AI初创公司深度求索的一系列大动作在科技界引发了轩然大波。短短一个月内,该公司先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,其成本低廉、性能却与OpenAI相当的特点,不仅让硅谷震惊,更让Meta陷入了恐慌模式。