当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时,DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能。
1月28日凌晨,DeepSeek刚发布全球领先的文生图模型Janus-Pro,几小时后,其服务器便遭遇来自美国IP的DDoS攻击和暴力破解——攻击流量峰值超过每秒500万次请求,相当于半个北京城的人同时挤进一间屋子。