解密deepseek的极致压榨术

资讯

省钱也是技术活：解密DeepSeek的极致压榨术
当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时，DeepSeek-V3用557.6万美元的预算，在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间，就达到了足以与它们比肩的性能。
人工智能学家
26评论
华为+DeepSeek强强联合｜中国AI革命的"蒸汽机时刻"来了
2024年2月1日，华为昇腾云与DeepSeek大模型的握手，正是中国AI产业那个“蒸汽机时刻”，这不是追赶，而是一场蓄谋已久的弯道超车。
如是喃哗
13评论
暴力破解+栽赃！DeepSeek遭立体绞杀，反逼出中国AI底牌？
1月28日凌晨，DeepSeek刚发布全球领先的文生图模型Janus-Pro，几小时后，其服务器便遭遇来自美国IP的DDoS攻击和暴力破解——攻击流量峰值超过每秒500万次请求，相当于半个北京城的人同时挤进一间屋子。
八九不离石
3评论

视频