《科创板日报》12月30日讯 日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。
来源:市场资讯新智元报道 【新智元导读】外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是‘副业’项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......DeepSeek这波强攻,彻底把O
21世纪经济报道记者 赵娜 上海报道1月20日,中国人工智能公司深度求索(DeepSeek)发布开源模型DeepSeek-R1,一举成为全球科技行业的焦点。DeepSeek的这一突破引起了众多风险投资人和科技创业者的关注。
2024年5月,DeepSeek开源了第二代MoE大模型DeepSeek - V2,该模型在性能上比肩GPT - 4 Turbo,价格却只有GPT - 4的百分之一,被称作“价格屠夫”“AI界的拼多多”,它的出现打破了人们对大模型性能与成本关系的传统认知,为大模型的普及和应用带来了新的可能。
SemiAnalysis新出的一篇分析报告,对于DeepSeek的分析,包括中国在成本、真实训练成本、封闭模型利润率影响方面的领先地位 ——H100 价格飙升、补贴推理定价、出口管制、多头潜在注意力机制。
“DeepSeek的出现标志着AI技术从‘贵族化’走向‘平民化’。”香港科技大学(广州)协理副校长、人工智能学域创始主任、讲座教授熊辉在接受广州日报记者采访时,一语中的地道出DeepSeek对AI产业的深远影响。熊辉以春秋时期的战争为例,形象地解释了AI技术的变革。