用十分之一计算量挑战AI巨头?这家中国AI公司正在“搅动”硅谷

封面新闻记者 边雪

蛇年新春钟声还未敲响,人工智能领域就迎来了新春大礼包——中国AI初创公司深度求索(DeepSeek)发布了其最新推理大模型DeepSeek-R1。

这是DeepSeek在短短一月之内,即DeepSeek-V3 后发布的第二款大模型,凭借极高的计算效率、卓越的性能表现和极低的开发成本,成功在国际AI领域掀起了波澜。

DeepSeek-R1的输入token定价为0.55美元/百万(OpenAI为15美元/百万),输出token为2.19美元/百万(OpenAI为60美元/百万),成本降低超90%,而此前DeepSeek-V3仅用550万元研发成本、2000张显卡打造,却达到与Llama 3 405B相媲美的性能,而OpenAI为了实现这一目标,花费了数亿美元。

DeepSeek的最新发布,不仅展示了中国AI技术的实力,更重新定义了行业的竞争规则:DeepSeek-R1发布后,国外媒体纷纷聚焦DeepSeek,并一致认为中国大模型的新进展为硅谷敲响了警钟:图灵奖得主Yann LeCun评价称,DeepSeek验证了“开源模型正超越闭源系统”。

性能比肩OpenAI o1

开源与低成本颠覆行业

封面新闻记者注意到,DeepSeek-R1首次通过纯强化学习(无需监督微调SFT)实现推理能力的突破。实验版本DeepSeek-R1-Zero直接在基座模型上应用RL训练,成功在数学、编程等任务中达到接近人类专家的水平。例如,其在美国数学邀请赛(AIME 2024)中的准确率从初始的15.6%跃升至71%,最终通过多阶段优化提升至86.7%,与OpenAI o1-0912相当。

模型在训练中展现出类似人类的“反思”行为,例如主动暂停推理、重新评估解题步骤并探索替代方案。这种自发的“顿悟时刻”被视为强化学习能力的自然涌现,而非人工编程设计。

DeepSeek-V3模型使用界面。

值得注意的是,团队开发的GRPO(Group Relative Policy Optimization)算法摒弃传统Critic网络,通过群组相对优势估计优化策略,显著降低计算成本。奖励机制结合准确性、格式和语言一致性,确保推理过程结构化且符合人类习惯。

DeepSeek-R1模型权重及训练细节全公开,采用MIT协议,允许商用和二次开发 由此看来,这不仅是中国AI技术自主创新的里程碑,更以开源和低成本策略推动全球AI生态向开放、高效方向演进。

正如周鸿祎所言,“中国大模型技术复仇者联盟”已悄然成型,DeepSeek正成为对抗技术霸权的关键力量。

技术新标杆:DeepSeek-V3的三大创新

DeepSeek-V3是DeepSeek系列中的最新迭代版本,是一款基于Mixture-of-Experts(MoE)架构的先进语言模型(中国大模型崛起:MiniMax-Text-01引领AI创新潮流)。该模型拥有671亿个总参数,其中每个token会激活37亿个参数,使其在处理自然语言处理(NLP)到计算机视觉等多种任务时,都展现出卓越的能力。

DeepSeek-V3的显著优势在于其能够处理更大规模的数据集、在各项任务中表现出更强的泛化能力、提供更快的推理时间,并且在与竞争对手相比时,保持了较小的计算足迹。其成功背后,离不开其三大核心架构创新,这些技术突破在降低成本的同时,显著提升了性能,为行业树立了新的标杆。

首先,多头隐注意力(Multi-Layered Attention, MLA)技术解决了长文本推理的高成本问题。传统大模型在处理长文本时往往消耗巨大算力,而DeepSeek团队通过潜注意力机制,优化了模型对上下文信息的捕捉效率,大幅降低了长文本推理的计算成本。这项技术不仅提升了模型对复杂语境的理解能力,还让其在实际应用中表现更加稳定高效。

DeepSeek-V3多项测试成绩处于第一。

其次,混合专家模型(Mixture of Experts, MoE)技术的改良,攻克了困扰业界已久的路由崩溃问题。传统MoE架构在高并发任务中,容易出现部分路由节点超负荷的问题,从而影响模型性能。而DeepSeek团队通过创新的路由算法,优化了任务分配机制,显著提升了训练效率与系统稳定性。

有海外网友拿“DeepSeek-V3”和OpenAI发布的“GPT-4o”进行比较,并得出“两款产品不相上下”的结论。美国硅谷的技术大牛也把“DeepSeek-V3”拿来使用,企图挑点毛病,但挑来挑去,只能用“不可思议”来总结心情。

“DeepSeek-V3 在性能上超越了其他开源模型,并能够与主流闭源模型相媲美,它创新性地采用了 MTP 目标,将预测范围扩展到每个位置的多个后续 token。”1月26日,业内人士告诉封面新闻记者,DeepSeek-V3可适用于科研、企业、开发者及AI爱好者,特别在逻辑推理、代码生成、文本生成、数学计算和多语言处理方面表现出色。

从无到有:DeepSeek的崛起之路

DeepSeek的迅速崛起,离不开其团队的技术积累和精准的战略布局。这家成立于2023年的中国企业,以挑战全球AI巨头为目标,仅用了不到2年时间,便成为行业先锋,背后既有技术创新的支撑,也有商业策略的成功。

外界都觉得DeepSeek很神秘,其创始人梁文锋鲜少对外发声,但总是频上热搜。

DeepSeek的成名之作是其发布的DeepSeek V2开源模型,该模型以其史无前例的性价比震惊了业界。推理成本被降至每百万token仅1块钱,这一成本仅为Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。这一创新不仅让DeepSeek获得了“AI界拼多多”的称号,也促使字节、腾讯、百度、阿里等大厂纷纷降价,从而引发了中国大模型市场的价格战。

2025年初,梁文锋现身《新闻联播》,以AI初创公司深度求索(DeepSeek)创始人的身份罕见参加了一场国家超高规格座谈会,并现场发言。

近期“雷军千万年薪挖95后天才AI少女”的热门话题也间接地与梁文锋有关:这位AI天才少女罗福莉,此前正是DeepSeek团队的研发成员。

值得一提的是,DeepSeek始终坚持“资源最优”策略,与OpenAI等巨头动辄数亿美元的投入相比,DeepSeek在研发成本上仅用了百万级别,却依然打造出具有国际竞争力的大模型。团队通过对算力的精细化管理和资源的高效配置,证明了中国AI企业在技术研发上的独特优势。

商业层面,DeepSeek的成功也离不开其敏锐的市场洞察力。公司精准切入对算力成本敏感的中小型企业市场,为客户提供高性价比的AI解决方案。1月25日,AMD宣布,已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型旨在与SGLang一起实现最佳性能。DeepSeek-V3针对Al推理进行了优化。

DeepSeek如何重塑AI竞争格局

近年来,LLM经历了快速迭代和演进,逐步缩小了与通用人工智能(AGI) 的差距。2024年,斯坦福大学和Epoch AI的研究人员曾发表了一项研究,称到2027年,最大型的模型的训练成本将超过10亿美元。然而,DeepSeek以极低的价格建立了一个突破性的AI模型,在性能突破的同时,还展现了极高的资源利用效率,在全球AI技术领域掀起了一场“高效革命”。

近日,投资者Geiger Capital在社交平台上发文表示:“Deepseek和OpenAI一样好,甚至更好,而且价格只有后者的3%……纳斯达克会怎样呢?”

封面新闻记者注意到,在DeepSeek-R1发布之后,市场情绪已然做出反应。1月24日,英伟达股价报142.62美元,跌3.12%,市值一夜蒸发1127亿美元(约合人民币8165亿元)。

在中国的大模型创业公司中,DeepSeek以其低调而高效的姿态,逐渐在AI领域崭露头角。这家公司不仅在技术上实现了突破,更在商业模式上引发了行业的价格战,成为了中国AI界的一股不可忽视的力量。

多位业内人士告诉封面新闻记者,DeepSeek的低成本、高性能策略将对行业竞争模式产生深远影响。一位国内AI创业公司创始人直言:“DeepSeek用最小的资源实现了最高的效能,向全球企业展示了高效研发的可能性。这种模式的成功,可能迫使行业重新思考‘大模型=大投入’的传统观念。”

“DeepSeek的目标是实现AGI(人工通用智能),而不仅仅是短期的商业化。”梁文锋曾在采访中强调,DeepSeek的降价并非为了抢用户,而是基于成本下降和对普惠AI的追求。他相信,随着经济的发展,中国也应该成为技术创新的贡献者,而不仅仅是应用创新的跟随者。

在全球AI竞争加剧的背景下,DeepSeek不仅挑战了行业的常规,也为中国AI的未来发展提供了新的思路和方向,其低成本、高效率的研发路径,为技术创新提供了新的参考方向,也向世界展示了中国AI企业的潜力与决心。

或许“搅动”硅谷,只是个开始。

举报
评论 29
  • 华为在干什么?

  • 已经转到朋友圈!并收藏!感谢中国伟大杰出科学家科技工程师!

  • 这只能说明中国人的大脑比外星人还强

加载失败,请重新刷新