封面新闻记者 朱宁 边雪 陈甘露距离深度求索(DeepSeek)推理大模型DeepSeek-R1发布已经过去近一周时间,开源模型DeepSeek-V3也已经发布了近一个月。然而,在海外社交媒体平台乃至华尔街,DeepSeek的热度才刚刚开始。
完整训练成本仅 557.6 万美元,使用的 GPU 小时数为 278.8 万 ,与 Llama 3 高达 1 亿美元的训练成本,以及 GPT-4o 可能高达 10 亿美元的预算相比,DeepSeek V3 的成本优势简直一目了然,也难怪被大家称为 “国货之光”。
在专业的大模型排名 Arena 上,DeepSeek - R1 基准测试成绩斐然,已升至全类别大模型第三 ,其中在风格控制类模型 分类中与 OpenAI o1 并列第一,竞技场得分达到 1357 分,还略超 OpenAI o1 的 1352 分。
当地时间1月27日,美国三大股指开盘即暴跌,英伟达、微软、谷歌母公司Alphabet、Meta等美国主要科技股均遭遇股市地震。其中英伟达跌近17%,单日市值蒸发约6000亿美元,创美股最高纪录。这一切,要从成立了仅一年多的中国人工智能初创公司深度求索(DeepSeek)说起。