在2025年的科技浪潮中,DeepSeek宛如一颗耀眼的新星,迅速在全球范围内爆火,引发了广泛的关注和讨论。它不仅在科技圈内掀起了层层波澜,更是成功“破圈”,成为大众热议的话题。家庭聚餐、朋友聚会,甚至街头巷尾,都能听到人们谈论着这家来自中国的人工智能前沿公司。
以参数量高达 671b 的 DeepSeek - v3 大模型为例,仅用 2048 块 GPU 训练 2 个月,耗费 557.6 万美元,相较于 GPT - 4 等大模型,成本大幅降低,却能实现相当甚至更优的性能。