AI 领域高光:于 DeepSeek 平台,他率领团队打造的 DeepSeek - V3 模型,在数学代码与中文知识问答赛道上,将行业巨头 ChatGPT - 4 甩在身后,且以 557.6 万美元的低成本训练出高性能模型;
【文/观察者网 陈思佳】近期,中国人工智能公司深度求索(DeepSeek)发布的DeepSeek-R1模型轰动全球,使用极低的成本实现了匹敌美国顶级AI模型的效果,得到从业者的广泛称赞。许多研究人员、投资者和西方媒体感叹,中国AI模型令硅谷震惊,甚至可能改变大模型的研发规则。
“DeepSeek没有推广预算,也没有千万年薪挖人,就是目标明确地投入研究、发布产品。”上述投资人评论。另一家大模型独角兽向记者透露,“DeepSeek创始人梁文锋是一个有AI信仰的人,他坚持的技术浪漫主义,在业内非常知名。
1月27日,由国产大模型公司杭州深度求索开发的Deepseek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。据DeepSeek介绍,R1的预训练费用只有557.
他率领平均年龄不到28岁,139个没有留学背景的博士和博士在读生,组成了DeepSeek研究团队。仅用了不到两年的时间,就向世界推出了开源的AI语言模型V3、推理模型R1和多模态模型Janus-Pro。
在中国当下的环境中,无论创业还是工作,城市、行业的重要性远超过大学对个人的赋能。因为Deepseek爆火,网民总结了中国 “AI 三杰”的说法:Deepseek创始人梁文锋、kimi 创始人杨植麟,以及人工智能领域杰出科学家何恺明 。