“DeepSeek没有推广预算,也没有千万年薪挖人,就是目标明确地投入研究、发布产品。”上述投资人评论。另一家大模型独角兽向记者透露,“DeepSeek创始人梁文锋是一个有AI信仰的人,他坚持的技术浪漫主义,在业内非常知名。
梁文峰与杨植麟,DeepSeek与月之暗面,颇有些当代版“既生瑜,何生亮”的意思。需要提醒大家,即便如今所有的镁光灯都聚焦在DeepSeek-R1上,但光环之外仍有人在努力,简单地归因和粗暴地判断于当下而言都是极其傲慢的。
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
来论 春节期间,中国国产大模型DeepSeek持续引发热议,意外地成为假期最热门的科技话题。 1月20日,中国大模型公司深度求索正式发布推理大模型DeepSeek-R1,一经推出就震撼了业界。1月27日,DeepSeek应用登顶苹果中国区和美国区应用商店免费App下载排行榜。
21世纪经济报道记者柳宁馨 杭州报道“为什么是杭州?”以DeepSeek为代表的杭州科创企业火出圈,影响波及全球,引发全国不少城市的追问与反思。2月13日,浙江省委书记王浩与杭州“六小龙”等相关企业负责人举行了一场座谈,会上提到要下功夫打通科技创新和产业创新深度融合的卡点堵点。
Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。关键是训练成本奇低,不到600美元。具体花费如下:在8个80GB A100上训练了3个小时,不到100美元;生成数据使用OpenAI的API,500美元。