北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
梁文峰与杨植麟,DeepSeek与月之暗面,颇有些当代版“既生瑜,何生亮”的意思。需要提醒大家,即便如今所有的镁光灯都聚焦在DeepSeek-R1上,但光环之外仍有人在努力,简单地归因和粗暴地判断于当下而言都是极其傲慢的。
本报记者 李玉洋 上海报道国内大模型创业公司月之暗面(Moonshot)最近又迎来一阵风。公开报道显示,月之暗面正在进行新一轮融资,估值达到30亿美元(约合人民币217.8亿元),而新的投资者中出现了腾讯。
2025年2月18日,马斯克旗下xAI发布的Grok3以"推理能力突破"为卖点引发轰动。其训练依托搭载10万块英伟达H100 GPU的Colossus超级计算机,累计消耗2亿GPU小时,参数规模达到惊人的1.8万亿。
中国AI再出王炸!梁文峰团队公开革命性NSA架构,全球科技圈炸锅了!一、颠覆性突破:NSA架构改写AI游戏规则2025年2月,中国AI领域再掀狂潮!DeepSeek创始人梁文峰团队发布论文《原生稀疏注意力机制》(NSA),这项技术被硅谷专家称为“AI领域的第三次工业革命”。
在中国当下的环境中,无论创业还是工作,城市、行业的重要性远超过大学对个人的赋能。因为Deepseek爆火,网民总结了中国 “AI 三杰”的说法:Deepseek创始人梁文锋、kimi 创始人杨植麟,以及人工智能领域杰出科学家何恺明 。
最近在网上看多一个说法:中国“AI三杰”都是广东人,但都没有在广东创业和发展。公开资料显示,这三位蜚声全球的AI大牛都很年轻,其中两个是80后、一个是90后,一个在杭州上大学和创业,一个在北京上大学和创业,另一个在美国MIT任教。
21世纪经济报道记者 申俊涵 北京报道开年以来,中国人工智能公司深度求索(DeepSeek)成为全球科技圈、创投圈关注的焦点。其在1月20日推出的DeepSeek-R1推理模型,以极低成本实现媲美OpenAI o1模型的性能。