DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
梁文峰与杨植麟,DeepSeek与月之暗面,颇有些当代版“既生瑜,何生亮”的意思。需要提醒大家,即便如今所有的镁光灯都聚焦在DeepSeek-R1上,但光环之外仍有人在努力,简单地归因和粗暴地判断于当下而言都是极其傲慢的。
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
在中国当下的环境中,无论创业还是工作,城市、行业的重要性远超过大学对个人的赋能。因为Deepseek爆火,网民总结了中国 “AI 三杰”的说法:Deepseek创始人梁文锋、kimi 创始人杨植麟,以及人工智能领域杰出科学家何恺明 。