每经记者:宋欣悦 每经编辑:高涵|2025年2月19日星期三|NO.1梁文锋带实习生发论文!DeepSeek降本新招来了2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要关于原生稀疏注意力(NSA)。
2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制,用普通股民能懂的语言表述:这篇论文,梁文锋参与著作!论文介绍了新机制,可使AI模型进一步降本增效,含义有几个方面:一是对Ai模型研究有重大创新!
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。