每经记者:宋欣悦 每经编辑:高涵|2025年2月19日星期三|NO.1梁文锋带实习生发论文!DeepSeek降本新招来了2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要关于原生稀疏注意力(NSA)。
DeepSeek突传大动作。2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理。
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。