DeepSeep发布NSA最新论文

资讯

DeepSeek发布最新技术论文
DeepSeek突传大动作。2月18日，DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理。
证券时报
DeepSeek 新论文打脸马斯克 Grok3，挑落美国 AI 霸权
DeepSeek发布的NSA技术新论文，给长文本处理带来了大变革！这技术在64K文本场景下，解码速度快了11.6倍，前向、反向传播速度分别提升9倍和6倍，性能超厉害！
无敌小多多
国泰君安：DeepSeek NSA架构引领AI效率革新
e公司讯，国泰君安证券研究指出，DeepSeek发布NSA（Native Sparse Attention）相关论文，突破长文本处理瓶颈，低成本模型训练可行性推动AI大模型转向算法效率竞争。
证券时报e公司
1评论
刚刚！DeepSeek梁文锋亲自挂名，公开新注意力架构NSA
最近大模型的突破 —— 如 OpenAI 的 o 系列模型、DeepSeek-R1 和 Gemini 1.5 Pro—— 已经能使得模型能够处理整个代码库、长文档、在数千个 token 上保持连贯的多轮对话，并在长距离依赖关系中进行复杂推理。作者在一个 8-GPU A100 系统上评估了 NSA 相对于 Full Attention 的计算效率。
机器之心Pro
146评论
梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍
2 月 18 日，马斯克发布 Grok 3 的热度还没过去，梁文锋就作为 co-authors 带着 DeepSeek 研究团队杀了回来。
AI科技评论
2评论
马斯克与DeepSeek NSA技术论文同日发布，再掀技术路线之争
在人工智能领域的激烈竞争中，埃隆·马斯克旗下xAI公司于2月18日正式发布新一代大模型Grok-3，宣称其为“地球上最聪明的人工智能”。
高魔研究院
梁文锋、杨植麟论文“撞车”，直指算法优化，挑战ChatGPT核心机制！风投公司RAI Digital联合创始人：AI无需读完整本书，将更快、更高效
北京时间2月18日，在马斯克还在庆祝Grok 3模型正式发布的时候，DeepSeek官方在社交平台X上发布了一篇纯技术论文，主要是关于原生稀疏注意力，直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
每日经济新闻
129评论

视频

问答