deepseek论文梁文锋

资讯

DeepSeek又发新论文，梁文锋亲自参与
昨天马斯克刚公布grok3，不久，DeepSeek团队发布一篇新论文，介绍了一种改进的稀疏注意力机制NSA，可用于超快速的长上下文训练与推理。
前名王同学
DeepSeek发布最新技术论文，梁文锋是共创之一
2月18日，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力），官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
第一财经
30评论
梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍
2 月 18 日，马斯克发布 Grok 3 的热度还没过去，梁文锋就作为 co-authors 带着 DeepSeek 研究团队杀了回来。
雷峰网
59评论
梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效
《科创板日报》2月18日讯（编辑宋子乔）2月18日，DeepSeek团队发布一篇论文介绍了新的注意力机制NSA（Natively Sparse Attention，原生稀疏注意力机制）。
财联社
9评论
梁文锋带实习生发论文！DeepSeek降本新招来了；OpenAI谋划开源，奥尔特曼在线征集方案丨全球科技早参
每经记者：宋欣悦每经编辑：高涵｜2025年2月19日星期三｜NO.1梁文锋带实习生发论文！DeepSeek降本新招来了2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要关于原生稀疏注意力（NSA）。
每日经济新闻
2评论
DeepSeek开源第四弹“教”优化，梁文锋参与研发
2月27日，DeepSeek开源周（OpenSourceWeek）第四弹来了，DeepSeek在X上宣布这次开源的是三项优化并行策略，并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术，通过这些阐述可以清晰了解团队是如何精细地优化计算和通信，最大限
第一财经
2评论
刚刚！DeepSeek重大发布！梁文锋参与共创！
2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力）。
每日经济新闻
46评论
梁文锋、杨植麟论文“撞车”，直指算法优化，挑战ChatGPT核心机制！风投公司RAI Digital联合创始人：AI无需读完整本书，将更快、更高效
北京时间2月18日，在马斯克还在庆祝Grok 3模型正式发布的时候，DeepSeek官方在社交平台X上发布了一篇纯技术论文，主要是关于原生稀疏注意力，直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
每日经济新闻
132评论
马斯克向左梁文锋向右
而同一天，DeepSeek的梁文锋和Kimi的杨植麟分别在专业网站上发布了自己参与的论文，这两篇论文均与如何减少长文本计算量，加快训练效率有关。
新京报
413评论
DeepSeek发布最新技术论文
DeepSeek突传大动作。 2月18日，DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理。
证券时报
2评论
梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么
2月18日，在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。
澎湃新闻
3评论
DeepSeek发布最新技术论文；雷军：下决心把AI技术落到各个终端产品上｜大公司动态
【科技圈】雷军：下决心把AI技术落到各个终端产品上2月17日，结束民营企业座谈会后，小米科技有限责任公司董事长雷军接受专访。雷军表示，小米创业的15年来，一直聚焦在手机、汽车、智能家居、智能制造这些领域。
第一财经
21评论

加载更多

视频

加载更多