2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
人工智能正处于创新爆发期,唯有持续创新,才能留在舞台中心。DeepSeek彻底走开源路线,它的大模型既性能优异,训练成本和使用成本又都超低,让人工智能从业者燃起了“我也能行”的希望,让各行各业燃起了“赶紧把人工智能用起来吧”的热情。
到 2024 年 11 月底,豆包 APP 的累计用户规模已超 1.6 亿,每日平均新增用户下载量稳定在 80 万,日活跃用户数接近 900 万,增长率超过 15%,在全球 AI 应用中排名第二,仅次于 ChatGPT,在国内 AI 应用领域,与 Kimi 等竞品形成了 “两超多强” 的新格局。
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。