R2还没来,但DeepSeek的秘密武器已经“剧透”了

【来源:虎嗅网】

DeepSeek R2还没来,但DeepSeek下一代模型的更新,已经提前在今年的ACL最佳论文中“剧透”了。

昨天,全球自然语言处理领域的顶级会议ACL公布了今年的最佳论文。

这个会议堪称自然语言处理领域的“世界杯”,不仅是未来一两年大语言模型的风向标,而且从这里走出的顶尖技术,往往会迅速被全行业采纳。当年颠覆了整个AI领域的Transformer架构,最初就是在这里崭露头角的。

而今年,一篇由DeepSeek和北京大学联合完成的论文斩获了“最佳论文奖”:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

从标题就能看出,这是一篇非常硬核的技术论文,关键词密度拉满:Sparse Attention(稀疏注意力)、Hardware-Aligned(硬件对齐)、Trainable(可训练)……

但即便如此,它依然值得所有关注大模型未来的人认真读一遍,因为它首次把稀疏注意力从理论推理带进了完整训练流程,在保持模型性能的同时,还带来了高达11倍的推理加速。

论文第一作者北京大学硕转博研究生袁境阳(左三),导师张铭(右一),图片来源:X @aclmeeting

对DeepSeek来说,这不仅是一次学术认可,更可能是下一代模型落地的技术预演

为什么“长文本”这么难?AI的“注意力涣散症”

要理解DeepSeek这个技术的牛X之处,得先知道现在大模型处理长文本的“痛”。

目前,所有大模型的核心技术之一都叫“注意力机制”(Attention),这也是大语言模型的奠基之作“Attention Is All You Need”。

关于注意力机制,你可以把它想象成一个学生在课堂上听讲。

传统的“全注意力”(Full Attention)机制,就像一个记忆力超群但效率极低的学生。老师每说一个新词(Query),他都要把这个词和从开学第一天到现在说过的每一个词(Keys/Values)都重新比对一遍,来理解新词的含义。

论文中的对比图显示,NSA(红色)在各项基准测试中性能均优于或持平全注意力(橙色),同时在解码、前向和后向传播等各个阶段都实现了巨大的速度提升。

当文本很短时,这没问题。

但当文本长达几十万字时,这种“每个字都和前面所有字比对”的计算量会呈平方级暴增。这不仅让模型响应变得巨慢,训练和推理的成本也高到离谱。

这就是为什么我们现在用的大模型,虽然上下文窗口越来越大,但一旦接近极限,速度就会明显变慢,API价格也更贵。

论文里面也提到传统的注意力机制,在64k上下文长度下,softmax attention(传统注意力机制中的一个模块)的计算占据了整个推理延迟的70%–80%。

DeepSeek的解法:像人一样“抓重点”

为了解决这个问题,过去一段时间,诞生了各种稀疏attention技术。

从这个月Kimi K2技术报告里面提到,使用自动调节的QK-Clip机制,做到“万亿总参数,激活参数仅百亿,保持在训练友好的稀疏度”。

到Manus在这个月也发布了一篇博客,提到了“六大上下文工程法则”,提高KV-Cache命中率,用文件系统承载持久上下文。

2024年的一篇论文提到当时的大语言模型上下文长度情况

但无论是token距离限制,还是KV cache剪枝,它们大多都还有两个问题:

1. 只能用在推理阶段,训练阶段还得用full attention。

2. 稀疏注意力在理论上快,但实际跑得慢,尤其是在多卡部署、A100/V100上。

科学家们提出了“稀疏注意力”(Sparse Attention),想法很简单:没必要看每一个字,只关注重要的部分就行。但这说起来容易做起来难,很多旧方法要么是速度提不上去,要么是丢掉了关键信息导致性能下降。

图片来源:X @casper_hansen_

而DeepSeek和北大的这篇最佳论文提出的NSA(Natively Sparse Attention,原生稀疏注意力)就是解决这些问题。它的核心思想是模仿人类阅读长篇报告时的智慧:

粗读摘要(Token Compression):首先,NSA会将长文本中较早的内容打包成一个个“压缩块”,像阅读章节摘要一样,快速把握全局的粗略信息。这保证了模型不会忘记百八十页之前提到的关键前提。

精读重点(Token Selection):在理解了全局大意后,模型会根据当前需要处理的内容,回头去“选中”之前那些最相关的原文细节块进行精读。比如,在回答关于第三章的问题时,就重点去看第三章的原文,而不是全文扫视。

强记最近(Sliding Window):就像我们总能清晰记得刚刚读过的那几段话,NSA也会专门保留一个“滑动窗口”,对最近的上下文信息保持最精细的注意力。

NSA架构概述图,NSA像一个聪明的读者,通过三种方式(Compression压缩、Selection选择、Sliding滑动窗口)来处理信息,并通过一个“门控”机制动态决定哪部分信息更重要。

最妙的是,NSA通过一个“门控机制”动态地学习如何平衡这三种阅读策略。

此外,NSA是“原生可训练”的,意味着模型从预训练开始就在学习这种高效的注意力分配方法,而不是等模型长大了(推理阶段)再强行给它加装一个稀疏机制。

这使得NSA的稀疏模式和模型的其他部分能够完美协同,最终实现了性能和效率的双重飞跃。

实测结果:训练更快,推理更强,性能不降反升

DeepSeek在论文中用详尽的实验数据证明了NSA的强大实力。

性能不降反升:在MMLU、GSM8K等一系列通用知识、推理和代码能力的标准测试中,搭载了NSA的27B模型在9项指标中的7项都击败了传统的全注意力模型。

尤其在考验推理能力的DROP和GSM8K测试中,提升显著。这说明,通过稀疏化滤除噪声信息,反而可能让模型更专注于关键逻辑。

长文本理解能力拔尖:在经典的“大海捞针”测试中,NSA在64k(约8万字)的超长文本中做到了100%的信息检索准确率,无论信息藏在哪个角落都能精准找到。

在更复杂的LongBench评测中,NSA的平均分也超越了包括全注意力在内的大部分基线方法。

速度快到飞起:这是最令人兴奋的部分。与目前最高效的全注意力实现FlashAttention-2相比,NSA在处理64k长度的序列时:

基于Triton的NSA内核与基于Triton的FlashAttention-2内核的比较。NSA的实现显著降低了所有上下文长度下的延迟,并且随着输入长度的增加,改进效果更加明显。

训练速度:前向计算加速9.0倍,反向传播加速6.0倍。这意味着训练新模型的效率大大提高。

推理速度:用户最关心的生成回复阶段(解码),速度提升了惊人的11.6倍。

这意味着,过去你需要等半分钟才能获得的长篇分析,未来可能几秒钟就搞定了。

DeepSeek的未来:更快、更强、更便宜?

上下文长度正在成为大模型新能力的战场。无论是跨文件代码补全、长文档摘要,还是多轮复杂对话,模型都需要在10万甚至百万Token级别的上下文中快速定位、理解、推理。

这项由DeepSeek和北大的研究员主导完成的研究,几乎可以肯定,NSA技术将成为未来DeepSeek系列大模型的核心竞争力之一。

NSA Kernel设计,保证了GPU总是在其最快的内存上进行计算

NSA已经跑完了在27B、MoE架构上的完整预训练验证,训练框架也基于DeepSeek自研的MoE系统,兼容GQA架构、FlashAttention-2内核,并使用Triton(英伟达开源的推理服务框架)重写了关键kernel。

这意味着,它不仅仅是一个“可以做”的研究,而是一个“准备好落地”的系统模块。

对于我们普通用户来说,未来可以直接将整本书、几十份财报、一个完整的GitHub项目代码库扔给AI,让它进行深度分析、总结和问答,而无需手动拆分。

DeepSeek的响应速度也会更快,而计算效率的巨大提升,最终会传导到API的价格上,我们的使用成本也会更低。

部分模型定价对比,图片来源:https://artificialanalysis.ai/

从“价格屠夫”到技术引领者,DeepSeek正在通过像NSA这样坚实的技术创新,一步步构建自己的护城河。

这看起来不仅是学术界的胜利,更是整个AI应用生态即将迎来又一次提速的号角。

接下来就拭目以待,看看搭载了“原生稀疏注意力”的下一代DeepSeek大模型,会给我们带来怎样的惊喜。

论文地址:https://arxiv.org/abs/2502.11089

本文来自微信公众号:APPSO (ID:appsolution)