一记“记忆快照”,让大模型不再重复造轮子
你有没有想过,为什么人类能快速理解一句话中的常见表达?比如听到“苹果公司”时,大脑几乎瞬间调出相关概念,而无需重新分析每个字的含义。相比之下,传统的大语言模型(LLM)每次遇到相同短语,都得从头计算一遍——这不仅低效,还浪费了宝贵的算力。
现在,DeepSeek 想出了一个聪明的解法:给模型装上一条条件记忆轴,名为 Engram。这不是简单的缓存机制,而是一次对稀疏大模型架构的深刻重构。
Engram 是什么?一个 $O(1)$ 的“知识速查本”
在技术层面,Engram 的核心理念是将经典的 N-gram 思想现代化,并嵌入到当前主流的稀疏模型架构中。它不取代现有的混合专家系统(MoE),而是作为其“搭档”,专门负责存储和检索那些高频、静态的知识模式——比如常用短语、命名实体或固定搭配。
关键在于,Engram 实现了 $O(1)$ 时间复杂度的哈希查找。这意味着无论数据库多大,模型都能以恒定速度取出所需信息,就像翻字典时直接跳到指定页码,而不是逐行扫描。
这样一来,主干网络终于可以“轻装上阵”,把注意力留给真正需要深度推理的任务:逻辑推导、长程依赖、抽象思维。
效率与性能双飞跃:27B 模型跑赢更大对手
DeepSeek 团队在包含 2620亿 token 的大规模数据集上进行了预训练验证。他们发现,只需将 20%~25% 的稀疏参数预算 分配给 Engram 模块,就能带来显著提升:
- 在 Engram-27B 和 Engram-40B 模型中,尽管激活参数数量保持不变,但验证损失明显下降。
- 更重要的是,在多项权威基准测试中,这些模型全面超越同规模的传统 MoE 架构:
- MMLU(多任务语言理解)得分更高
- GSM8K(数学推理)表现更稳
- 代码生成与复杂推理任务也展现出更强泛化能力
换句话说,模型没变大,却变得更“聪明”了。
长文本处理的新标杆:32K上下文下的精准召回
对于如今动辄支持数万token上下文的大模型来说,如何在海量信息中准确“捞针”,是个巨大挑战。Engram 在这方面同样表现出色。
当上下文窗口扩展至 32,768 token 后,Engram 模型在以下任务中遥遥领先:
– 多查询“大海捞针”(Needle-In-A-Haystack, NIAH)
– 变量跟踪与指代消解
这背后的原因很清晰:通过将静态知识重构任务交给 Engram,主网络减少了层间传递的噪声和损耗,相当于变相增加了有效深度。模型不仅能记住更多,还能更准、更快地调用。
结语:记忆,或许是通向高效AGI的关键拼图
DeepSeek 的这次创新提醒我们:未来的智能系统,或许不该只是“算得快”,更要“记得住、查得快”。
Engram 不只是一个模块,它代表了一种新范式——让记忆与推理分离,各司其职。这种设计思路,可能会成为下一代高效大模型的标准配置。
当 AI 开始学会“条件反射”般的快速响应,我们离真正的认知效率革命,又近了一步。