让AI“过目不忘”？DeepSeek新突破：用记忆轴重构大模型效率极限

一记“记忆快照”，让大模型不再重复造轮子

你有没有想过，为什么人类能快速理解一句话中的常见表达？比如听到“苹果公司”时，大脑几乎瞬间调出相关概念，而无需重新分析每个字的含义。相比之下，传统的大语言模型（LLM）每次遇到相同短语，都得从头计算一遍——这不仅低效，还浪费了宝贵的算力。

现在，DeepSeek 想出了一个聪明的解法：给模型装上一条条件记忆轴，名为 Engram。这不是简单的缓存机制，而是一次对稀疏大模型架构的深刻重构。

在技术层面，Engram 的核心理念是将经典的 N-gram 思想现代化，并嵌入到当前主流的稀疏模型架构中。它不取代现有的混合专家系统（MoE），而是作为其“搭档”，专门负责存储和检索那些高频、静态的知识模式——比如常用短语、命名实体或固定搭配。

关键在于，Engram 实现了 $O(1)$ 时间复杂度的哈希查找。这意味着无论数据库多大，模型都能以恒定速度取出所需信息，就像翻字典时直接跳到指定页码，而不是逐行扫描。

这样一来，主干网络终于可以“轻装上阵”，把注意力留给真正需要深度推理的任务：逻辑推导、长程依赖、抽象思维。

DeepSeek 团队在包含 2620亿 token 的大规模数据集上进行了预训练验证。他们发现，只需将 20%~25% 的稀疏参数预算 分配给 Engram 模块，就能带来显著提升：

换句话说，模型没变大，却变得更“聪明”了。

对于如今动辄支持数万token上下文的大模型来说，如何在海量信息中准确“捞针”，是个巨大挑战。Engram 在这方面同样表现出色。

当上下文窗口扩展至 32,768 token 后，Engram 模型在以下任务中遥遥领先：
– 多查询“大海捞针”（Needle-In-A-Haystack, NIAH）
– 变量跟踪与指代消解

这背后的原因很清晰：通过将静态知识重构任务交给 Engram，主网络减少了层间传递的噪声和损耗，相当于变相增加了有效深度。模型不仅能记住更多，还能更准、更快地调用。

DeepSeek 的这次创新提醒我们：未来的智能系统，或许不该只是“算得快”，更要“记得住、查得快”。

Engram 不只是一个模块，它代表了一种新范式——让记忆与推理分离，各司其职。这种设计思路，可能会成为下一代高效大模型的标准配置。

当 AI 开始学会“条件反射”般的快速响应，我们离真正的认知效率革命，又近了一步。