查算分离！用至强和AMX加速Engram，性能提升达1.67倍

来源：

2026-02-05

编辑：晓露

近期大模型领域里最火的热词，或者说技术创新点，非Engram (DeepSeek最新论文里设计的Engram机制) 莫属。今天我们想分享的，是英特尔围绕Engram开展的早期探索——用至强? 处理器独立运行整个Engram模块，并使用其内置的英特尔? AMX（高级矩阵扩展）技术对其进行加速的初步成果或收获。

我们希望这次分享，或能作为参考，或是作为开端，能为未来Engram以及集成它的大模型的部署和实践，拓展和探明更多可能性及随之而来的潜在应用优势。

Engram设计初衷:

让大模型走向“查算分离”

让我们先简单回顾Engram的源起，它出现在公众视野，是源自DeepSeek联合北京大学发布的论文《Conditional Memory via Scalable Lookup》。业界对它的评价，是为“破解万物皆推理”模式引发的大模型的记忆困境提供了全新思路。这里提到的记忆困境，指的是宝贵的算力被消耗在本可直接调取的静态知识检索上，这不仅会拖慢响应速度、增加推理成本，还让大模型在复杂任务上的性能突破陷入瓶颈。

该论文创新地在大模型中提出了“查算分离”理念，通过Engram引入外置记忆模块，将“静态、常见、局部”的知识从计算里解放出来，在拉升检索效率至O(1)复杂度的同时，也把宝贵的算力资源留给Transformer专心做上下文理解和推理。

Engram核心创新：

用“外置记忆模块”实现查算分离理念

Engram将“查算分离”落到实处的做法，就是把大模型里的“计算”和“超大规模记忆”解耦，Transformer的算子全部在GPU/加速卡上计算，而庞大的Engram Embedding表放在CPU内存或高速存储设备上存查。如图1所示，GPU与CPU分工合作并通过异步方式协同，GPU执行前一步计算的同时，CPU可提前预取后续计算所需的N-gram Embedding表，当计算执行到“Transformer Block with Engram”时，所需的静态知识已经就位。

这种分工模式改变了传统大模型“推理既要计算又要记忆”的状态，就像给学者配备了一本可即时查阅的百科词典，无需每次都从头推导基础知识点，而是将精力集中在深度思考上。