头条 科技 产经 消电 智能 手机 芯片 软件 电商 English
中国IT产经新闻网-移动互联网与智能搜索领域是未来IT产业发展的趋势!
中国IT产经新闻/科技产业/正文
查算分离!用至强和AMX加速Engram,性能提升达1.67倍
来源:
2026-02-05
编辑:晓露

近期大模型领域里最火的热词,或者说技术创新点,非Engram (DeepSeek最新论文里设计的Engram机制) 莫属。今天我们想分享的,是英特尔围绕Engram开展的早期探索——用至强? 处理器独立运行整个Engram模块,并使用其内置的英特尔? AMX(高级矩阵扩展)技术对其进行加速的初步成果或收获。

我们希望这次分享,或能作为参考,或是作为开端,能为未来Engram以及集成它的大模型的部署和实践,拓展和探明更多可能性及随之而来的潜在应用优势。

Engram设计初衷:

让大模型走向“查算分离”

让我们先简单回顾Engram的源起,它出现在公众视野,是源自DeepSeek联合北京大学发布的论文《Conditional Memory via Scalable Lookup》。业界对它的评价,是为“破解万物皆推理”模式引发的大模型的记忆困境提供了全新思路。这里提到的记忆困境,指的是宝贵的算力被消耗在本可直接调取的静态知识检索上,这不仅会拖慢响应速度、增加推理成本,还让大模型在复杂任务上的性能突破陷入瓶颈。

该论文创新地在大模型中提出了“查算分离”理念,通过Engram引入外置记忆模块,将“静态、常见、局部”的知识从计算里解放出来,在拉升检索效率至O(1)复杂度的同时,也把宝贵的算力资源留给Transformer专心做上下文理解和推理。

Engram核心创新:

用“外置记忆模块”实现查算分离理念

Engram将“查算分离”落到实处的做法,就是把大模型里的“计算”和“超大规模记忆”解耦,Transformer的算子全部在GPU/加速卡上计算,而庞大的Engram Embedding表放在CPU内存或高速存储设备上存查。如图1所示,GPU与CPU分工合作并通过异步方式协同,GPU执行前一步计算的同时,CPU可提前预取后续计算所需的N-gram Embedding表,当计算执行到“Transformer Block with Engram”时,所需的静态知识已经就位。

这种分工模式改变了传统大模型“推理既要计算又要记忆”的状态,就像给学者配备了一本可即时查阅的百科词典,无需每次都从头推导基础知识点,而是将精力集中在深度思考上。


产业点评更多
厂商动态更多
热门综合更多
CopyRight @ 2008-2026 中国IT产经新闻网 All Right Reserved 违者必究 湘ICP备2022017330号-2