[关闭]
@TedZhou 2026-03-16T11:08:17.000000Z 字数 1839 阅读 4

告别“固定加法”:注意力残差 (Attention Residuals) 如何重写大模型深度的规则

AI


在当前的大语言模型 (LLM) 时代,我们几乎优化了架构中的每一个组件——除了层与层之间如何进行通信。自 ResNet 问世以来,“残差连接” (Residual connections) 成为了训练深层网络的绝对标准 。

但随着模型动辄达到上百层,这个经典的架构正面临着严重的效率瓶颈。


🪣 引言:现代 AI 的“水桶”难题与稀释危机

将现代 LLM 想象成一个不断变大的“水桶”。当模型处理一个词元 (Token) 时,每一层都会往这个水桶里倒入一杯代表“新信息”的水。标准的残差连接会使用固定的单位权重来累加所有层的输出 。

问题在于,当你到达第 80 层或第 100 层时,前几层倒入的“水”(早期信息)已经被庞大的累加数据彻底淹没。这在技术上被称为 PreNorm 稀释 (PreNorm Dilution)

“这种均匀的聚合会导致隐藏状态随深度不受控制地增长,从而逐渐稀释每一层的相对贡献。”

为了在这种巨大的背景噪音中“被听到”,更深的网络层不得不输出越来越大的数值 。结果就是,早期的信息被掩埋且无法被选择性地检索,经验表明,即使剪枝掉很大一部分层,模型的损失也极小 。我们的“梯度高速公路”已经拥堵不堪。


⏳ 核心突破:时间与深度的二象性 (Time-Depth Duality)

为了打破这一僵局,Kimi 团队提出了一个极具启发性的观点:深度,其实只是一种特殊的序列。

就像早期的循环神经网络 (RNN) 试图将整个时间序列压缩成一个单一的状态一样,标准的残差连接也将所有深度的信息压缩成了一个单一的状态 。Transformer 通过引入注意力机制 (Attention) 替代了 RNN 的循环,允许模型在时间序列上进行选择性的回溯 。

注意力残差 (Attention Residuals, 简称 AttnRes) 正是将这种逻辑应用到了模型的“深度”上 。

它不再强制当前层接收之前所有层的“固定总和”,而是用基于 Softmax 的注意力机制取代了固定的累加 。每一层都配备了一个单一的、可学习的伪查询向量 (pseudo-query vector),用于在之前的层中选择性地聚合信息 。

架构特性 标准残差连接 注意力残差
聚合方式 固定加法 Softmax 注意力
权重分配 均匀/固定权重 基于内容的动态学习权重
历史访问 只能访问上一层的压缩状态 直接访问之前所有独立层的输出

数学表达
标准残差:
注意力残差:


⚙️ 工程奇迹:让理论在大规模训练中落地

让第 100 层去关注前 99 层,听起来很完美,但在拥有千亿参数的模型中,存储所有前置层的输出会导致内存和通信开销随着层数呈线性增长 。

为了将其变为现代基础设施的“即插即用”替代方案,研究人员引入了 Block AttnRes (块注意力残差)

结合基于缓存的流水线通信和两阶段计算策略,Block AttnRes 的训练开销微乎其微,推理延迟增加不到 2% 。


🏆 惊艳成果:25% 的“算力折扣”

这不仅是学术上的微调,更是模型缩放定律 (Scaling Laws) 的底层重构。在对 480 亿参数模型进行 1.4 万亿词元预训练的实验中,AttnRes 展现出了惊人的“算力折扣”:

结语

从强迫模型“记住所有”到赋予模型“选择性检索”的能力,注意力残差终结了深度网络中陈旧的固定加法时代。我们正在步入一个新的阶段:在这一阶段中,模型的深度和它的上下文窗口一样,都可以被精准、动态且高效地访问。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注