@TedZhou 2026-03-16T11:08:17.000000Z 字数 1839 阅读 284

告别“固定加法”：注意力残差 (Attention Residuals) 如何重写大模型深度的规则

AI

在当前的大语言模型 (LLM) 时代，我们几乎优化了架构中的每一个组件——除了层与层之间如何进行通信。自 ResNet 问世以来，“残差连接” (Residual connections) 成为了训练深层网络的绝对标准。

但随着模型动辄达到上百层，这个经典的架构正面临着严重的效率瓶颈。

将现代 LLM 想象成一个不断变大的“水桶”。当模型处理一个词元 (Token) 时，每一层都会往这个水桶里倒入一杯代表“新信息”的水。标准的残差连接会使用固定的单位权重来累加所有层的输出。

问题在于，当你到达第 80 层或第 100 层时，前几层倒入的“水”（早期信息）已经被庞大的累加数据彻底淹没。这在技术上被称为 PreNorm 稀释 (PreNorm Dilution)。

“这种均匀的聚合会导致隐藏状态随深度不受控制地增长，从而逐渐稀释每一层的相对贡献。”

为了在这种巨大的背景噪音中“被听到”，更深的网络层不得不输出越来越大的数值。结果就是，早期的信息被掩埋且无法被选择性地检索，经验表明，即使剪枝掉很大一部分层，模型的损失也极小。我们的“梯度高速公路”已经拥堵不堪。

为了打破这一僵局，Kimi 团队提出了一个极具启发性的观点：深度，其实只是一种特殊的序列。

就像早期的循环神经网络 (RNN) 试图将整个时间序列压缩成一个单一的状态一样，标准的残差连接也将所有深度的信息压缩成了一个单一的状态 $h_{l}$ 。Transformer 通过引入注意力机制 (Attention) 替代了 RNN 的循环，允许模型在时间序列上进行选择性的回溯。

注意力残差 (Attention Residuals, 简称 AttnRes) 正是将这种逻辑应用到了模型的“深度”上。

它不再强制当前层接收之前所有层的“固定总和”，而是用基于 Softmax 的注意力机制取代了固定的累加。每一层都配备了一个单一的、可学习的伪查询向量 (pseudo-query vector)，用于在之前的层中选择性地聚合信息。

数学表达
标准残差： $h_{l}=h_{l-1}+f_{l-1}(h_{l-1})$
注意力残差： $h_{l}=\sum_{i=0}^{l-1}\alpha_{i\rightarrow l}\cdot v_{i}$

让第 100 层去关注前 99 层，听起来很完美，但在拥有千亿参数的模型中，存储所有前置层的输出会导致内存和通信开销随着层数呈线性增长。

为了将其变为现代基础设施的“即插即用”替代方案，研究人员引入了 Block AttnRes (块注意力残差)：

结合基于缓存的流水线通信和两阶段计算策略，Block AttnRes 的训练开销微乎其微，推理延迟增加不到 2% 。

这不仅是学术上的微调，更是模型缩放定律 (Scaling Laws) 的底层重构。在对 480 亿参数模型进行 1.4 万亿词元预训练的实验中，AttnRes 展现出了惊人的“算力折扣”：

算力等效性：Block AttnRes 能够达到与使用 1.25 倍算力训练的基线模型相同的损失水平。
更健康的训练动态：它有效缓解了 PreNorm 稀释问题，使隐藏状态的幅度在各个块之间保持有界。
均匀的梯度分布：注意力机制引入了概率质量的竞争，使得梯度在整个深度上的分布更加均匀。
推理能力飙升：在下游任务中，改善的深度信息流显著提升了多步推理（如 GPQA-Diamond 提升 7.5 分）和代码生成（如 HumanEval 提升 3.1 分）的表现。

从强迫模型“记住所有”到赋予模型“选择性检索”的能力，注意力残差终结了深度网络中陈旧的固定加法时代。我们正在步入一个新的阶段：在这一阶段中，模型的深度和它的上下文窗口一样，都可以被精准、动态且高效地访问。