@TedZhou
2026-03-16T11:08:17.000000Z
字数 1839
阅读 4
AI
在当前的大语言模型 (LLM) 时代,我们几乎优化了架构中的每一个组件——除了层与层之间如何进行通信。自 ResNet 问世以来,“残差连接” (Residual connections) 成为了训练深层网络的绝对标准 。
但随着模型动辄达到上百层,这个经典的架构正面临着严重的效率瓶颈。
将现代 LLM 想象成一个不断变大的“水桶”。当模型处理一个词元 (Token) 时,每一层都会往这个水桶里倒入一杯代表“新信息”的水。标准的残差连接会使用固定的单位权重来累加所有层的输出 。
问题在于,当你到达第 80 层或第 100 层时,前几层倒入的“水”(早期信息)已经被庞大的累加数据彻底淹没。这在技术上被称为 PreNorm 稀释 (PreNorm Dilution)。
“这种均匀的聚合会导致隐藏状态随深度不受控制地增长,从而逐渐稀释每一层的相对贡献。”
为了在这种巨大的背景噪音中“被听到”,更深的网络层不得不输出越来越大的数值 。结果就是,早期的信息被掩埋且无法被选择性地检索,经验表明,即使剪枝掉很大一部分层,模型的损失也极小 。我们的“梯度高速公路”已经拥堵不堪。
为了打破这一僵局,Kimi 团队提出了一个极具启发性的观点:深度,其实只是一种特殊的序列。
就像早期的循环神经网络 (RNN) 试图将整个时间序列压缩成一个单一的状态一样,标准的残差连接也将所有深度的信息压缩成了一个单一的状态 。Transformer 通过引入注意力机制 (Attention) 替代了 RNN 的循环,允许模型在时间序列上进行选择性的回溯 。
注意力残差 (Attention Residuals, 简称 AttnRes) 正是将这种逻辑应用到了模型的“深度”上 。
它不再强制当前层接收之前所有层的“固定总和”,而是用基于 Softmax 的注意力机制取代了固定的累加 。每一层都配备了一个单一的、可学习的伪查询向量 (pseudo-query vector),用于在之前的层中选择性地聚合信息 。
| 架构特性 | 标准残差连接 | 注意力残差 |
|---|---|---|
| 聚合方式 | 固定加法 | Softmax 注意力 |
| 权重分配 | 均匀/固定权重 | 基于内容的动态学习权重 |
| 历史访问 | 只能访问上一层的压缩状态 | 直接访问之前所有独立层的输出 |
数学表达
标准残差:
注意力残差:
让第 100 层去关注前 99 层,听起来很完美,但在拥有千亿参数的模型中,存储所有前置层的输出会导致内存和通信开销随着层数呈线性增长 。
为了将其变为现代基础设施的“即插即用”替代方案,研究人员引入了 Block AttnRes (块注意力残差):
结合基于缓存的流水线通信和两阶段计算策略,Block AttnRes 的训练开销微乎其微,推理延迟增加不到 2% 。
这不仅是学术上的微调,更是模型缩放定律 (Scaling Laws) 的底层重构。在对 480 亿参数模型进行 1.4 万亿词元预训练的实验中,AttnRes 展现出了惊人的“算力折扣”:
从强迫模型“记住所有”到赋予模型“选择性检索”的能力,注意力残差终结了深度网络中陈旧的固定加法时代。我们正在步入一个新的阶段:在这一阶段中,模型的深度和它的上下文窗口一样,都可以被精准、动态且高效地访问。
