下一代大模型架构:打破 Transformer 瓶颈的高效能演进
2026.01.6
下一代大模型架构:线性复杂度与混合架构的崛起
1. 任务简介
本次汇报聚焦于“下一代大模型架构”的探索。
[cite_start]当前 LLM 主流架构 Transformer 在处理长序列时面临计算瓶颈,报告旨在讨论如何通过架构创新,寻找 Transformer 的竞争者或继任者(如 RWKV, Mamba, RetNet, TTT 等),以实现更高效的训练与推理 [cite: 3, 6]。
2. 研究动机
尽管 Transformer 统治了当前的大模型领域,但其自注意力机制(Self-Attention)存在天然的物理局限:
- [cite_start]显存墙与计算复杂度:Transformer 的计算复杂度随序列长度呈二次方增长($O(N^2)$),导致在长序列(如 2k+)下显存消耗剧增,推理成本高昂 [cite: 7]。
- [cite_start]长序列与高吞吐需求:语音、视频、RAG 及 Agent 等任务对长上下文和实时响应提出了更高要求,急需突破 $O(N^2)$ 的限制 [cite: 7]。
- [cite_start]架构冗余:研究发现,如 Qwen-Next 等前沿模型中,75% 的模块已替换为 Gated DeltaNet,仅保留少量注意力层即可维持性能 [cite: 6]。
3. 方法设计(架构演进路线)
报告沿着“RNN -> Linear Transformer -> SSM/DeltaNet”的脉络展开了深入分析:
1)回顾与反思:RNN 的复兴
- [cite_start]RNN/LSTM:虽然推理效率高($O(1)$ 或 $O(N)$),但因无法并行训练且存在长程遗忘问题而被 Transformer 取代 [cite: 8]。
- [cite_start]线性 Transformer (Linear Transformer):尝试通过核技巧(Kernel Trick)去除 Softmax,将注意力机制转化为线性复杂度,使其具备 RNN 的推理形式 [cite: 34, 128]。
2)新兴架构:SSM 与 RetNet
- [cite_start]RetNet (Retentive Network):结合了 Transformer 的并行训练优势和 RNN 的低成本推理优势,提出了多尺度保留机制 [cite: 128]。
- [cite_start]SSM (State Space Models):如 Mamba 及其变体,通过结构化状态空间模型实现了对长序列的高效建模 [cite: 128]。
3)前沿实践:Gated DeltaNet
- [cite_start]技术核心:利用 Gated Delta 规则更新隐状态,这是一种更高效的线性更新机制,能够更好地捕捉上下文信息 [cite: 128]。
- [cite_start]Qwen-Next 实践:在 Qwen3-Next 中,大部分 Transformer Block 被替换为 Gated DeltaNet,显著降低了推理复杂度,实现了向线性模型的转型 [cite: 6]。
4. 实施细节
混合架构策略:
- 纯线性模型(如纯 SSM)在“联想回忆”(Associative Recall)等任务上仍弱于注意力机制。
- [cite_start]因此,Hybrid(混合)架构成为当前最佳实践:在大部分层使用高效的线性层(如 Gated DeltaNet, Mamba),仅在关键位置保留少量滑动窗口注意力(Sliding Window Attention)或全局注意力层,以兼顾效率与性能 [cite: 6]。
推理优势:
- [cite_start]通过将架构替换为 Gated DeltaNet 等变体,推理复杂度可直接降至 $O(N)$,极大地提升了模型在长文本生成时的吞吐量 [cite: 6]。
5. 实验与结论
总结与展望:
- Transformer 并非终点:为了解决 $O(N^2)$ 问题,架构正向 RNN 范式的“对偶形式”回归。
- 线性化是趋势:无论是 RetNet、Mamba 还是 Gated DeltaNet,核心目标都是在保持 Transformer 并行训练优势的同时,获得 RNN 的常数级推理显存占用。
- [cite_start]未来方向:混合架构(Hybrid Architectures)将在未来一段时间内主导大模型的设计,平衡“记忆能力”与“推理速度” [cite: 6, 128]。
本次组会演示文稿下载