学术报告 | PKU-Exploit

下一代大模型架构：打破 Transformer 瓶颈的高效能演进

2026.01.6

下一代大模型架构：线性复杂度与混合架构的崛起

1. 任务简介

本次汇报聚焦于“下一代大模型架构”的探索。 [cite_start]当前 LLM 主流架构 Transformer 在处理长序列时面临计算瓶颈，报告旨在讨论如何通过架构创新，寻找 Transformer 的竞争者或继任者（如 RWKV, Mamba, RetNet, TTT 等），以实现更高效的训练与推理 [cite: 3, 6]。

2. 研究动机

尽管 Transformer 统治了当前的大模型领域，但其自注意力机制（Self-Attention）存在天然的物理局限：

[cite_start]显存墙与计算复杂度：Transformer 的计算复杂度随序列长度呈二次方增长（$O(N^2)$），导致在长序列（如 2k+）下显存消耗剧增，推理成本高昂 [cite: 7]。
[cite_start]长序列与高吞吐需求：语音、视频、RAG 及 Agent 等任务对长上下文和实时响应提出了更高要求，急需突破 $O(N^2)$ 的限制 [cite: 7]。
[cite_start]架构冗余：研究发现，如 Qwen-Next 等前沿模型中，75% 的模块已替换为 Gated DeltaNet，仅保留少量注意力层即可维持性能 [cite: 6]。

3. 方法设计（架构演进路线）

报告沿着“RNN -> Linear Transformer -> SSM/DeltaNet”的脉络展开了深入分析：

1）回顾与反思：RNN 的复兴

[cite_start]RNN/LSTM：虽然推理效率高（$O(1)$ 或 $O(N)$），但因无法并行训练且存在长程遗忘问题而被 Transformer 取代 [cite: 8]。
[cite_start]线性 Transformer (Linear Transformer)：尝试通过核技巧（Kernel Trick）去除 Softmax，将注意力机制转化为线性复杂度，使其具备 RNN 的推理形式 [cite: 34, 128]。

2）新兴架构：SSM 与 RetNet

[cite_start]RetNet (Retentive Network)：结合了 Transformer 的并行训练优势和 RNN 的低成本推理优势，提出了多尺度保留机制 [cite: 128]。
[cite_start]SSM (State Space Models)：如 Mamba 及其变体，通过结构化状态空间模型实现了对长序列的高效建模 [cite: 128]。

3）前沿实践：Gated DeltaNet

[cite_start]技术核心：利用 Gated Delta 规则更新隐状态，这是一种更高效的线性更新机制，能够更好地捕捉上下文信息 [cite: 128]。
[cite_start]Qwen-Next 实践：在 Qwen3-Next 中，大部分 Transformer Block 被替换为 Gated DeltaNet，显著降低了推理复杂度，实现了向线性模型的转型 [cite: 6]。

4. 实施细节

混合架构策略：

纯线性模型（如纯 SSM）在“联想回忆”（Associative Recall）等任务上仍弱于注意力机制。
[cite_start]因此，Hybrid（混合）架构成为当前最佳实践：在大部分层使用高效的线性层（如 Gated DeltaNet, Mamba），仅在关键位置保留少量滑动窗口注意力（Sliding Window Attention）或全局注意力层，以兼顾效率与性能 [cite: 6]。

推理优势：

[cite_start]通过将架构替换为 Gated DeltaNet 等变体，推理复杂度可直接降至 $O(N)$，极大地提升了模型在长文本生成时的吞吐量 [cite: 6]。

5. 实验与结论

总结与展望：

Transformer 并非终点：为了解决 $O(N^2)$ 问题，架构正向 RNN 范式的“对偶形式”回归。
线性化是趋势：无论是 RetNet、Mamba 还是 Gated DeltaNet，核心目标都是在保持 Transformer 并行训练优势的同时，获得 RNN 的常数级推理显存占用。
[cite_start]未来方向：混合架构（Hybrid Architectures）将在未来一段时间内主导大模型的设计，平衡“记忆能力”与“推理速度” [cite: 6, 128]。

本次组会演示文稿下载