下一代大模型架构:打破 Transformer 瓶颈的高效能演进

2026.01.6

下一代大模型架构:线性复杂度与混合架构的崛起

1. 任务简介

本次汇报聚焦于“下一代大模型架构”的探索。 [cite_start]当前 LLM 主流架构 Transformer 在处理长序列时面临计算瓶颈,报告旨在讨论如何通过架构创新,寻找 Transformer 的竞争者或继任者(如 RWKV, Mamba, RetNet, TTT 等),以实现更高效的训练与推理 [cite: 3, 6]。

2. 研究动机

尽管 Transformer 统治了当前的大模型领域,但其自注意力机制(Self-Attention)存在天然的物理局限:

  1. [cite_start]显存墙与计算复杂度:Transformer 的计算复杂度随序列长度呈二次方增长($O(N^2)$),导致在长序列(如 2k+)下显存消耗剧增,推理成本高昂 [cite: 7]。
  2. [cite_start]长序列与高吞吐需求:语音、视频、RAG 及 Agent 等任务对长上下文和实时响应提出了更高要求,急需突破 $O(N^2)$ 的限制 [cite: 7]。
  3. [cite_start]架构冗余:研究发现,如 Qwen-Next 等前沿模型中,75% 的模块已替换为 Gated DeltaNet,仅保留少量注意力层即可维持性能 [cite: 6]。

3. 方法设计(架构演进路线)

报告沿着“RNN -> Linear Transformer -> SSM/DeltaNet”的脉络展开了深入分析:

1)回顾与反思:RNN 的复兴

2)新兴架构:SSM 与 RetNet

3)前沿实践:Gated DeltaNet

4. 实施细节

混合架构策略:

推理优势:

5. 实验与结论

总结与展望:

本次组会演示文稿下载