KAN:基于 Kolmogorov-Arnold 定理的新型神经网络架构
2025.12.30
KAN:重塑神经网络范式与可解释性探索
1. 任务简介
本次汇报聚焦于一种名为 KAN (Kolmogorov-Arnold Networks) 的新型神经网络架构 。 该工作基于 Kolmogorov-Arnold 表示定理,旨在打破传统多层感知机(MLP)的架构限制,构建一种既能保证高精度拟合,又具备“白盒”可解释性的模型,该成果已入选 ICLR 2025 。
2. 研究动机
尽管 MLP 基于通用逼近定理可以拟合任意连续函数,但在实际科学任务中面临三大核心痛点:
-
黑箱模型: 学到的知识难以解释,无法“阅读”网络内部逻辑 。
-
参数爆炸: 在科学计算任务中往往精度较低,需要海量参数才能达到预期效果 。
-
科学发现难: 难以从模型中提取新的物理定律或数学公式 。
3. 方法设计
报告深入解析了 KAN 的核心理论与架构创新:
1)理论基础:K-A 定理 vs. UAT
- 核心思想:Kolmogorov-Arnold 表示定理证明了任何多变量函数都可以表示为单变量函数的叠加 。
- 架构差异:
- MLP:节点上使用固定的激活函数(如 ReLU),边上是可学习的线性权重 。
- KAN:边上是可学习的激活函数(B-样条曲线),节点仅负责求和操作,没有线性权重矩阵 。
2)关键技术实现
- B-样条激活函数:使用分段低阶多项式(B-splines)作为激活函数,通过调整控制点(ci)灵活改变形状,是“活”的激活函数 。
- 深度嵌套结构:为了解决原始 K-A 定理中函数不光滑的问题,KAN 采用了多层嵌套结构,将非线性平摊到多个层次中,每一层本质上是一个矩阵形式的函数变换 。
4. 实施细节
训练与优化策略:
- 优化器:选用 L-BFGS 二阶优化方法,利用海森矩阵近似信息,在小规模、高精度拟合任务中收敛速度远超 Adam 。
- 参数化设计:采用“基函数 (Base) + 样条函数 (Splines)”的残差形式。基函数 (SiLU) 捕捉全局趋势,样条函数捕捉局部波动,确保训练稳定性 。
- 网格扩展 (Grid Extension):支持从粗网格到细网格的动态扩展,无需从头训练即可提升模型精度 。
5. 实验与结论
主要实验结果:
- 更优的缩放律 (Scaling Law): KAN 的误差缩放律为 $\ell \propto N^{-4}$(当 k=3 时),远超 MLP 的 $\ell \propto N^{-2}$,意味着 KAN 能以更少的参数达到更高的精度 。
- 极高的可解释性:
- 符号化回归: 通过稀疏化和剪枝,KAN 能够从数据中“重新发现”数学公式(如 $f(x,y)=xy$ 的恒等式结构) 。
- 科学发现: 在纽结理论数据集(Knot Dataset)实验中,KAN 不仅保持了高准确率,还成功识别了变量间的依赖结构 。
- 局限与展望:
- 不足: 由于无法有效利用批处理,KAN 的训练速度比 MLP 慢约 10 倍,且存在训练稳定性挑战 。
- 未来方向: 社区已涌现出 FastKAN(使用 RBF 加速)、U-KAN(医学分割)和 GraphKAN(图网络)等变体,未来将致力于提升计算效率并探索在 Transformer 等复杂架构中的应用 。
本次组会内容下载链接