多租户大语言模型的侧信道攻击:软硬件层面的隐私威胁
2026.01.13
多租户 LLM 侧信道攻击:共享设施下的隐蔽危机
1. 任务简介
本次汇报的主题是“多租户大语言模型的侧信道攻击”。在云计算时代,多个用户(租户)往往共享同一套 LLM 底层设施(如 GPU 集群、内存)。
[cite_start]报告旨在揭示在这种多租户环境下,攻击者如何利用共享资源产生的侧信道信息(如推理延迟、缓存状态),推断受害者的私密输入(Prompt)或模型输出,破坏系统的保密性 [cite: 5, 8, 30]。
2. 研究动机
多租户架构的核心驱动力是“提升资源利用率,降低单次推理成本”,但这引入了根本性的安全冲突:
- [cite_start]资源共享与隔离的矛盾:为了效率,服务商在软件(KV 缓存)和硬件(CPU/GPU 缓存)层面进行资源复用,破坏了严格的物理隔离 [cite: 5]。
- [cite_start]攻击面的扩大:攻击者可以作为租户之一进入系统,与受害者共用物理设备,利用微架构特征或软件优化机制发起攻击 [cite: 5, 28]。
- 隐私泄露风险:LLM 的输入往往包含敏感信息,一旦被侧信道还原,将造成严重后果。
3. 方法设计(两类攻击路径)
报告详细介绍了基于不同层面的两种攻击范式:
1)基于软件层缓存的攻击(KV Cache Side-Channels)
- [cite_start]核心机制:利用 LLM 推理加速中的 KV 缓存(Key-Value Cache) 机制。系统通常采用 LRU(最近最少使用)或 LPM(最长前缀匹配)策略来复用计算结果 [cite: 9, 10]。
- 攻击原理:如果受害者的输入与攻击者预置在缓存中的内容有重叠(如公共前缀),推理速度会显著加快。攻击者通过测量首字生成时间(TTFT),可推断受害者是否输入了特定内容。
2)基于硬件层缓存的攻击(Hardware Cache Side-Channels)
- 核心机制:利用 CPU 或 GPU 的各级缓存(L1/L2/L3)竞争。
- [cite_start]攻击原理:通过 Flush+Reload 或 Prime+Probe 技术,监控模型嵌入层(Embedding Layer)的内存访问模式。当受害者推理时访问特定 Token 的嵌入向量,会触发缓存命中,攻击者捕捉这一信号即可还原出具体的 Token 序列 [cite: 28, 30]。
4. 实施细节
硬件层攻击流程(LLM-Side-Channel):
- [cite_start]同驻(Co-location):攻击者设法在与受害者相同的物理 CPU/GPU 上运行恶意进程 [cite: 28]。
- [cite_start]校对(Calibration):解析模型文件(如 GGUF),定位嵌入层的内存地址,计算每个 Token ID 对应的内存偏移量 [cite: 28]。
- [cite_start]清除(Flush):使用
clflush 指令将目标 Token 的嵌入向量从缓存中清除 [cite: 30]。
- [cite_start]监控(Monitor):采用轮询(Round-Robin)方式快速遍历感兴趣的 Token 列表。记录访问时间,若时间极短(如 < 200 CPU 周期),则判定为缓存命中,意味着受害者使用了该 Token [cite: 30]。
- [cite_start]重建(Reconstruction):根据捕获的缓存命中序列,重构受害者的输入内容 [cite: 31]。
5. 实验与结论
对比与思考:
- [cite_start]软件层攻击:利用的是逻辑层面的数据复用(Deduplication),攻击门槛相对较低,但依赖于系统的缓存策略 [cite: 10]。
- [cite_start]硬件层攻击:利用的是物理层面的资源竞争(Contention),精度更高,能精确到 Token 级别,但需要更强的环境控制能力(如物理同驻) [cite: 28]。
- 总结:多租户 LLM 环境下的安全性与效率存在天然权衡。未来的防御机制需要在保持高性能的同时,引入更严格的隔离措施或噪声干扰,以阻断侧信道信息的泄露。
本次组会演示文稿下载