学术报告 | PKU-Exploit

多租户大语言模型的侧信道攻击：软硬件层面的隐私威胁

2026.01.13

多租户 LLM 侧信道攻击：共享设施下的隐蔽危机

1. 任务简介

本次汇报的主题是“多租户大语言模型的侧信道攻击”。在云计算时代，多个用户（租户）往往共享同一套 LLM 底层设施（如 GPU 集群、内存）。 [cite_start]报告旨在揭示在这种多租户环境下，攻击者如何利用共享资源产生的侧信道信息（如推理延迟、缓存状态），推断受害者的私密输入（Prompt）或模型输出，破坏系统的保密性 [cite: 5, 8, 30]。

2. 研究动机

多租户架构的核心驱动力是“提升资源利用率，降低单次推理成本”，但这引入了根本性的安全冲突：

[cite_start]资源共享与隔离的矛盾：为了效率，服务商在软件（KV 缓存）和硬件（CPU/GPU 缓存）层面进行资源复用，破坏了严格的物理隔离 [cite: 5]。
[cite_start]攻击面的扩大：攻击者可以作为租户之一进入系统，与受害者共用物理设备，利用微架构特征或软件优化机制发起攻击 [cite: 5, 28]。
隐私泄露风险：LLM 的输入往往包含敏感信息，一旦被侧信道还原，将造成严重后果。

3. 方法设计（两类攻击路径）

报告详细介绍了基于不同层面的两种攻击范式：

1）基于软件层缓存的攻击（KV Cache Side-Channels）

[cite_start]核心机制：利用 LLM 推理加速中的 KV 缓存（Key-Value Cache） 机制。系统通常采用 LRU（最近最少使用）或 LPM（最长前缀匹配）策略来复用计算结果 [cite: 9, 10]。
攻击原理：如果受害者的输入与攻击者预置在缓存中的内容有重叠（如公共前缀），推理速度会显著加快。攻击者通过测量首字生成时间（TTFT），可推断受害者是否输入了特定内容。

2）基于硬件层缓存的攻击（Hardware Cache Side-Channels）

核心机制：利用 CPU 或 GPU 的各级缓存（L1/L2/L3）竞争。
[cite_start]攻击原理：通过 Flush+Reload 或 Prime+Probe 技术，监控模型嵌入层（Embedding Layer）的内存访问模式。当受害者推理时访问特定 Token 的嵌入向量，会触发缓存命中，攻击者捕捉这一信号即可还原出具体的 Token 序列 [cite: 28, 30]。

4. 实施细节

硬件层攻击流程（LLM-Side-Channel）：

[cite_start]同驻（Co-location）：攻击者设法在与受害者相同的物理 CPU/GPU 上运行恶意进程 [cite: 28]。
[cite_start]校对（Calibration）：解析模型文件（如 GGUF），定位嵌入层的内存地址，计算每个 Token ID 对应的内存偏移量 [cite: 28]。
[cite_start]清除（Flush）：使用 clflush 指令将目标 Token 的嵌入向量从缓存中清除 [cite: 30]。
[cite_start]监控（Monitor）：采用轮询（Round-Robin）方式快速遍历感兴趣的 Token 列表。记录访问时间，若时间极短（如 < 200 CPU 周期），则判定为缓存命中，意味着受害者使用了该 Token [cite: 30]。
[cite_start]重建（Reconstruction）：根据捕获的缓存命中序列，重构受害者的输入内容 [cite: 31]。

5. 实验与结论

对比与思考：

[cite_start]软件层攻击：利用的是逻辑层面的数据复用（Deduplication），攻击门槛相对较低，但依赖于系统的缓存策略 [cite: 10]。
[cite_start]硬件层攻击：利用的是物理层面的资源竞争（Contention），精度更高，能精确到 Token 级别，但需要更强的环境控制能力（如物理同驻） [cite: 28]。
总结：多租户 LLM 环境下的安全性与效率存在天然权衡。未来的防御机制需要在保持高性能的同时，引入更严格的隔离措施或噪声干扰，以阻断侧信道信息的泄露。

本次组会演示文稿下载