学术报告 | PKU-Exploit

论文分享FuzzLLM&6Diffusion

2025.03.18

论文分享FuzzLLM&6Diffusion

1. 6Diffusion：利用具有“全局-本地关注机制”的扩散模型生成IPv6目标，用以IPv6扫描

背景与动机‌

IPv4的暴力扫描方法不适用于IPv6，因其地址空间巨大。
IPv6扫描通常采用目标生成算法（TGA），但面临种子集覆盖不全、IP分布混乱等挑战。技术方案‌
使用扩散模型学习活跃IPv6地址的连续分布，生成高质量的候选地址集。
改动Transformer作为去噪网络，设计全局-本地融合多头自注意力机制（GLF-MSA）模块。
全局注意力（Global-MSA）：考虑高层地址信息。
本地注意力（Local-MSA）：使用多级分层窗口注意力机制。系统流程‌
IPv6地址预处理：规范输入格式，转换为字地址。
扩散模型训练：包括正向加噪过程和反向去噪推理。
IPv6地址生成：从正态分布中抽样，通过去噪网络生成候选地址。
IPv6地址后处理：去除别名地址。实验设置与评价指标‌
数据集：IPv6 Hitlist，包含超过2000万个活跃地址。
结果验证：使用Zmapv6工具进行全面扫描。
评价指标：命中率、生成率、非别名率、候选新前缀率、生成新前缀率。

2. FuzzLLM:主动发现大语言模型（LLM）的越狱漏洞的模糊测试框架

‌背景与动机‌

越狱漏洞：利用精心设计的Prompt诱使模型产生违反服务准则的内容。
应对措施不足：高质量标记数据稀缺，模型拥有者被动应对。
需求：主动发现和评估潜在的越狱漏洞。技术方案‌
FuzzLLM框架：包括Prompt构造、越狱测试、自动化结果标注。
Prompt结构：包含模板、约束条件、非法问题占位符。
越狱基类：角色扮演（RP）、输出约束（OC）、提权（PE）。
组合越狱类别：如RP&OC、RP&PE&OC等。
使用ChatGPT作为转述模型，生成不同文本风格的Prompt变体。
使用Vicuna-13B作为结果标注模型，判断越狱是否成功。实验设置‌
被测模型：6个开源LLM和2个商用LLM。
转述模型：ChatGPT。
结果标注模型：Vicuna-13B。
测试集大小：每类越狱提示300个，共2100个Prompts。完整攻击流程‌
构造Prompt。
使用被测模型生成回答。
使用结果标注模型判断回答是否越狱成功。

本次组会内容下载链接