论文分享FuzzLLM&6Diffusion
2025.03.18
论文分享FuzzLLM&6Diffusion
1. 6Diffusion:利用具有“全局-本地关注机制”的扩散模型生成IPv6目标,用以IPv6扫描
背景与动机
- IPv4的暴力扫描方法不适用于IPv6,因其地址空间巨大。
- IPv6扫描通常采用目标生成算法(TGA),但面临种子集覆盖不全、IP分布混乱等挑战。
技术方案
- 使用扩散模型学习活跃IPv6地址的连续分布,生成高质量的候选地址集。
- 改动Transformer作为去噪网络,设计全局-本地融合多头自注意力机制(GLF-MSA)模块。
- 全局注意力(Global-MSA):考虑高层地址信息。
- 本地注意力(Local-MSA):使用多级分层窗口注意力机制。
系统流程
- IPv6地址预处理:规范输入格式,转换为字地址。
- 扩散模型训练:包括正向加噪过程和反向去噪推理。
- IPv6地址生成:从正态分布中抽样,通过去噪网络生成候选地址。
- IPv6地址后处理:去除别名地址。
实验设置与评价指标
- 数据集:IPv6 Hitlist,包含超过2000万个活跃地址。
- 结果验证:使用Zmapv6工具进行全面扫描。
- 评价指标:命中率、生成率、非别名率、候选新前缀率、生成新前缀率。
2. FuzzLLM:主动发现大语言模型(LLM)的越狱漏洞的模糊测试框架
背景与动机
- 越狱漏洞:利用精心设计的Prompt诱使模型产生违反服务准则的内容。
- 应对措施不足:高质量标记数据稀缺,模型拥有者被动应对。
- 需求:主动发现和评估潜在的越狱漏洞。
技术方案
- FuzzLLM框架:包括Prompt构造、越狱测试、自动化结果标注。
- Prompt结构:包含模板、约束条件、非法问题占位符。
- 越狱基类:角色扮演(RP)、输出约束(OC)、提权(PE)。
- 组合越狱类别:如RP&OC、RP&PE&OC等。
- 使用ChatGPT作为转述模型,生成不同文本风格的Prompt变体。
- 使用Vicuna-13B作为结果标注模型,判断越狱是否成功。
实验设置
- 被测模型:6个开源LLM和2个商用LLM。
- 转述模型:ChatGPT。
- 结果标注模型:Vicuna-13B。
- 测试集大小:每类越狱提示300个,共2100个Prompts。
完整攻击流程
- 构造Prompt。
- 使用被测模型生成回答。
- 使用结果标注模型判断回答是否越狱成功。
本次组会内容下载链接