学术报告 | PKU-Exploit

指导还是交互？通过提示工程探索和激发大语言模型在代码片段适配方面的能力

2025.10.21

以“代码片段适配（CSA）”为核心：输入类上下文+需求+通用片段，模型产出适配代码，并用测试套件判定正确与否；与“从零生成”对照，CSA更难，表现显著下滑（如 pass@1/5 与 CodeBLEU）。

围绕三问（RQ1~RQ3：效果、症状、根因）系统评估，构建410个CSA实例的新基准；发现错误集中于需求不明确/不匹配与上下文误用。

两部分：提示增强（丰富上下文、任务分解）+ 交互式工作流（人机交互或MAC多智能体；优于MAE）。

以pass@k、CodeBLEU为目标指标；将适配结果嵌入上下文执行测试套件；对失败样例进行缺陷识别与人工标注以定位问题根因。

仅做提示增强即可带来显著提升（如 pass@1 +29.46% 等）；人机交互效果最佳（pass@1 +41.4%、pass@5 +42.6%）；MAC接近人机且成本更低，并在多模型上泛化。