2025.10.21
以“代码片段适配(CSA)”为核心:输入类上下文+需求+通用片段,模型产出适配代码,并用测试套件判定正确与否;与“从零生成”对照,CSA更难,表现显著下滑(如 pass@1/5 与 CodeBLEU)。
围绕三问(RQ1~RQ3:效果、症状、根因)系统评估,构建410个CSA实例的新基准;发现错误集中于需求不明确/不匹配与上下文误用。
两部分:提示增强(丰富上下文、任务分解)+ 交互式工作流(人机交互或MAC多智能体;优于MAE)。
以pass@k、CodeBLEU为目标指标;将适配结果嵌入上下文执行测试套件;对失败样例进行缺陷识别与人工标注以定位问题根因。
仅做提示增强即可带来显著提升(如 pass@1 +29.46% 等);人机交互效果最佳(pass@1 +41.4%、pass@5 +42.6%);MAC接近人机且成本更低,并在多模型上泛化。