DafnyBench：形式化软件验证基准测试集

1 引言

大语言模型（LLMs）正通过编程助手和程序合成工具加速软件开发，但确保代码可靠性仍具挑战性。形式化验证能为软件符合规范提供数学证明，然而高昂成本和陡峭学习曲线限制了其普及。DafnyBench作为形式化验证领域训练和评估机器学习系统的最大规模基准，旨在弥补这一空白。

2 相关工作

现有基准如Clover（66个程序）和dafny-synthesis（153个程序）已无法满足现代机器学习训练需求。数学定理证明基准包含超过10万个定理，AI成功率超过82%，凸显了软件验证领域对同等规模基准的迫切需求。

3 基准构建

3.1 数据集构成

DafnyBench包含750多个程序，约53,000行Dafny代码，在规模和复杂度上均显著超越先前基准。

3.2 提示需求

大多数程序需要为自动化定理证明器提供补充提示。这些提示指导验证过程，代表了核心实现之外所需的附加知识。

4 大语言模型性能评估

4.1 实验设置

测试GPT-4和Claude 3为Dafny验证引擎自动生成提示的能力。评估衡量不同程序复杂度和提示需求下的成功率。

4.2 结果分析

最佳模型和提示方案实现了68%的成功率。性能随错误消息反馈而提升，但随代码复杂度和提示需求增加而下降。验证成功概率遵循：$P_{success} = \frac{1}{1 + e^{-(\alpha - \beta \cdot C)}}$，其中$C$表示代码复杂度，$\alpha$、$\beta$为模型特定参数。

验证成功率与代码复杂度关系

图表显示代码复杂度与验证成功率呈反比关系。需要超过50行提示的程序成功率低于50%，而较简单程序的验证成功率最高可达85%。

5 结论与未来工作

DafnyBench能够快速提升形式化验证自动化水平。未来工作包括扩展基准多样性、改进大语言模型提示生成，以及将验证直接集成到编译过程中。

6 技术分析

行业分析师视角

一针见血

DafnyBench不仅是学术演练，更是连接AI生成代码与生产就绪软件的战略举措。68%的成功率既揭示了希望也展现了残酷现实：虽然大语言模型能辅助验证，但距离完全自动化的可靠性仍很遥远。

逻辑链条

该研究遵循引人入胜的进展路径：识别形式化验证瓶颈→认识机器学习训练数据稀缺性→构建大规模基准→测试当前大语言模型能力→为未来改进建立基线。这类似于ImageNet推出后计算机视觉的发展轨迹，标准化基准将进展加速了数个数量级。

亮点与槽点

亮点：规模空前——53,000行已验证代码使先前工作相形见绌。聚焦Dafny具有战略意义，利用其类Python语法促进更广泛采用。错误消息反馈机制展现了实用的工程洞察。

槽点：68%的成功率虽令人印象深刻，但32%的失败率对关键系统而言不可接受。基准的复杂度分布未明确分层，难以评估最需要改进的环节。与许多学术基准类似，随着模型针对该特定数据集优化，可能存在过拟合风险。

行动启示

对工程团队：立即开始集成形式化验证工具，即使是部分集成。验证成本从10倍降至接近零的进程比大多数组织预期的更快。对研究人员：聚焦失败案例——理解为何32%的程序抵抗验证将揭示当前方法的根本局限。对投资者：随着软件可靠性在自主系统、医疗保健和金融领域成为不可妥协的要求，形式化验证工具链代表着巨大机遇。

这项工作处于多个变革趋势的交汇点：AI产业化、关键系统软件可靠性危机以及形式化方法的成熟。类似于ImageNet如何革命性改变计算机视觉，DafnyBench有潜力在软件验证领域催化类似进展。参考数学定理证明基准达到82%成功率表明，基于CycleGAN论文所述基准的历史进展曲线及后续快速改进，我们距离软件验证达到类似性能还有约4-5年时间。

使用提示作为中间验证目标的技术方法尤其具有洞察力。这为大语言模型创建了可处理的学习问题，同时保持了完整形式化验证的严谨性。这种分层方法反映了其他AI领域的成功策略，例如驱动自然语言处理近期突破的Transformer架构中的注意力机制。

然而，该研究未解答关于超越Dafny生态系统的泛化能力以及规模化验证的计算成本问题。随着NASA和汽车公司等组织越来越多地强制要求安全关键系统的形式化验证，将验证成本从10倍降至接近零的经济影响可能以数十亿美元衡量，更重要的是能预防灾难发生。

7 代码实现

Dafny验证示例

method ComputeSum(n: int) returns (sum: int)
  requires n >= 0
  ensures sum == n * (n + 1) / 2
{
  sum := 0;
  var i := 0;
  while i <= n
    invariant sum == i * (i - 1) / 2
    invariant i <= n + 1
  {
    sum := sum + i;
    i := i + 1;
  }
}

此Dafny方法通过形式化验证计算前n个自然数的和。requires子句指定前置条件，ensures指定后置条件，invariant维持循环正确性。

8 未来应用

形式化验证作为标准最终步骤集成到编译器中；汽车和航空航天自主系统验证；区块链应用智能合约验证；医疗设备软件认证；关键基础设施保护。

9 参考文献

Leino, K. R. M. (2010). Dafny: An automatic program verifier for functional correctness. LPAR-16.
Brown, T. B., et al. (2020). Language models are few-shot learners. NeurIPS.
Irving, G., et al. (2016). DeepMath-Deep sequence models for premise selection. NeurIPS.
Avizienis, A., et al. (2004). Basic concepts and taxonomy of dependable and secure computing. IEEE Transactions.
Zhu, J. Y., et al. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. ICCV.
Amazon Web Services (2023). Formal Verification in Production Systems.
Microsoft Research (2022). Applying Formal Methods at Scale.