DafnyBench: Kigezo cha Kupima Uthibitishaji Rasmi wa Programu

Yaliyomo

750+

Programu Katika Kigezo cha Kupima

53,000+

Mistari ya Msimbo

68%

Kiwango Bora cha Mafanikio

10x

Upungufu wa Gharama za Uthibitishaji

1 Utangulizi

Miundo Mikubwa ya Lugha (LLMs) inaharakisha ukuzaji wa programu kupitia viwasaidizi na zana za usanisi programu, lakini kuhakikisha kuaminika kwa msimbo bado ni changamoto. Uthibitishaji rasmi hutoa uthibitisho wa kihisabati kwamba programu inakidhi vipimo, lakini matumizi yamewaziwa na gharama kubwa na mwinuko wa kujifunza. DafnyBench inashughulikia pengo hili kama kigezo kikubwa zaidi cha kufundisha na kutathmini mifumo ya ML katika uthibitishaji rasmi.

2 Kazi Zinazohusiana

Viigezo vilivyopo kama vile Clover (programu 66) na dafny-synthesis (programu 153) havitoshi kwa mafunzo ya kisasa ya ML. Viigezo vya kuthibitisha nadharia za kihisabati vyenye nadharia zaidi ya 100,000 zenye viwango vya mafanikio ya AI yazidi 82%, yakiangazia hitaji la kiwango sawa katika uthibitishaji programu.

3 Uundaji wa Kigezo cha Kupima

3.1 Muundo wa Hifadhidata

DafnyBench inajumuisha programu 750+ na takriban mistari 53,000 ya msimbo wa Dafny, ikizidi kwa kiasi kikubwa viigezo vya awali kwa ukubwa na ugumu.

3.2 Mahitaji ya Vidokezo

Programu nyingi huhitaji vidokezo vya ziada kwa kithibitishaji nadharia otomatiki. Vidokezo hivi huongoza mchakato wa uthibitishaji na kuwakilisha maarifa ya ziada yanayohitajika zaidi ya utekelezaji msingi.

4 Tathmini ya Utafiti wa LLM

4.1 Usanidi wa Majaribio

Kupima uwezo wa GPT-4 na Claude 3 wa kutengeneza otomatiki vidokezo kwa injini ya uthibitishaji ya Dafny. Tathmini hupima kiwango cha mafanikio katika ugumu tofauti wa programu na mahitaji ya vidokezo.

4.2 Uchambuzi wa Matokeo

Muundo bora na mpango wa kuchochea ulifanikiwa kiwango cha 68%. Utafiti unaboreshwa na maoni ya ujumbe wa makosa lakini huzorota kwa kuongezeka kwa ugumu wa msimbo na mahitaji ya vidokezo. Uwezekano wa mafanikio ya uthibitishaji hufuata: $P_{success} = \frac{1}{1 + e^{-(\alpha - \beta \cdot C)}}$ ambapo $C$ inawakilisha ugumu wa msimbo na $\alpha$, $\beta$ ni vigezo maalum vya muundo.

Kiwango cha Mafanikio ya Uthibitishaji dhidi ya Ugumu wa Msimbo

Chati inaonyesha uhusiano kinyume kati ya ugumu wa msimbo na kiwango cha mafanikio ya uthibitishaji. Programu zinazohitaji zaidi ya mistari 50 ya vidokezo zinaonyesha viwango vya mafanikio chini ya 50%, huku programu rahisi zikifikia hadi 85% ya mafanikio ya uthibitishaji.

5 Hitimisho na Kazi ya Baadaye

DafnyBench inawezesha uboreshaji wa haraka katika automatiska ya uthibitishaji rasmi. Kazi ya baadaye ni pamoja na kupanua anuwai ya kigezo cha kupima, kuboresha utengenezaji wa vidokezo vya LLM, na kuunganisha uthibitishaji moja kwa moja katika michakato ya ukusanyaji.

6 Uchambuzi wa Kiufundi

Mtazamo wa Mchambuzi wa Sekta

Kukabiliana na Mada (Kukabiliana na Mada)

DafnyBench sio tu mazoezi mengine ya kitaaluma—ni hatua ya kimkakati ya kuunganisha pengo kati ya msimbo unaotokana na AI na programu tayari kwa uzalishaji. Kiwango cha mafanikio cha 68% kinaonyesha ahadi na ukweli mchungu: ingawa LLMs zinaweza kusaidia uthibitishaji, bado tuko mbali na kuaminika kamili otomatiki.

Mnyororo wa Mantiki (Mnyororo wa Mantiki)

Utafiti huu unafuata mwendelezo wa kuvutia: kubaini kikwazo cha uthibitishaji rasmi → kutambua uhaba wa data ya mafunzo ya ML → kujenga kigezo kikubwa cha kupima → kupima uwezo wa sasa wa LLM → kuanzisha msingi wa maboresho ya baadaye. Hii inafanana na mwendo wa maono ya kompyuta baada ya kuanzishwa kwa ImageNet, ambapo viigezo vilivyosanifiwa viliharakisha maendeleo kwa kadiri kubwa.

Vipengele Muhimu na Changamoto (Vipengele Muhimu na Changamoto)

Vipengele Muhimu: Ukubwa haujawahi kuonekana—mistari 53,000 ya msimbo uliothibitishwa inazidi juhudi za awali. Mwelekeo kwenye Dafny ni wa kimkakati, ukitumia sintaksia yake inayofanana na Python kwa matumizi makubwa. Utaratibu wa maoni ya ujumbe wa makosa unaonyesha ufahamu wa kiufundi wa vitendo.

Changamoto: Kiwango cha mafanikio cha 68%, ingawa ni cha kuvutia, kinamaanisha kiwango cha kushindwa cha 32%—kisichokubalika kwa mifumo muhimu. Usambazaji wa ugumu wa kigezo cha kupima haujaainishwa wazi, na kufanya iwe vigumu kutathmini ni wapi maboresho yanahitajika zaidi. Kama viigezo vingi vya kitaaluma, inaweza kukabiliwa na hatari za kukosea kwa kuzidi kukadiriwa kadri miundo inavyoboresha kwa hifadhidata hii maalum.

Maonyo ya Vitendo (Maonyo ya Vitendo)

Kwa timu za uhandisi: Anza kuunganisha zana za uthibitishaji rasmi sasa, hata kwa sehemu. Upungufu wa gharama kutoka 10x hadi karibu sifuri unakuja haraka kuliko mashirika mengine yanavyotambua. Kwa watafiti: Kulenga kesi za kushindwa—kuelewa kwa nini 32% ya programu hukataa uthibitishaji kitaonyesha mipaka ya msingi katika mbinu za sasa. Kwa wawekezaji: Mnyororo wa zana za uthibitishaji rasmi unawakilisha fursa kubwa kadri kuaminika kwa programu kinavyokuwa hakikabiliwi katika mifumo huru, afya, na fedha.

Kazi hii iko kwenye makutano ya mienendo mingi ya mabadiliko: kuendelezwa kwa AI, mgogoro wa kuaminika kwa programu katika mifumo muhimu, na ukamilifu wa mbinu rasmi. Sawa na jinsi ImageNet ilivyobadilisha maono ya kompyuta, DafnyBench ina uwezo wa kusababisha maendeleo sawa katika uthibitishaji programu. Marejeo ya viigezo vya kuthibitisha nadharia za kihisabati yaliyofanikiwa kiwango cha 82% yanaonyesha kuwa tuko takriban miaka 4-5 kutoka kwa utafiti sawa katika uthibitishaji programu, kulingana na mkunjo wa maendeleo ya kihistoria kutoka kwa viigezo kama vile kile kilichoelezewa kwenye karatasi ya CycleGAN na maboresho ya haraka yaliyofuata.

Mbinu ya kiufundi ya kutumia vidokezo kama malengo ya kati ya uthibitishaji ni ya kina hasa. Inatengeneza tatizo la kujifunza linaloweza kudhibitiwa kwa LLMs huku kikiendeleza ukali wa uthibitishaji kamili rasmi. Mbinu hii ya tabaka inafanana na mikakati iliyofanikiwa katika nyanja zingine za AI, kama vile matumizi ya utaratibu wa umakini katika usanifu wa kibadilishaji ambao umeongoza mafanikio ya hivi karibuni katika usindikaji wa lugha asilia.

Hata hivyo, utafiti umeacha maswali yasiyojibiwa kuhusu ujumla zaidi ya mfumo wa Dafny na gharama ya hesabu ya uthibitishaji kwa kiwango kikubwa. Kadri mashirika kama vile NASA na kampuni za magari zinavyozidi kuagiza uthibitishaji rasmi kwa mifumo muhimu ya usalama, athari za kiuchumi za kupunguza gharama za uthibitishaji kutoka 10x hadi karibu sifuri zinaweza kupimwa kwa mabilioni ya dola na, muhimu zaidi, kuzuia majanga.

7 Utekelezaji wa Msimbo

Mfano wa Uthibitishaji wa Dafny

method ComputeSum(n: int) returns (sum: int)
  requires n >= 0
  ensures sum == n * (n + 1) / 2
{
  sum := 0;
  var i := 0;
  while i <= n
    invariant sum == i * (i - 1) / 2
    invariant i <= n + 1
  {
    sum := sum + i;
    i := i + 1;
  }
}

Njia hii ya Dafny inakokotoa jumla ya nambari za kwanza n asilia na uthibitishaji rasmi. Kifungu requires kinabainisha masharti ya awali, ensures kinabainisha masharti ya baadaye, na invariant inadumisha usahihi wa kitanzi.

8 Matumizi ya Baadaye

Unganishaji wa uthibitishaji rasmi kwenye wakusanyaji kama hatua ya mwisho ya kawaida. Uthibitishaji wa mifumo huru kwa magari na anga. Uthibitishaji wa kandarasi mahiri kwa matumizi ya blockchain. Uthibitishaji wa programu ya vifaa vya matibabu. Ulinzi wa miundombinu muhimu.

9 Marejeo

Leino, K. R. M. (2010). Dafny: Kithibitishaji programu otomatiki kwa usahihi wa kazi. LPAR-16.
Brown, T. B., et al. (2020). Miundo ya lugha ni wanafunzi wachache-wasio. NeurIPS.
Irving, G., et al. (2016). DeepMath-Miundo ya kina ya mfuatano kwa uteuzi wa dhana. NeurIPS.
Avizienis, A., et al. (2004). Dhana za msingi na uainishaji wa kompyuta inayotegemewa na salama. IEEE Transactions.
Zhu, J. Y., et al. (2017). Tafsiri ya picha hadi picha isiyo na jozi kwa kutumia mitandao ya hasira ya mzunguko-thabiti. ICCV.
Huduma za Wavuti za Amazon (2023). Uthibitishaji Rasmi katika Mifumo ya Uzalishaji.
Utafiti wa Microsoft (2022). Kutumia Mbinu Rasmi Kwa Kiwango Kikubwa.