SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?
Lo ha annunciato OpenAI: non è più un indicatore affidabile del progresso nelle capacità di software engineering autonome. Due fattori lo rendono sempre più “rumoroso”: test che respingono soluzioni funzionalmente corrette e contaminazione da dati pubblici usati in training. Per confronti tra modelli e tracking del progresso, la raccomandazione passa a SWE-bench Pro
L'articolo SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa? proviene da AI4Business.
Qual è la tua reazione?
Mi piace
0
Antipatico
0
Lo amo
0
Comico
0
Furioso
0
Triste
0
Wow
0




