SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?

Febbraio 26, 2026 - 12:00
 0
SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?

Lo ha annunciato OpenAI: non è più un indicatore affidabile del progresso nelle capacità di software engineering autonome. Due fattori lo rendono sempre più “rumoroso”: test che respingono soluzioni funzionalmente corrette e contaminazione da dati pubblici usati in training. Per confronti tra modelli e tracking del progresso, la raccomandazione passa a SWE-bench Pro

L'articolo SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa? proviene da AI4Business.

Qual è la tua reazione?

Mi piace Mi piace 0
Antipatico Antipatico 0
Lo amo Lo amo 0
Comico Comico 0
Furioso Furioso 0
Triste Triste 0
Wow Wow 0
Redazione Redazione Eventi e News