LifeSciBench, il benchmark che misura l’AI sulla ricerca biologica reale
Messo a punto da OpenAI: 750 compiti scritti da scienziati con dottorato per misurare se i modelli reggono il lavoro reale della ricerca nelle scienze della vita. Il migliore, GPT-Rosalind, supera il 36% dei task e nessuno dei cinque ne risolve 171. Forti su sintesi e interpretazione, cedono su artefatti, output esatti e decisioni operative
L'articolo LifeSciBench, il benchmark che misura l’AI sulla ricerca biologica reale proviene da AI4Business.
Qual è la tua reazione?
Mi piace
0
Antipatico
0
Lo amo
0
Comico
0
Wow
0
Triste
0
Furioso
0
Commenti (0)