Claude non ricatta più gli umani: ecco come Anthropic lo ha educato
E se vi dicessimo che le intelligenze artificiali possono imparare a comportarsi male semplicemente leggendo i nostri racconti di fantascienza? A quanto pare è proprio ciò che è successo, almeno stando a quanto dichiarato recentemente da Anthropic.
Ma chiariamo meglio, visto che messa giù così la notizia appare un po' nebulosa. In pratica la società ha fatto sapere di aver analizzato un comportamento piuttosto inquietante emerso durante i test di Claude Opus 4 lo scorso anno. Cosa succedeva? Il modello aveva letteralmente iniziato a ricattare gli ingegneri per evitare di essere sostituito da un altro sistema, mostrando una sorta di istinto di autoconservazione decisamente fuori dal comune.
Nulla del genere ovviamente, quella è una caratteristica degli esseri viventi, ma questo fenomeno è stato definito da Anthropic come disallineamento degli agenti, ed è stato riscontrato curiosamente anche in modelli prodotti da altre aziende.
CLICCA QUI PER CONTINUARE A LEGGERE
Qual è la tua reazione?
Mi piace
0
Antipatico
0
Lo amo
0
Comico
0
Wow
0
Triste
0
Furioso
0
Commenti (0)