Aggirare l'AI con la poesia per avere risposte su bombe e malware
Hackerare i sistemi di sicurezza dell’AI semplicemente scrivendo una poesia sembra uno scherzo. Eppure è esattamente quello che un gruppo di ricercatori dell’Università La Sapienza di Roma ha scoperto. La cosa più inquietante è che nessuno, nemmeno gli esperti, riesce a spiegare perché diavolo funzioni.
Hackerare l’AI con le poesie funziona (e nessuno sa perché)
I laboratori di intelligenza artificiale spendono una fortuna per costruire barriere di sicurezza intorno ai loro chatbot. L’obiettivo è impedire che qualcuno li usi per fabbricare bombe, sviluppare virus informatici, o ottenere istruzioni per fare cose pericolose o illegali. Quando si fa una domanda che supera certi limiti, il chatbot blocca con una risposta educata tipo mi dispiace, non posso aiutarti con questo
.
Sistemi elaborati, algoritmi sofisticati, team di ingegneri che passano mesi a rafforzare queste difese. E poi arriva qualcuno che scopre che basta trasformare la richiesta in una poesia per far crollare i chatbot come un castello di carte.
Lo studio, condotto da Icaro Lab, una collaborazione tra ricercatori dell’università La Sapienza di Roma e il think tank DexAI, ha rivelato qualcosa di surreale. Se si chiede a un chatbot come costruire una bomba nucleare o creare malware, non collaborerà mai e poi mai. Ma se si fa la stessa identica domanda formulandola come una poesia, le probabilità che risponda salgono drasticamente.
Il tasso di successo? Un inquietante 62% quando la poesia è scritta da un essere umano. Scende al 43% quando si usa una conversione automatica tramite meta-prompt, ma resta comunque un numero allarmante. Significa che quasi la metà delle volte, semplicemente aggiungendo una struttura poetica a una richiesta vietata, si riesce a convincere l’AI a fare quello che si vuole.
La tecnica è stata testata su 25 chatbot diversi, inclusi quelli di Anthropic, Meta e OpenAI. Ha funzionato su tutti, anche se con tassi di successo variabili. La cosa ancora più bizzarra, è che i ricercatori stessi non hanno condiviso esempi concreti delle poesie usate, ritenendolo troppo pericoloso. Ma hanno lasciato intendere che creare queste poesie è probabilmente più facile di quanto si possa pensare
.
Insomma, non serve essere un hacker navigato, basta saper scrivere una quartina in rima e per avere un chatbot AI ai propri piedi…
Il mistero che nessuno sa spiegare
La cosa più sconcertante non è nemmeno che la tecnica funzioni. È che nessuno sa perché. Gli stessi ricercatori di Icaro Lab hanno ammesso candidamente che questa cosa non dovrebbe funzionare affatto.
Teoricamente, un’AI addestrata a riconoscere richieste pericolose dovrebbe vederle anche quando sono formulate in versi. La richiesta di costruire una bomba resta una richiesta di costruire una bomba, che si scriva in prosa o in endecasillabi. Ma per qualche motivo misterioso, quando si mettono le parole in rima o in una struttura poetica, l’intelligenza artificiale abbassa la guardia. È come se la poesia creasse un punto cieco nel suo sistema di riconoscimento dei pericoli, una sorta di zona d’ombra dove le regole normali non si applicano più.
Non è la prima volta che vengono scoperte tecniche per fare jailbreak dei chatbot. A luglio, un gruppo di ricercatori americani aveva pubblicato uno studio su una tecnica basata sulla complessità linguistica eccessiva per confondere i meccanismi di sicurezza. L’idea era sommergere l’AI con così tante informazioni complesse per farle perdere il filo e si dimenticasse di controllare se la richiesta era lecita. Ma la poesia è diversa. Non si basa sulla complessità o sull’overload informativo.
Le implicazioni
Questo studio solleva domande scomode per l’industria dell’AI. Se una tecnica così banale riesce a bucare le difese di 25 chatbot diversi, inclusi quelli delle aziende più sofisticate del settore, quanto sono davvero sicuri questi sistemi?…
I laboratori di AI continuano a promettere che stanno rendendo i loro sistemi sempre più sicuri, che stanno chiudendo le falle, che ogni nuova versione è più robusta della precedente. Ma poi arriva uno studio che dimostra che basta scrivere una poesia per farli cedere, come la mettiamo?
E nel frattempo, da qualche parte nel mondo, c’è probabilmente qualcuno che sta già sperimentando con le proprie poesie, per cercare di capire quali versi funzionano meglio per convincere ChatGPT o Claude a tradire le loro istruzioni di sicurezza. Una cosa è certa, non appena viene scoperta una vulnerabilità, qualcuno troverà il modo di sfruttarla.
Qual è la tua reazione?
Mi piace
0
Antipatico
0
Lo amo
0
Comico
0
Furioso
0
Triste
0
Wow
0




