AI, basta una frase come questa per portare i chatbot oltre i loro limiti
Gli esperti di sicurezza del gruppo Unit 42 di Palo Alto Networks hanno scoperto un modo sorprendentemente semplice per "cogliere in fallo" ChatGPT e co. In pratica, per portare i chatbot oltre i loro "limiti morali", basterebbe inserire come prompt una frase lunghissima, con grammatica approssimativa, che non includa punti fermi. Pare infatti che i chatbot si lascino confondere e trascinare dai flussi di parole ininterrotti, perché è alla fine delle frasi che di solito si attivano i filtri di sicurezza. Nessun punto = nessun controllo attivato.
È come se un'unica frase lunghissima, senza respiri, desse poco spazio al modello per "riflettere" (di fatto i controlli non vengono innescati). "Naturalmente" il chatbot prosegue nella direzione voluta dall'utente, senza "impuntarsi", tanto più che i modelli sono addestrati per proseguire un testo in base alla probabilità statistica delle parole, non a una vera comprensione o a giudizi morali.
C'è anche da considerare che le protezioni sono solo un filtro aggiunto a posteriori, rispetto all'addestramento principale: la conoscenza pericolosa non viene tolta, ma solo resa meno probabile da sfruttare.
CLICCA QUI PER CONTINUARE A LEGGERE
Qual è la tua reazione?






