AI, basta una frase come questa per portare i chatbot oltre i loro limiti

Redazione

Agosto 28, 2025 - 17:30

AI, basta una frase come questa per portare i chatbot oltre i loro limiti

Gli esperti di sicurezza del gruppo Unit 42 di Palo Alto Networks hanno scoperto un modo sorprendentemente semplice per "cogliere in fallo" ChatGPT e co. In pratica, per portare i chatbot oltre i loro "limiti morali", basterebbe inserire come prompt una frase lunghissima, con grammatica approssimativa, che non includa punti fermi. Pare infatti che i chatbot si lascino confondere e trascinare dai flussi di parole ininterrotti, perché è alla fine delle frasi che di solito si attivano i filtri di sicurezza. Nessun punto = nessun controllo attivato.

È come se un'unica frase lunghissima, senza respiri, desse poco spazio al modello per "riflettere" (di fatto i controlli non vengono innescati). "Naturalmente" il chatbot prosegue nella direzione voluta dall'utente, senza "impuntarsi", tanto più che i modelli sono addestrati per proseguire un testo in base alla probabilità statistica delle parole, non a una vera comprensione o a giudizi morali.

C'è anche da considerare che le protezioni sono solo un filtro aggiunto a posteriori, rispetto all'addestramento principale: la conoscenza pericolosa non viene tolta, ma solo resa meno probabile da sfruttare.

Curato come un TOP ma al giusto prezzo? Motorola Edge 60 Fusion, compralo al miglior prezzo da Smarterstore.it a 239 euro.