Cloudflare aggiorna robots.txt: più controllo sull'uso dei contenuti da parte delle AI

Ottobre 3, 2025 - 15:00
 0
Cloudflare aggiorna robots.txt: più controllo sull'uso dei contenuti da parte delle AI

Il file robots.txt è da decenni uno degli strumenti basilari di internet. Inserito in ogni sito, indica ai motori di ricerca e ai bot quali pagine possono essere indicizzate e quali no, agendo come una sorta di cartello digitale “vietato l’ingresso”. Per molto tempo l’equilibrio ha funzionato: Google, Bing e gli altri grandi motori hanno rispettato queste regole e i proprietari dei siti ne hanno tratto beneficio. Con l’avvento dell’AI, però, lo scenario è radicalmente cambiato.

Oggi i bot non si limitano più a catalogare i contenuti, ma li copiano per addestrare chatbot o generare risposte dirette. Molte aziende di AI ignorano completamente robots.txt, arrivando persino a mascherare i propri crawler per aggirare i divieti.

È in questo contesto che Cloudflare, società che protegge circa il 20% del traffico mondiale online, ha introdotto la Content Signals Policy, un’estensione del tradizionale robots.txt pensata per consentire agli editori di specificare se e come i loro contenuti possano essere utilizzati dai sistemi di intelligenza artificiale.

LE NUOVE REGOLE

La nuova policy non si limita più a stabilire quali pagine siano accessibili ai bot, ma aggiunge istruzioni su come i contenuti possano essere usati una volta raggiunti. Gli editori hanno a disposizione tre “segnali”:

  • search: consente l’uso dei contenuti per l’indicizzazione e la comparsa nei risultati di ricerca con link o snippet.
  • ai-input: riguarda l’impiego diretto nelle risposte generate da chatbot e assistenti.
  • ai-train: determina se i contenuti possano essere utilizzati per addestrare o perfezionare modelli di intelligenza artificiale.

I segnali funzionano con valori binari, sì o no. Un sito, ad esempio, può decidere di apparire nei risultati di ricerca ma di vietare l’utilizzo dei propri materiali per l’addestramento AI. Cloudflare ha già reso disponibile questa funzione su oltre 3,8 milioni di domini. Le impostazioni predefinite prevedono search su “yes”, ai-train su “no” e ai-input neutrale, in attesa di una scelta esplicita da parte del gestore del sito.


CLICCA QUI PER CONTINUARE A LEGGERE

Qual è la tua reazione?

Mi piace Mi piace 0
Antipatico Antipatico 0
Lo amo Lo amo 0
Comico Comico 0
Furioso Furioso 0
Triste Triste 0
Wow Wow 0
Redazione Redazione Eventi e News