robots.txt: controllare efficacemente i Crawler

Di:

Ultimo aggiornamento: 12.12.2025

Il file robots.txt è uno strumento importante nell’Ottimizzazione per i Motori di Ricerca che viene spesso sottovalutato. Se usato correttamente aiuta a guidare i motori di ricerca in modo mirato attraverso un sito web, mentre, se configurato in modo errato, può costare traffico prezioso.

Breve panoramica: controllare efficacemente i Crawler tramite robots.txt

Il file robots.txt controlla quali parti di un sito possono essere scansionate dai motori di ricerca. Esso si trova nella directory principale (ad esempio, www.iltuo-dominio.it/robots.txt) e aiuta a utilizzare in modo sensato il Crawl Budget (budget di scansione).

Struttura Tipica:
Un file robots.txt è composto da istruzioni per specifici crawler:

User-agent: *  
Disallow: /admin/  
Allow: /admin/login/  
Sitemap: https://www.iltuo-dominio.it/sitemap.xml

User-agent: per quale Crawler vale la regola (“*” = tutti).
Disallow: aree che non devono essere scansionate.
Allow: eccezioni all’interno di aree bloccate.
Sitemap: indicazione per i motori di ricerca per una più rapida indicizzazione.

Compiti: escludere aree tecniche, evitare scansioni non necessarie, includere la Sitemap.
Evitare Errori Tipici: non bloccare contenuti importanti.

Cos’è il robots.txt?

Il robots.txt è un semplice file di testo che si trova nella directory principale di un sito (ad esempio, www.iltuo-dominio.it/robots.txt) e fornisce ai motori di ricerca le cosiddette istruzioni di scansione: ovvero, indicazioni su quali aree del sito possono essere cercate e indicizzate, e quali no.

I motori di ricerca come Google di solito rispettano le istruzioni contenute in questo file, che però non sono vincolanti. Per i contenuti sensibili, è quindi importante utilizzare meccanismi di protezione tecnici aggiuntivi come password o blocchi IP.

Struttura e sintassi del robots.txt

Il file segue una struttura semplice composta da uno User-agent (per quale Crawler vale l’istruzione?) e da un Disallow (cosa non deve essere scansionato?). Ecco un esempio:

User-agent: *
Disallow: /admin/
Disallow: /login/

User-agent: * significa che la regola vale per tutti i Crawler.
Disallow: /admin/ vieta la scansione della directory /admin/.

Se si aggiunge una riga con Allow:, è possibile consentire specificamente un’eccezione all’interno di un’area bloccata:

User-agent: Googlebot
Disallow: /shop/
Allow: /shop/prodotti/

A cosa serve (e a cosa non serve) il robots.txt?

Utilità

Esclusione di aree tecniche: ad esempio /wp-admin/, /cgi-bin/
Protezione da scansioni non necessarie: evitare URL con filtri o Duplicate Content
Indicazione sulla Sitemap: Sitemap: https://www.iltuo-dominio.it/sitemap.xml

Istruzioni inutili o non necessarie

Esclusione di contenuti importanti: pagine di prodotti o articoli di blog non dovrebbero essere esclusi.
Nascondere dati sensibili: i dati sensibili non dovrebbero essere accessibili pubblicamente in primo luogo, poiché il robots.txt non è uno strumento di sicurezza.
Uso come controllo dell’indicizzazione: vietare la scansione non significa automaticamente che i contenuti non vengano indicizzati (a questo scopo è destinato il Meta-Robots Tag).

SEO: a cosa prestare attenzione

Errori comuni

Blocco completo del sito con Disallow: / (spesso dimenticato sui siti di staging)
Blocco di risorse (ad esempio CSS o JS) di cui Google ha bisogno per il rendering
Mancanza d’indicazione della Sitemap: rende l’indicizzazione più difficile

Best Practices

Verificare e adattare regolarmente il robots.txt
Testare con Google Search Console: lì Google indica se i contenuti vengono bloccati per errore
Utilizzare in modo efficiente il Crawl Budget: escludere le pagine non importanti, mantenere quelle rilevanti liberamente accessibili

Ulteriori Informazioni sulla Creazione del robots.txt.

Testare il robots.txt con SISTRIX

Nei progetti di SISTRIX puoi avviare una scansione per testare il robots.txt del tuo sito: il nostro Crawler lo leggerà e rispetterà le regole in esso contenute, esattamente come avviene con Googlebot.

Le modifiche al robots.txt possono essere testate senza che debbano essere subito pubblicate online. A tale scopo, nelle impostazioni del progetto può essere depositato un robots.txt virtuale, che viene utilizzato esclusivamente per il Crawler interno e sostituisce la versione accessibile al pubblico alla scansione successiva. In questo modo, le nuove regole possono essere verificate senza rischi, né impatto sui motori di ricerca reali.

Impostazioni di un progetto onpage di SISTRIX

Scopri subito come sfruttare SISTRIX per il tuo business online! Sette giorni per provare l’intero tool senza alcun costo nascosto, né disdetta necessaria: testa subito SISTRIX gratuitamente.

Modello per un robots.txt ottimizzato per i motori di ricerca

L’esempio seguente mostra un file robots.txt che funziona per la maggior parte dei siti (i percorsi devono essere adattati individualmente).

# Accesso consentito per tutti i crawler
User-agent: *

# Escludere directory irrilevanti per gli utenti e per Google
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cgi-bin/
Disallow: /carrello/
Disallow: /checkout/
Disallow: /account/

# Non bloccare risorse come CSS o JS (Google ne ha bisogno per il rendering)
# Eccezione: se sai che una directory contiene solo dati tecnici, puoi escluderla

# Evitare la scansione di URL di filtro e ordinamento (Esempio per un e-commerce)
Disallow: /*?orderby=
Disallow: /*?filter=
Disallow: /*?add-to-cart=

# Escludere i risultati di ricerca sul sito (spesso Duplicate Content)
Disallow: /?s=
Disallow: /ricerca/

# Specificare la Sitemap – aiuta Google con l'indicizzazione
Sitemap: https://www.iltuo-dominio.it/sitemap.xml

Come verificare un robots.txt

1. Google Search Console: “robots.txt Tester”

Come funziona:

Accedi a Google Search Console.
Seleziona la Property corrispondente (il tuo sito).
Vai su Strumenti e Report Precedenti > robots.txt Tester (nota: Google sta gradualmente eliminando questo strumento, potrebbe essere ancora disponibile a seconda della Property).
Carica o incolla il tuo file robots.txt attuale o pianificato.
Verifica i singoli URL: Google indica se sono bloccati o accessibili.

2. Test Locale nel Browser

Apri www.iltuo-dominio.it/robots.txt.
Controlla se il file viene caricato correttamente.
Fai attenzione a una sintassi priva di errori e all’assenza di voci Disallow indesiderate.

Suggerimento: testa prima di pubblicare

Se non sei sicuro, non pubblicare immediatamente il tuo file robots.txt modificato: utilizza piuttosto le opzioni di test, soprattutto per siti con molto traffico o contenuti sensibili.

Robots.txt e Crawler AI

È possibile proteggere i contenuti dallo scraping da parte degli strumenti AI tramite robots.txt?

Molti strumenti AI, in particolare i grandi modelli linguistici come ChatGPT, Google Gemini o Claude, utilizzano Webcrawler per raccogliere contenuti accessibili pubblicamente. Questi Crawler, come GPTBot (OpenAI), CCBot (Common Crawl) o Google-Extended, affermano di rispettare le istruzioni contenute nel robots.txt.

Istruzioni esemplificative per bloccare questi Crawler:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Importante da sapere

Solo i Crawler che aderiscono al robots.txt non accederanno ai tuoi contenuti.
Gli Scraper o i bot illegittimi che non rispettano gli standard semplicemente ignoreranno il file.

Il robots.txt non è quindi una protezione assoluta contro lo Scraping, ma piuttosto un segnale di opt-out come garanzia legale.

Alcuni consigli

Se non desideri che i tuoi contenuti vengano utilizzati per l’addestramento dei modelli AI, dovresti bloccare attivamente i Crawler rilevanti.
Inoltre, può essere utile implementare misure di protezione del Server (ad esempio Bot-Management o blocchi IP).

Legalmente, l’argomento rimane controverso: alcune aziende integrano addirittura nei loro Termini di Utilizzo il divieto dell’uso dei loro contenuti da parte dei modelli AI.

Cosa dice OpenAI riguardo al robots.txt?

OpenAI offre ai SEO la possibilità di controllare in modo mirato il modo in cui i loro contenuti possono essere utilizzati dai diversi Crawler di OpenAI. Il controllo avviene sempre tramite il robots.txt, ma OpenAI distingue tra diversi Crawler, a seconda dello scopo.

Ecco una panoramica:

Cosa dice OpenAI su robots.txt

User Agent	Uso da parte di OpenAI
GPTBot	Utilizzato per scansionare contenuti per l'addestramento di modelli di AI generativa (ad esempio ChatGPT). Disallow nel robots.txt segnala che i contenuti non possono essere utilizzati per scopi di training.
OAI-SearchBot	Serve per visualizzare siti web nelle funzionalità di ricerca di ChatGPT (ad esempio tramite integrazione con Bing Search). Non viene utilizzato per l'addestramento dell'AI. OpenAI raccomanda di consentire questo crawler se si desidera apparire nei risultati di ricerca di ChatGPT.
ChatGPT-User	Viene utilizzato quando un utente visita una pagina web in ChatGPT (ad esempio tramite plugin, Custom GPTs o GPT Actions). Non è un crawler automatico, non utilizza i dati per l'addestramento dell'AI. Questi accessi si basano su azioni specifiche dell'utente.

Esempio di robots.txt per il controllo dei Crawler di OpenAI:

# Impedisci che i contenuti vengano utilizzati per l'addestramento AI
User-agent: GPTBot
Disallow: /

# Consenti di apparire nei risultati di ricerca di ChatGPT
User-agent: OAI-SearchBot
Allow: /

# Non bloccare le azioni dell'utente tramite ChatGPT-User (opzionale)
User-agent: ChatGPT-User
Allow: /

Fonte: https://platform.openai.com/docs/bots

FAQ sul robots.txt

Come posso visualizzare il file robots.txt?

Basta digitare nel browser www.iltuo-dominio.it/robots.txt.

Il robots.txt è utile per la SEO?

Sì, se aiuta a utilizzare le risorse di scansione in modo efficiente e a escludere contenuti irrilevanti.

Come trovo il robots.txt su WordPress?

Molti hoster lo generano automaticamente. Con plugin come Yoast SEO o Rank Math puoi personalizzarlo.

Come risolvo “Blocked by robots.txt” su WordPress?

Verifica su Search Console quali URL sono interessate. Successivamente, modifica il robots.txt e rimuovi la voce Disallow.

È meglio usare robots.txt o i Meta-Tag?

Per il controllo della scansione : robots.txt. Per l’indicizzazione: Meta Robots Tag (ad esempio noindex).

Cos’è un Generatore di robots.txt?

Uno strumento per la creazione di file robots.txt senza doverli scrivere manualmente, ideale per i principianti.

Google ignora il robots.txt?

No, Google di solito lo rispetta, a meno che non si tratti di contenuti che necessitano di protezione particolare (ad esempio, dati legalmente rilevanti).

Come aggiungo una sitemap.xml nel robots.txt?

Basta aggiungerla alla fine del file: Sitemap: https://www.iltuo-dominio.it/sitemap.xml

Come aggiungo una sitemap.xml e un robots.txt su WordPress?

Con plugin come Yoast SEO o Rank Math puoi configurare comodamente entrambi, inclusa la creazione automatica della Sitemap.