Indice di Google, GoogleBot e il processo di Crawling: come funzionano?

Un sito può essere trovato tramite la ricerca su Google solo dopo essere stato inserito nell’Indice di Google, ed esistono numerosi modi per condizionare questo processo. È infatti fondamentale comprendere e controllare il procedimento alla base della ricerca per evitare errori che potrebbero avere un impatto negativo sul proprio sito. In questo articolo troverai una breve panoramica a riguardo.

Cosa significa “Crawling” e a cosa serve?

L’unico modo perché il tuo sito venga inserito nell’Indice di Google (cioè la fonte da cui derivano le pagine dei risultati di Google), è fare in modo che Googlebot scansioni il tuo sito.

“Crawler” è un termine generico che indica qualsiasi programma (come un robot o uno spider) utilizzato per l’individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all’altra. Il crawler principale di Google è Googlebot.

Google Search Central

Questo articolo di Google che parla delle basi di Googlebot ti aiuterà a comprendere meglio come funziona il processo di scansione (o “Crawling”) che precede l’immissione di un sito nell’Indice di Google. È inoltre utile per capire come l’algoritmo di ranking usi questo Indice per ordinare e selezionare i siti da mostrare nelle pagine dei risultati. Lo vediamo meglio in questa immagine:

Come funziona il processo di scansione di Google
Il processo di scansione e d’indicizzazione di Google

Il processo di scansione è importante per la SEO?

La risposta è semplice: il tuo sito non apparirà mai nelle pagine dei risultati di ricerca senza un crawler che lo scansioni.

Se sei fortunato, Google potrebbe trovare il tuo sito anche senza che tu debba muovere un dito, grazie a dei link contenuti su altri siti, ma è comunque importante sapere cosa succede quando Googlebot scansiona ed indicizza una pagina. Ed è proprio qui che entra in gioco il tool più importante per i SEO: Google Search Console. Esso ti permette d’indicare a Google la presenza del tuo sito, controllarne la scansione e l’indicizzazione, e risolvere eventuali errori.

Come posso fare in modo che Google scansioni il mio sito?

Il metodo più facile è di connettere il sito a Google Search Console ed utilizzare la funzione “Inviare all’Indice“. Esistono però anche altre modalità: il tuo sito potrebbe essere trovato tramite link contenuti su altri siti (metodo difficile da misurare e non sempre efficace), oppure inviando una Sitemap a Google.

Esistono delle considerazioni su scansione e indicizzazione di cui dovrei essere a conoscenza?

Una delle considerazioni più importanti su questo tema è il Mobile First Indexing: Googlebot usa il sito mobile (cioè il modo in cui un sito viene mostrato su Smartphone) per visualizzare ed indicizzare i contenuti al suo interno anche per le ricerche su desktop. Questo significa che, se il tuo sito nasconde determinati tipi di contenuti su mobile, essi non appariranno neanche nella versione desktop.

Esistono anche dei modi per “guidare” Google nelle sue azioni. Ad esempio, puoi fare in modo che non segua i link del tuo sito e quindi che non scansioni determinate parti di esso (evitando l’indicizzazione di specifiche pagine HTML e non). Puoi eventualmente anche escludere Google completamente dal tuo sito, ma non dimenticare che Googlebot potrebbe decidere di testa sua ed indicizzare comunque alcune pagine seguendo i link in entrata.

Inoltre, dovresti fare in modo che il tuo sito sia accessibile solo attraverso un dominio, evitando, ad esempio, che esistano due versioni identiche con e senza www.

Se il tuo sito scompare improvvisamente dalle pagine dei risultati puoi consultare invece questa guida per individuare l’origine del problema: è possibile che sia stato rimosso manualmente in modo volontario, oppure (caso più frequente) che ci sia stato un problema tecnico o una configurazione erronea nel file robots.txt o nel tag header.

L’attività del crawler può essere monitorata su Google Search Console oppure nei log del tuo sito, cercando al loro interno lo User-Agent del crawler. Ricorda però che anche i bot hanno dei limiti: è caso, ad esempio, di moduli e formulari, oppure di Javascript per creare HTML.

Se il tuo sito è molto grande dovresti tenere a mente il crawling budget: Google, infatti, non può utilizzare risorse illimitate per scansionare milioni di pagine. Se vuoi saperne di più sul tema puoi consultare questo articolo dedicato.

Infine, per semplificare la scansione e la comprensione del tuo sito da parte di Googlebot è importante considerare l’ottimizzazione Onpage, strutturare il sito in modo solito (Sitemap) ed utilizzare i link interni in modo sensato.

Domande frequenti

Case Study e articoli relativi alla scansione e all’indicizzazione di siti

“How Search Works”: cosa dice Google?

Questo video di Google è un ottimo punto di partenza per capire come funziona la ricerca. L’elenco di articoli sul tema lo troverai invece qui.

23.08.2023