Come gestire l’indicizzazione e la scansione di siti estesi in ottica SEO

Non appena il sito eccede le dimensioni di una tipica homepage privata, emergono una serie di nuove sfide che non bisogna sottovalutare. Una di queste riguarda il fatto che il contenuto esistente appartiene all’Indice di Google, e deve essere il più completo ed aggiornato possibile. I punti indicati in questo articolo potrebbero sembrare scontati, ma i siti molto estesi tendono a commettere, sorprendentemente, errori piuttosto gravi, siccome il loro contenuto deriva da fornitori differenti ed è distribuito normalmente su vari database.

Persino Google ha un limite di risorse, per quanto riguarda l’acquisizione e l’immagazzinamento del contenuto dei siti. Per questo motivo, Google pone dei limiti specifici per ogni dominio, ad esempio relativamente al numero di URL scansionati al giorno e alla quantità di pagine indicizzabili. I siti estesi sono i primi che rientrano in tali limitazioni, ed è per questo che dovrebbero utilizzare le risorse disponibili nel modo più sensato e produttivo possibile.

In questo articolo ti forniremo delle informazioni generali sull’argomento e introdurremo dei processi specifici, grazie ai quali potrai controllare la scansione e l’indicizzazione delle pagine, con tanto di vantaggi e svantaggi.

Budget di scansione e budget d’indicizzazione

Nonostante questi due termini siano contestualmente somiglianti, si distinguono per delle differenze importanti. Per capirli meglio daremo prima un’occhiata alla struttura schematica (e semplificata) dei motori di ricerca.

Schematic (and simplified) structure of an internet search-engine

Per avere la minima speranza di essere presi in considerazione dall’algoritmo di un motore di ricerca per una query, una parte di contenuto del dominio deve prima essere scoperto e “catturato” da un crawler, per poi essere aggiunto all’Indice.

Google ha dato numerose informazioni riguardo al comportamento di GoogleBot e ai suoi obiettivi, che sono: per prima cosa, scoprire rapidamente il nuovo contenuto, e in secondo luogo identificare e riunire in modo affidabile il contenuto nascosto all’interno di una pagina. La quantità di “energia” impiegata da Google per conseguire questi obiettivi dipende dal budget di scansione del dominio. Nonostante i tentativi di trattare in modo uguale tutti i domini, Google assegna comunque un proprio budget di scansione differente ad ogni sito. Quest’ultimo determina la frequenza con cui GoogleBot scansionerà i primi livelli del dominio, e la profondità del suo normale “Deep Crawl”.

Una cosa simile avviene con il budget d’indicizzazione: quest’ultimo determina il numero massimo di URL che possono essere aggiunti all’Indice di Google. È importante ricordare che solo gli URL scansionati regolarmente rimarranno in tale Indice.

I tuoi nemici: web developer, JavaScript e caos generale

Potrebbe essere tutto così semplice: in teoria, ogni parte del contenuto dovrebbe avere un URL unico, logico e comprensibile, che possa rimanere tale per i decenni a seguire.

Purtroppo però questa si rivela molto spesso un’utopia, magari perché i web developer decidono di creare una terza versione stampabile di una pagina, oppure GoogleBot impara qualcosa di più su JavaScript e improvvisamente inventa nuovi URL, o ancora il sito potrebbe subire una migrazione in un paio di anni, con conseguente stravolgimento dell’originale sistema degli URL.

Tutti questi scenari avranno una sola conseguenza: Google scansionerà URL non necessari e sprecherà il budget di scansione del dominio, senza raggiungere altre parti di contenuto più interessanti. Questa potrebbe essere la ragione per cui il tuo dominio non sta ottenendo la quantità massima di spazio dell’Indice di Google, rimanendo sotto il potenziale longtail.

Il filtro Panda e il contenuto duplicato: l’igiene dell’Indice

Dovrebbe essere ormai chiaro che controllare la scansione e l’indicizzazione è un passo fondamentale, soprattutto quando si parla di domini estesi. Esistono anche un paio di ulteriori vantaggi relativamente all’ “igiene dell’Indice”: nonostante, negli ultimi anni, Google stia rassicurando che i contenuti duplicati non siano fonte di problemi, la realtà sembrerebbe indicare il contrario. Avere un contenuto ordinato e sistemato ti permetterà di rilevare questo tipo di problema, in modo da prendere immediatamente le contromisure necessarie. Avere pochi contenuti, ma di buona qualità, all’interno dell’Indice è fondamentale per avere successo a lungo termine su Google.

Scegli la tua arma: robots.txt, noindex, canonical

Rivolgiamoci ora alla pratica: come si può tenere pulito un dominio? Per fortuna, hai a disposizione un arsenale di strumenti per raggiungere questo obiettivo. Di seguito abbiamo inserito quelli più importanti, indicandone vantaggi e svantaggi.

File robots.txt

Il file robots.txt è uno degli strumenti più vecchi per evitare che i motori di ricerca scansionino parti specifiche del tuo sito. All’inizio la sintassi era abbastanza semplice, ma col tempo si è arricchita di numerose estensioni (nella maggior parte dei casi grazie a Google) che ti permetteranno di coprire ogni bisogno.

Il vantaggio di robots.txt è che GoogleBot non visiterà il contenuto “proibito”, e quindi non sprecherà budget di scansione. Lo svantaggio, però, è che se Google è convinto che il contenuto sia comunque importante (ad esempio, perché presenta molti link esterni), l’URL potrebbe essere ancora mostrato nelle SERP (pagine dei risultati di ricerca), senza titolo né snippet.

Il noindex

Le istruzioni noindex si riferiscono sempre ad un URL specifico, che potrebbe essere parte di un codice sorgente HTML di una pagina (come Meta-Tag) o specificato nell’intestazione HTTP. Quest’ultimo caso è particolarmente interessante per altri formati di file, come i PDF o i documenti Word. Per osservare le istruzioni noindex, GoogleBot dovrà prima di tutto processare l’URL, utilizzando budget di scansione, ma non budget d’indicizzazione.

Il noindex è l’unico metodo affidabile per accertarsi che un URL non appaia nelle SERP, sotto nessuna circostanza. Ricorda quindi che Google dovrà leggere le istruzioni per processarlo, quindi non bloccare l’URL con un file robots.txt.

Canonical-tag

Prima di tutto, le applicazioni per questo attributo sono molto poche. Se un web developer consiglia di usare un canonical, allora è probabile che il problema non possa essere risolto e che se ne vogliano semplicemente mitigare le conseguenze. Il canonical-tag non è vincolante per Google, al contrario delle soluzioni precedenti, bensì si tratta semplicemente di un avviso indicante che l’URL ospita del contenuto vero e proprio. Google potrebbe seguire tale avviso, o ignorarlo.

Le pagine con un canonical-tag utilizzano il budget di scansione per fare in modo che Google trovi il tag, e potrebbero anche usare il budget d’indicizzazione, perché Google possa confrontare il contenuto della pagina con altre parti di contenuto nell’indice. In conclusione: evita il canonical-tag, se possibile.

Mai dimenticarsi di monitorare

Per la scansione di un sito esteso e in costante crescita vige solo una regola: tutti gli errori che potrebbero accadere accadranno, prima o poi. Per questo motivo è necessario monitorare regolarmente i parametri più importanti. Google ti aiuterà grazie allo strumento Google Search Console: tieni sempre sotto controllo il numero di pagine scansionate ed indicizzate, e, per avvantaggiarti ulteriormente, utilizza i file log del server e gli strumenti di misurazione. Il Toolbox SISTRIX, ad esempio, può essere d’aiuto per monitorare tali parametri.

23.08.2023