Vuoi ricevere tutte le novità SEO direttamente via mail?

Scansione e indicizzazione di siti web estesi

Non appena il sito eccede le dimensioni di una tipica homepage privata, emergono una serie di nuove sfide che non bisogna sottovalutare. Una di queste riguarda il fatto che il contenuto esistente appartiene all’indice di Google, e deve essere il più completo ed aggiornato possibile. Queste caratteristiche potrebbero sembrare scontate, ma siti web molto estesi tendono a commettere, sorprendentemente, errori piuttosto gravi su questo punto, siccome il loro contenuto è distribuito normalmente su vari database e deriva da fornitori differenti.

Persino Google ha un limite di risorse, per quanto riguarda l’acquisizione e l’immagazzinamento del contenuto dei siti web. Per questo motivo, Google indica dei limiti singolarmente per ogni dominio, ad esempio relativamente al numero di URL scansionati al giorno e alla quantità di pagine indicizzabili. I siti web estesi sono i primi che rientrano in tali limitazioni, ed è per questo che dovrebbero utilizzare le risorse disponibili nel modo più sensato e produttivo possibile.

In questo articolo ti forniremo delle informazioni generali sull’argomento e introdurremo dei processi specifici, grazie ai quali potrai controllare la scansione e l’indicizzazione delle pagine, con tanto di vantaggi e svantaggi.

Budget di scansione e budget d’indicizzazione

Nonostante questi due termini siano contestualmente somiglianti, si distinguono da delle differenze importanti. Per capirli nel modo migliore, daremo prima un’occhiata alla struttura schematica (e semplificata) dei motori di ricerca di internet.

Schematic (and simplified) structure of an internet search-engine

Per avere la minima speranza di essere presi in considerazione dall’algoritmo di un motore di ricerca per una query, una parte di contenuto del dominio deve prima essere scoperto e “catturato” da un crawler, per poi essere aggiunto all’indice.

Google ha dato numerose informazioni riguardo al comportamento di GoogleBot e ai suoi obiettivi, che sono: scoprire rapidamente il nuovo contenuto, identificare e riunire in modo affidabile il contenuto nascosto all’interno di una pagina. La quantità di sforzo impiegato da Google per conseguire questi obiettivi dipende dal budget di scansione del dominio. Nonostante i tentativi di trattare in modo eguale tutti i domini, Google assegna comunque un proprio budget di scansione differente ad ogni dominio. Quest’ultimo determina la frequenza con cui GoogleBot scansionerà i primi livelli del dominio, e quanto in profondità andrà il “Deep Crawl”.

Una cosa simile avviene con il budget d’indicizzazione: quest’ultimo determina il numero massimo di URL che possono essere aggiunti all’indice di Google. È importante ricordare che solo gli URL scansionati regolarmente rimarranno in tale indice.

I tuoi nemici: web developers, JavaScript e caos generale

Potrebbe essere tutto così semplice: in teoria, ogni parte del contenuto dovrebbe avere un URL unico, logico e comprensibile, che possa rimanere tale per i decenni a seguire.

Purtroppo però questa si rivela molto spesso un’utopia: i web developers decidono di creare una terza versione stampabile di una pagina, GoogleBot impara qualcosa di più su JavaScript e improvvisamente inventa nuovi URL, oppure il sito subisce un rilancio CMS in un paio di anni, che distrugge completamente il concetto originale degli URL. Tutti questi scenari avranno una sola conseguenza: Google scansionerà URL non necessari e sprecherà il budget di scansione del dominio, senza raggiungere altre parti di contenuto più interessante. Questa potrebbe essere la ragione per cui il tuo dominio non sta ottenendo la quantità massima di spazio dell’Indice di Google, rimanendo sotto il potenziale longtail.

Il filtro Panda e il contenuto duplicato: l’igiene dell’indice

Dovrebbe essere ormai chiaro che è necessario occuparsi specificamente del controllo della scansione e dell’indicizzazione, quando si parla di domini estesi. Esistono anche un paio di ulteriori vantaggi relativamente all’ “igiene dell’indice”: nonostante, negli ultimi anni, Google stia rassicurando che il contenuto duplicato non sia fonte di problemi, la realtà sembrerebbe indicare il contrario. Avere un contenuto ordinato e sistemato ti permetterà di scoprire problemi di contenuto duplicato e prendere immediatamente le contromisure necessarie. Avere pochi contenuti, ma di buona qualità nell’indice ti potrebbe anche aiutare a combattere il temibile Google Panda.

Scegli la tua arma: robots.txt, noindex, canonical

Rivolgiamoci ora alla pratica: come si può tenere pulito un dominio? Per fortuna, hai a disposizione un arsenale di strumenti per raggiungere questo obiettivo. Di seguito abbiamo inserito quelli più importanti, indicandone vantaggi e svantaggi.

File robots.txt

Il file robots.txt è uno degli strumenti più vecchi per evitare che i motori di ricerca scansionino parti specifiche del tuo sito. All’inizio la sintassi era abbastanza semplice, ma col tempo si è arricchita di numerose estensioni (nella maggior parte dei casi grazie a Google) che ti permettono di coprire ogni bisogno.

Il vantaggio di robots.txt è che GoogleBot non visiterà il contenuto “proibito”, e quindi non sprecherà budget di scansione. Lo svantaggio, però, è che se Google è comunque convinto che il contenuto sia comunque importante (ad esempio, perché presenta molti link esterni), l’URL potrebbe essere ancora mostrato nelle SERP (pagine dei risultati di ricerca), senza titolo né snippet.

Istruzioni noindex

Le istruzioni noindex si riferiscono sempre ad un URL specifico, che potrebbe essere parte di un codice sorgente HTML di una pagina (come Meta-Tag) o specificato nell’intestazione HTTP. Quest’ultimo caso è particolarmente interessante per altri formati di file, come i PDF o i documenti Word. Per osservare le istruzioni noindex, GoogleBot dovrà prima di tutto processare l’URL, utilizzando budget di scansione, ma non budget d’indicizzazione.

Il noindex è l’unico metodo affidabile per accertarsi che un URL non appaia nelle SERP, sotto nessuna circostanza. Ricorda quindi che Google dovrà leggere le istruzioni per processarlo, quindi non bloccare l’URL con un file robots.txt.

Canonical-tag

Prima di tutto, le applicazioni per questo attributo sono molto poche. Se un web developer consiglia di usare un canonical, allora è probabile che il problema non possa essere risolto e che se ne vogliano semplicemente mitigare le conseguenze. Il canonical-tag non è vincolante per Google, al contrario delle soluzioni precedenti, bensì si tratta semplicemente di un avviso indicante che l’URL ospita del vero e proprio contenuto. Google potrebbe seguire tale avviso, o ignorarlo.

Le pagine con un canonical-tag utilizzano il budget di scansione per fare in modo che Google trovi il tag, e potrebbero anche usare il budget d’indicizzazione, perché Google possa confrontare il contenuto della pagina con altre parti di contenuto nell’indice. In conclusione: evita il canonical-tag, se possibile.

Monitorare è necessario

Per la scansione di un sito esteso e in costante crescita c’è solo una costante: tutti gli errori che potrebbero accadere accadranno, prima o poi. Per questo motivo è necessario monitorare regolarmente i parametri più importanti. Google ti aiuterà grazie alla Search Console: tieni sempre sotto controllo il numero di pagine scansionate ed indicizzate, e, per avvantaggiarti ulteriormente, utilizza dei server-longfiles e degli strumenti di misurazione. Il nostro Toolbox, ad esempio, può essere d’aiuto per monitorare tali parametri.

Articoli correlati