Perché ottengo dei valori diversi quando confronto le pagine indicizzate su Google, GSC e SISTRIX?

A volte può accadere che i numeri ottenuti dalle ricerche su Google tramite la query “site:”, Google Search Console (GSC) e Toolbox SISTRIX non coincidano. Per quale motivo?

In realtà non ha senso comparare direttamente i valori ottenuti dalla query “site:” di Google e quelli di Google Search Console: essi infatti sono calcolati in modo differente, per cui danno vita a risultati di natura diversa che vengono pubblicati in tempi discordanti.

Confronto delle pagine indicizzate: la site:-query di Google e SISTRIX

In questo confronto vediamo che la una query “site:” su Google:

site-query: per zalando.it

Dà dei risultati differenti rispetto alla quantità di pagine indicizzate del Toolbox SISTRIX:

Toolbox SISTRIX: pagine indicizzate di zalando.it
Quando confronti due campioni di dati, devi sempre considerare la data della valutazione. Nell’esempio sopra, i dati della query “site:” sono leggermente più recenti.

Il numero di pagine indicizzate nel Toolbox SISTRIX è una media

Secondo le dichiarazioni di Google il numero di pagine indicizzate diventa semplicemente una stima quando si superano le 1000 pagine (infatti davanti ad ogni risultato viene inserito “circa”). Per eliminare la maggior parte delle anomalie, raccogliamo i dati SISTRIX più volte a settimana e poi ne calcoliamo il valore medio.

Per fare ciò, effettuiamo delle ricerche su Google usando l’operatore site:-query, in modo da avere dei valori provenienti direttamente da Google e calcolare, in base ad essi, la media dei dati settimanali. Se mostriamo una crescita (o una diminuzione), tale andamento deriva direttamente dai dati di Google al momento della richiesta.

I valori poco stabili dovrebbero essere analizzati

Se le tue pagine indicizzate presentano continuamente delle variazioni notevoli, dovresti analizzarle per trovare delle possibili cause: spesso può essere dovuto a contenuti duplicati o alla presenza di materiale che Google non considera importante. Google indicizzerà queste pagine (il numero di pagine indicizzate quindi salirà) e poi filtrerà nuovamente i duplicati o quelle meno importanti (il numero di pagine indicizzate diminuirà). Questo vale anche, ad esempio, per le versioni stampabili delle pagine, i Sessions IDs, i link affiliati e altro.

L’esempio di red-simon.com

Per darti un esempio, analizzeremo i risultati della query “site:” per il dominio red-simon.com, in modo da trovare il motivo della crescita del numero di pagine indicizzate.

Google site:-query for red-simon.com in 2013

Analizzando red-simon.com notiamo la presenza di un gran numero di URL dinamici (con molti parametri), tra cui, ad esempio:

red-simon.com/data/cmsv2.asp?mid=41&sid=1&pid=533

Probabilmente è possibile accedere a questo contenuto da più URL ed esistono quindi dei duplicati. Alcune di queste pagine usano addirittura un reindirizzamento 302 (temporaneo), che tendenzialmente confonde Google. Consigliamo di usare sempre un reindirizzamento 301 in questi casi.

Per un sito è sempre fondamentale eliminare gli URL dinamici a favore di quelli statici. I reindirizzamenti via mod_rewrite possono essere una soluzione valida per questo esempio.

23.01.2024