Perché i parametri possono causare contenuti duplicati?

In molti casi, quando una pagina si trova a combattere con del contenuto duplicato interno, i parametri URL possono esserne gran parte della causa. Cosa sono i parametri URL e perché comportano questo problema?

Cosa sono i parametri?

Un parametro è una parte di URL che serve a influenzare il contenuto di una determinata pagina. Molto spesso sono utilizzati per ordinare e filtrare determinati prodotti in un negozio online, magari per colore, grandezza o altri indicatori.

Ad esempio, per l’URL seguente:

https://www.shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&grandezza=42&materiale=cuoio

grazie ai parametri:

colore=nero
grandezza=42
materiale=cuoio

verranno mostrate solo le scarpe di cuoio nere da uomo di numero 42.

In una stringa di parametri, il primo di essi è riconoscibile in quanto è preceduto da un punto interrogativo (?), mentre tutti gli altri sono correlati da una E commerciale (&). Inoltre i parametri presentano un ordine definito.

Altre modalità d’uso dei parametri sono le ricerche interne, i SessionID e le versioni stampabili di una pagina.

Perché i parametri possono generare contenuti duplicati?

Il concetto base di un URL è il suo collegamento ad uno specifico indirizzo di una risorsa nel server. Un esempio è la differenza tra

https://www.dominio.it/buongiorno-mondo.html

https://www.dominio.it/Buongiorno-mondo.html

In questo caso si tratta, da un punto di vista tecnico, di due diversi URL che si distinguono a causa dei caratteri maiuscoli o minuscoli.

Il negozio online di cui parlavamo prima potrebbe quindi utilizzare dei filtri diversi, ma mostrare le stesse informazioni su tutti gli URL seguenti:

  • https://shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&grandezza=42&materiale=cuoio
  • https://shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&materiale=cuoio&grandezza=42
  • https://shop.dominio.it/scarpe/scarpeuomo/marca.html?grandezza=42&colore=nero&materiale=cuoio
  • https://shop.dominio.it/scarpe/scarpeuomo/marca.html?grandezza=42&materiale=cuoio&colore=nero
  • https://shop.dominio.it/scarpe/scarpeuomo/marca.html?materiale=cuoio&colore=nero&grandezza=42
  • https://shop.dominio.it/scarpe/scarpeuomo/marca.html?materiale=cuoio&grandezza=42&colore=nero

Per Google ognuno degli URL precedenti è unico, ma i contenuti sono in realtà sempre uguali: un caso classico di contenuti duplicati.

La quantità di possibili URL è quindi la possibilità (n!) del filtro utilizzato. Se inserissimo quindi un altro filtro, ad esempio tipo=mocassino, avremmo già 24 (1x2x3x4) diverse combinazioni di URL che riguardano lo stesso contenuto. Con 5 filtri sarebbero addirittura 120 URL con contenuto identico.

Cosa posso fare per evitarlo?

Ci sono diversi metodi per contrastare la creazione di contenuti duplicati, che si differenziano per implementazione e dispendio di energia. Ne faremo quindi una breve lista.

Ricorda però che essi intervengono in modo più o meno diretto sulle funzionalità della pagina, per cui sarebbe meglio ragionarci sopra prima di utilizzarli.

Molti di essi, inoltre, necessitano di una profonda conoscenza tecnica e di risorse di sviluppo notevoli.

Possibilità 1: non utilizzare parametri inutili

Si tratta di una possibilità tecnicamente dispendiosa, ma anche pulita. Nella maggior parte dei casi si può evitare di usare dei parametri, ad esempio per i SessionID oppure per le versioni stampabili della pagina. Queste ultime possono essere create tramite CSS, senza che ci sia bisogno di un nuovo URL.

Possibilità 2: ordinare i parametri

Questa possibilità può essere presa in considerazione soprattutto per i filtri.

Potrai indicare al sistema un preciso ordine di parametri: in questo modo il server assemblerà gli URL dei nuovi parametri così che ogni combinazione di filtri mostri al massimo un URL.

Per il nostro esempio, l’ordine dei parametri potrebbe essere sempre formato dall’ordine: colore > grandezza > materiale > tipo.

Quindi se all’URL

https://shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&materiale=cuoio

viene aggiunto il filtro “grandezza”, allora il sistema riporterà l’URL nel modo seguente:

https://shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&grandezza=42&materiale=cuoio.

Se durante l’implementazione non si sa precisamente quale parametro inserire, si potrebbe pensare di ordinarli alfabeticamente.

Possibilità 3: chiarire i parametri a Google

Attraverso la Search Console Google permette di ordinare i parametri URL secondo delle categorie.

Google ha infatti scritto un proprio documento di supporto per indicare delle linee guida da tenere in considerazione. Questo cosiddetto “Strumento parametri URL” può essere però un’arma a doppio taglio, in quanto un utilizzo sbagliato può portare Google a non indicizzare più le pagine contenute nell’Indice.

Se utilizzi questo metodo ti consigliamo di analizzare il tuo dominio nell’Optimizer, andando su “Impostazioni progetto” > “Crawling” e inserendo i parametri che preferisci.

Possibilità 4: rel=”canonical”

Questa possibilità è una delle strategie più semplici e più complete. Questo è dato dal fatto che esistono dei Plugin per la stragrande maggioranza dei Content Management System, i quali permettono d’impostare il rel=”canonical” (anche se tale modifica deve poi essere implementata attraverso l’IT). Tale indicazione è leggibile da tutti i motori di ricerca senza particolari problemi.

Potrai quindi scegliere d’impostare una versione canonica della combinazione del filtro corrispondente, e tutti gli altri URL saranno automaticamente impostati con un Canonical-Tag.

Nel caso precedente, se sceglieremo l’URL

https://shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&grandezza=42&materiale=cuoio

come versione canonica, anche gli altri 5 URL aventi gli stessi filtri otterranno lo stesso Canonical-Tag nella sezione <head> del codice sorgente:

<link rel="canonical" href="https://shop.dominio.it/scarpe/scarpeuomo/marca.html?colore=nero&grandezza=42&materiale=cuoio">

Possibilità 5: Noindex

Il secondo approccio che si basa sull’uso dei Plugin nella maggior parte dei Content Management System è l’impostazione del Noindex nella sezione <head> della pagina.

<meta robots="noindex">

Questo permetterà a Google (e agli altri motori di ricerca) di capire che il documento non deve essere introdotto nell’Indice. Dovrai quindi riflettere su quali pagine potrebbero essere utili per l’utente, senza però che compaiano nella ricerca di Google.

Nel caso non venga inserita nessuna indicazione nel robots meta-tag, esso si comporterà come se fosse impostato come “Follow”: i motori di ricerca seguiranno quindi i link del documento corrispondente durante la scansione, nonostante il documento non si trovi nell’Indice.

<meta robots="noindex, follow">

Per il nostro filtro d’esempio questo comporterebbe che Google seguirà i link che portano alle pagine filtrate, anche se queste non si trovano nel suo Indice.

Canonical e Noindex

Google consiglia di non combinare questi due valori.

Riassunto

I parametri URL possono causare velocemente un numero indistinto di contenuti duplicati possedenti le stesse identiche informazioni. Avere a che fare con essi però non è sempre così semplice e, a seconda del Content Management System utilizzato, la loro impostazione necessita di conoscenze di programmazione avanzate.

In questi casi Google offre, attraverso la sua Search Console, una pratica procedura per definire esattamente i parametri di un dominio. Tuttavia è necessario avere a che fare con lo “Strumento parametri URL”, facendo attenzione a non darsi la zappa sui piedi.

Nella maggior parte dei casi è quindi più semplice usare il rel=”canonical” oppure il robots=”noindex”. Ricorda però che questi due valori non devono essere utilizzati insieme, altrimenti Google ne verrà confuso.

12.03.2024