Vuoi ricevere tutte le novità SEO direttamente via mail?

I file PDF delle mie pagine HTML possono costituire un problema di contenuti duplicati?

Se il proprio contenuto è disponibile sia su una pagina HTML, sia in un file PDF, Google lo potrebbe considerare un caso di contenuti duplicati? In questo articolo approfondiremo l'argomento.

HTML + PDF = Contenuti duplicati?

Tecnicamente parlando potrebbe effettivamente trattarsi di contenuti duplicati. Tuttavia, parleremmo di contenuti duplicati esterni se, all’interno del tuo negozio online, offrissi una versione PDF scaricabile di ogni manuale d’istruzioni di ciascun prodotto, quando gli stessi documenti sono reperibili anche dal sito (e quindi a sua volta dal negozio online) del produttore.

Nel caso di contenuti duplicati interni, invece, Google afferma che preferisce posizionare solitamente la versione HTML nelle pagine dei risultati di ricerca. Tuttavia non devi preoccuparti se il tuo sito non risponde sempre a questa direttiva.

Nel caso Google mostri un avviso di contenuti duplicati nella sezione “Miglioramenti HTML” di Google Search Console (GSC), potresti ad esempio bloccare la scansione del documento PDF attraverso il file robots.txt, vietando l’accesso a GoogleBot.

In alternativa, puoi evitare che il file PDF venga indicizzato utilizzando il tag x-robots all’interno dell’header HTTP, oppure inserendo un Canonical Tag verso la versione originale.

Nel caso dei contenuti duplicati esterni descritti nell’esempio precedente, è consigliabile inserire il rel=”canonical” all’interno dell’header HTTP del file PDF, in modo che “indirizzi” verso la fonte delle informazioni (nel nostro caso, il sito del produttore originale).

È davvero necessario che i file PDF vengano scansionati e indicizzati?

Nel caso il tuo sito contenga numerosi file PDF, la prima domanda da porsi è se hai intenzione di posizionarti su Google grazie ad essi. Se la risposta è negativa, dovresti evitare che questi file vengano indicizzati da GoogleBot, in quanto consumano il crawling budget e l’index budget del tuo sito.

Cosa dice Google?

Non preoccuparti di questo tipo di contenuti duplicati, anche se il tuo contenuto è disponibile sia su un file PDF, sia in una pagina HTML. Nel caso rilevassimo problemi di contenuti duplicati mostreremmo comunque solo un URL, quindi il tuo sito non subirebbe alcuno svantaggio.

Fonte: John Mueller

Concludendo

Puoi evitare questa forma (rara) di contenuti duplicati vietando la scansione dei documenti PDF tramite robots.txt. Controlla sempre gli avvisi di Google Search Console per essere sempre informato su eventuali contenuti duplicati del tuo sito. Lo svantaggio dei PDF è che, nella maggior parte dei casi, essi non permettono alcun tipo di navigazione sul sito.

Articoli correlati