Vuoi ricevere tutte le novità SEO direttamente via mail?

I file PDF delle mie pagine HTML possono costituire un problema di contenuti duplicati?

de_DEen_USes_ESfr_FR

Da un punto di vista tecnico, potrebbero costituire un problema di contenuti duplicati se lo stesso contenuto fosse accessibile sia dal file HTML, sia dal documento PDF del tuo sito web. Si tratterebbe di contenuto duplicato esterno se, per esempio, offrissi una versione PDF scaricabile di ogni manuale utente di ciascun prodotto nel tuo negozio online, quando le stesse informazioni sono reperibili anche dal sito web del produttore.

Nel caso di contenuti duplicati interni, Google afferma che, di solito, ne preferisce classificare la versione HTML. Non preoccuparti però se questo non è il caso più comune del tuo sito web.

In situazioni del genere non devi di solito preoccuparti dei contenuti duplicati, perfino se decidi di specchiare i contenuti dei tuoi PDF su pagine HTML. Nel caso venissimo a conoscenza che gli URL contengono dei contenuti duplicati, ne mostreremo solo uno agli utenti che li cercheranno. In questo modo il tuo sito non dovrebbe essere svantaggiato in nessun modo.– John Mueller, Analista di Webmaster Trends, Google Svizzera

Nel caso Google mostri un avviso di contenuti duplicati nel menù di “Miglioramenti HTML” all’interno della Google Search Console (GSC), potresti ad esempio bloccare il documento PDF attraverso il file robots.txt del tuo sito web, impedendo la scansione di Google-Bot. In alternativa, puoi evitare che il file PDF venga indicizzato, utilizzando il tag x-robots all’interno dell’intestazione HTTP. Per ulteriori informazioni, consulta:
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=it

Nel caso dei contenuti duplicati esterni dell’esempio precedente, è consigliabile inserire
rel=”canonical”, con la fonte del contenuto originale, all’interno dell’intestazione HTTP del file PDF. Qui puoi trovare ulteriori informazioni: http://googlewebmastercentral.blogspot.de/2011/06/supporting-relcanonical-http-headers.html

È davvero necessario che i file PDF vengano esaminati e indicizzati?

Se sul tuo sito stai utilizzando dei file PDF, dovresti sempre chiederti se hai intenzione di appoggiarti a loro per posizionare il tuo sito. Se non è questa la tua intenzione, dovresti evitare che questi file vengano indicizzati da Google-Bot, in rispetto del budget di crawling e d’indicizzazione del tuo sito web.

Articoli correlati