Il problema del contenuto duplicato e come risolverlo

Un problema che vediamo in quasi ogni sito Web è contenuto duplicato. I più grandi siti Web con centinaia di pagine sono particolarmente inclini a questo. Ma cosa si qualifica esattamente come contenuto duplicato? Perché avere contenuti duplicati porta a problemi e come possiamo evitarli? Copriremo tutto questo e molto altro all'interno di questo articolo.


Cos'è il contenuto duplicato?

Il contenuto duplicato è esattamente quello che pensi: due o più contenuti identici, con l'unica differenza dell'URL.

Google vede ogni URL come una pagina separata. A causa di ciò, considererebbe i seguenti URL come pagine completamente diverse:

  • Pagina originale con camicie rosse: http://website.com/shirts/red
  • Stessa pagina, ma ordinata per prezzo: http://website.com/shirts/red?order=asc

Il problema qui è che stiamo fondamentalmente guardando la stessa pagina con lo stesso contenuto. L'unica differenza è che il contenuto dell'ultimo URL è in un ordine diverso. Google vede questo come contenuto duplicato.


Perché il contenuto duplicato è errato?

Contenuto duplicato confonde i motori di ricerca. Perché? Perché hanno difficoltà a decidere quale pagina è più pertinente per una query di ricerca.

I motori di ricerca non visualizzeranno mai due parti identiche di contenuto nelle SERP. Questo è fatto per garantire la massima qualità di ricerca; vedere lo stesso contenuto due volte non è molto interessante per l'utente.

Un altro problema è il potere di classifica di pagine duplicate. Invece di avere una singola pagina con molta autorità, hai più pagine con prestazioni diluite e subottimali. Questo potrebbe costarti un sacco di traffico organico.


Come viene creato il contenuto duplicato

Il contenuto duplicato può essere creato deliberatamente o accidentalmente. Tuttavia, il risultato è lo stesso.

Un esempio di contenuto duplicato intenzionale è la versione stampata di una pagina. È effettivamente la stessa pagina con lo stesso contenuto, quindi quando questa versione di stampa viene indicizzata, c'è un problema con il contenuto duplicato.

Tuttavia, ci sono molte situazioni in cui il contenuto duplicato viene creato involontariamente. Ci possono essere diverse cause, come ad esempio:

  • ID sessione
  • Opzioni di ordinamento
  • Codici di affiliazione
  • domini
  • ...

ID sessione

Un ID di sessione è una variabile, una stringa di numeri e / o lettere generati casualmente e viene utilizzato per tenere traccia dei visitatori. Sono spesso usati per i carrelli della spesa, ad esempio:

http://website.com/?sessionid=5649612

Il problema con gli ID di sessione è ovvio: possono creare centinaia, forse persino migliaia di duplicati. La memorizzazione degli ID di sessione nei cookie può risolvere questo problema, ma se ti affidi a questa opzione, non dimenticare la normativa sui cookie dell'UE.

Opzioni di ordinamento

Quando le persone pensano alle opzioni di ordinamento, di solito pensano ai cataloghi di prodotti del negozio online dove gli utenti possono ordinare per prezzo, data, ecc. Ma le funzioni di ordinamento si trovano spesso anche su altri siti web. Il seguente URL utilizza una tipica funzione di ordinamento dei blog:

http://website.com/category?sort=asc

L'URL con l'opzione di ordinamento e l'originale sono fondamentalmente la stessa pagina. È lo stesso contenuto, solo ordinato in modo diverso.

Codici di affiliazione

I codici di affiliazione stanno spuntando su tutto il web. Sono usati per identificare il referente, che viene a sua volta ricompensato per aver portato un nuovo visitatore. Un codice affiliato può assomigliare a questo, ad esempio:

http://website.com/product?ref=name

Ancora una volta, questo codice può creare un duplicato della pagina originale.

domini

Anche qualcosa di semplice come un nome di dominio può a volte essere problematico. Dai un'occhiata ai seguenti URL:

http://website.com
http://www.website.com

I motori di ricerca hanno fatto molta strada, ma a volte continuano a sbagliare. Probabilmente entrambi gli URL puntano alla home page, ma poiché entrambi gli URL hanno un aspetto diverso, a volte sono visti come pagine diverse.


Come identificare il contenuto duplicato

Abbiamo parlato di come vengono creati contenuti duplicati, ma come puoi identificare i problemi di contenuto duplicati sul tuo sito?

Il modo più semplice per farlo è via Strumenti per i Webmaster di Google. Accedi al tuo account e vai su Ottimizzazione> Miglioramenti HTML. Qui troverai un elenco di titoli duplicati (che è probabilmente contenuto duplicato).


Strumenti per i Webmaster di Google

In alternativa puoi inserire il sito: comando -search nella barra degli indirizzi per trovare pagine da un dominio specifico (ad es. sito: webdesign.tutsplus.com). Questo metodo è molto utile se si sospetta che una determinata pagina abbia diversi duplicati. Utilizzare il comando sito e incollare un paio di frasi dalla pagina sospetta. Se ricevi un messaggio da Google che dice "Per mostrare i risultati più pertinenti, abbiamo omesso alcune voci ...", probabilmente hai contenuti duplicati.

Finalmente puoi anche usarlo crawler del sito. Software come Xenu e Screaming Frog possono essere utilizzati per raccogliere le informazioni necessarie. Analizza i titoli delle pagine nel rapporto di ricerca per indicizzazione e verifica la presenza di duplicati.


Risoluzione dei problemi relativi ai contenuti duplicati

Come dice il proverbio: "ogni malattia ha una cura". Fortunatamente, ci sono diversi modi per curare i problemi di contenuti duplicati:

301 Reindirizzamento

Un modo semplice per impedire che il contenuto duplicato venga indicizzato è un reindirizzamento 301. In questo modo l'utente e i motori di ricerca vengono reindirizzati dal duplicato all'originale. Di conseguenza, tutto il succo di collegamento viene inviato alla pagina originale.

Un reindirizzamento 301 viene implementato sui server Apache aggiungendo regole al file .htaccess del server. Tieni presente che questo metodo "elimina" la copia. Se non vuoi sbarazzarti delle pagine duplicate, dovresti usare il seguente metodo.

Rel = canonical

C'è un altro modo per dire ai motori di ricerca di contenuti duplicati; il rel =”canonical” etichetta. Questo codice dovrebbe essere implementato nel di una pagina web.

Diciamo che abbiamo Pagina B che è un duplicato della Pagina A. Se vogliamo informare i motori di ricerca di questo, inseriamo il seguente codice nel markup della Pagina B:

Questo codice afferma che la pagina corrente è in realtà una copia dell'URL sopra menzionato. Dopo averlo implementato, la maggior parte dei link juice sarà trasferita alla pagina originale e migliorando così il potere di classifica di quella pagina. Contrariamente al reindirizzamento 301, le pagine duplicate saranno ancora accessibili.

Tag Meta Robots

Abbiamo già discusso il meta tag dei robot in dettaglio durante un precedente tutorial. Aggiungendo un tag meta robot con il parametro "noindex", è possibile impedire l'indicizzazione della pagina duplicata.

Riscrittura dell'URL

Questa è una soluzione più avanzata. È più difficile da implementare se si ha una comprensione limitata del codice, ma può essere utile in diverse occasioni.

Come accennato prima, il nome del dominio può spesso causare problemi di contenuto duplicato (www vs versione non www). Puoi risolvere questo problema aggiungendo una regola di riscrittura degli URL al tuo file htaccess (qualcos'altro che abbiamo già trattato in precedenza su Webdesigntuts +). Scegli il tuo dominio preferito (www o non www) e riscrivi automaticamente gli URL nel dominio specificato.

Un altro problema di cui abbiamo parlato è l'uso di ID sessione. Lo stesso URL con un diverso ID di sessione aggiunto può essere visto come contenuto duplicato. Ancora una volta il file htaccess può essere usato per disabilitare questi parametri. Leggi Disabilita l'ID di sessione passato via URL da Constantin Bejenaru per imparare come farlo.

Strumenti per i Webmaster di Google

Nella sezione precedente abbiamo parlato della riscrittura automatica degli URL per i nomi di dominio. Un modo più semplice per farlo è tramite Strumenti per i Webmaster di Google. Accedi al tuo account, vai su Configurazione, fai clic su Impostazioni e imposta a dominio preferito.


Dominio preferito di Google Webmaster

Se stai usando parametri URL dinamici, puoi dire a Google come gestirli. In questo modo puoi stabilire quali parametri devono essere ignorati. Questo può spesso risolvere un sacco di problemi di contenuto duplicati. Visita gli Strumenti per i Webmaster di Google e vai su Configurazione> Parametri URL. Maggiori informazioni possono essere trovate presso l'assistenza di Google, ma assicurati di utilizzare questa funzione solo se sai come funzionano i parametri, altrimenti potresti inavvertitamente bloccare le pagine.


Targeting per lingua

Questo problema è legato al contenuto duplicato, ma ci sono alcune differenze.

Diciamo che un'azienda che vende prodotti in Nord America ha due siti Web: company.us e company.ca. Il primo è rivolto agli Stati Uniti, il secondo al Canada. Su entrambi i siti web troviamo contenuti simili perché i webmaster non volevano riscrivere più pagine di testo.

È possibile che la versione americana superi la versione canadese (anche su Google.ca) perché ha più autorità. Come possiamo risolvere questo problema di targeting?

C'è una soluzione semplice: il rel = "alternate" hreflang = "x" annotazione.

Se utilizziamo il nostro esempio precedente, dobbiamo aggiungere il seguente codice nel file sezione del dominio .us:

Nel dominio .ca dobbiamo inserire questo codice:

In sostanza, stai dicendo a Google che esiste una versione alternativa (o duplicata) in un'altra lingua. L'attributo hreflang utilizza ISO 639-1 per identificare la lingua. Opzionalmente è possibile aggiungere la regione nel formato ISO 3166-1.


Commenti finali

Prevenire è meglio che curare ... Il collegamento interno coerente può impedire la creazione di contenuti duplicati. Se hai http://www.website.com come dominio preferito, non indirizzare i tuoi collegamenti interni alla versione non www. Lo stesso suggerimento vale per i link in entrata. Se si collega al proprio sito da un altro dominio, utilizzare una struttura di collegamento coerente.

Non creare intenzionalmente contenuti duplicati copiando grossi pezzi di testo da altri siti web. Google probabilmente lo scoprirà e le conseguenze potrebbero non essere così piacevoli:

Nei rari casi in cui Google percepisce che i contenuti duplicati possono essere mostrati con l'intento di manipolare le nostre classifiche e ingannare i nostri utenti ... il ranking del sito potrebbe risentirne, oppure il sito potrebbe essere rimosso completamente dall'indice di Google.


Conclusione

Il contenuto duplicato è qualcosa che vedi in quasi tutti i siti. Può avere diverse cause, sia accidentali che non.

A meno che tu non voglia impedire l'accesso dalla pagina tramite un reindirizzamento 301, è meglio usare l'annotazione rel = canonical. In alternativa, è possibile utilizzare il tag meta robots o la riscrittura automatica dell'URL. Gli Strumenti per i Webmaster di Google offrono anche alcuni modi per prevenire i contenuti duplicati.

Infine, è meglio essere coerenti nel tuo collegamento. I collegamenti interni e i link in entrata dovrebbero apparire uguali.