Gestire l'accessibilità del tuo sito per i motori di ricerca

Il tuo sito è inutile se non può essere indicizzato dai motori di ricerca. Se si desidera che venga visualizzato nei risultati di ricerca, è necessario assicurarsi che sia accessibile ai motori di ricerca. Tuttavia, a volte vorrai limitare l'accesso a determinate parti del tuo sito, forse vuoi nascondere pagine irrilevanti o documenti privati. In questo articolo imparerai come gestire l'accessibilità del tuo sito per i motori di ricerca tramite a robots.txt file o il meta tag robots.

Vantaggi dei file e dei tag dei robot

Prima di esaminare i dettagli su come creare un file robots.txt o un meta tag robots, dovremmo dare un'occhiata ai loro benefici. Ci sono alcuni scenari in cui la loro implementazione potrebbe tornare utile, come ad esempio:

Prevenire contenuto duplicato dall'indicizzazione (ad esempio versioni stampabili di pagine).
Per pagine incomplete.
Limitazione dei motori di ricerca dall'indicizzazione pagine o file riservati.

Il contenuto duplicato diluisce i tuoi sforzi SEO in quanto i motori di ricerca trovano difficile decidere quale versione sia la più pertinente per la query di ricerca degli utenti. Questo problema può essere prevenuto bloccando le pagine duplicate tramite un file o un tag robots. C'è un altro modo per gestire i contenuti duplicati, ma ne discuteremo più tardi.

Se hai pagine nuove ma incomplete online, è meglio bloccarle dai crawler per impedire che vengano indicizzate. Questo potrebbe essere utile per le nuove pagine di prodotto, ad esempio: se vuoi mantenerle segrete fino al lancio, aggiungi un file o un tag robots.

Alcuni siti Web hanno pagine riservate o file che non sono bloccati da un modulo di accesso. Un modo semplice per nascondere questi dai motori di ricerca è tramite il file robots.txt o meta tag.

Ora che lo sappiamo perché dovremmo gestire l'accessibilità di alcune pagine, è ora di imparare Come possiamo farlo.

Il file robots.txt

I crawler sono maniaci del lavoro. Vogliono indicizzare il più possibile, a meno che tu non dica loro diversamente.

Quando un crawler visita il tuo sito web, cercherà il file robots.txt. Questo file fornisce istruzioni su quali pagine devono essere indicizzate e quali devono essere ignorate. Creando un file robots.txt puoi impedire ai crawler di accedere a determinate parti del tuo sito web.

Il file robots.txt deve essere inserito nel file directory di primo livello del tuo sito - ad esempio: www.domain.com/robots.txt. Questo nome file è anche case sensitive.

Avvertimento: se aggiungi un file robots.txt al tuo sito web, ricontrolla la presenza di errori. Non si desidera bloccare inavvertitamente i crawler dall'indicizzazione di pagine importanti.

Creazione di un file robots.txt

robots.txt è un semplice file di testo con diversi record. Ogni record ha due elementi: user-agent e rifiutare.

L'elemento user-agent indica quali crawler devono utilizzare le informazioni non consentite. Disallow indica ai crawler quale parte del sito Web non può essere indicizzata.

Un record sarà simile a questo:

User-agent: * Disallow:

Il record sopra riportato dà ai motori di ricerca l'accesso a tutte le pagine. Usiamo l'asterisco (*) per scegliere come target tutti i crawler e poiché non abbiamo specificato una pagina non consentita, possono indicizzare tutte le pagine.

Tuttavia, aggiungendo una barra in avanti al campo non consentito, possiamo impedire l'indicizzazione di tutti i crawler nulla dal nostro sito:

User-agent: * Disallow: /

Possiamo anche scegliere di scegliere come target un singolo crawler. Dai un'occhiata all'esempio qui sotto:

User-agent: Googlebot Disallow: / private-directory /

Questo record dice a Google di non indicizzare la directory privata; Googlebot è utilizzato da Google per ricerche web. Per un elenco completo di tutti i crawler, visita il database dei robot Web.

Accoppiare uno non consentire a uno user-agent sarebbe un lavoro che richiede molto tempo. Fortunatamente possiamo aggiungere più impedimenti nello stesso record.

User-agent: Bingbot Disallow: / sample-directory / Disallow: /an-uninteresting-page.html Disallow: /pictures/logo.jpg

Ciò impedirà a Bing di indicizzare la directory di esempio, la pagina non interessante e il logo.

I caratteri jolly

Poiché ci stiamo appoggiando alle espressioni regolari qui, possiamo anche utilizzare i caratteri jolly in un file robots.txt.

Ad esempio, molte persone usano Wordpress come CMS. I visitatori possono utilizzare la funzione di ricerca integrata per trovare post su un determinato argomento e l'url per una query di ricerca ha la seguente struttura: http://domain.com/?s=searchquery.

Se voglio bloccare i risultati della ricerca dall'indicizzazione, posso usare un carattere jolly. Il record robots.txt sarà simile a questo:

User-agent: * Disallow: /? S =

È inoltre possibile utilizzare i caratteri jolly per impedire l'indicizzazione dei tipi di file. Il seguente codice bloccherà tutte le immagini .png:

User-agent: * Disallow: /*.png$

Non dimenticare di aggiungere il simbolo del dollaro alla fine. Indica ai motori di ricerca che è la fine di una stringa di URL.

Test del file robots.txt

È sempre una buona idea testare il tuo file robots.txt per vedere se hai commesso degli errori. Puoi utilizzare gli Strumenti per i Webmaster di Google per questo.

Sotto "Salute" troverai la pagina "URL bloccati". Qui troverai tutte le informazioni sul tuo file. Puoi anche testare le modifiche prima di caricarle.

Meta tag robot

Il meta tag robots viene utilizzato per gestire l'accessibilità dei crawler a una singola pagina. Indica ai motori di ricerca se la pagina può essere scansionata, archiviata o se i link sulla pagina possono essere seguiti.

Questo è ciò che assomiglia al meta tag dei robot:

Questo meta tag impedisce ai crawler di indicizzare la pagina web. Oltre a "noindex" ci sono molti altri attributi che potrebbero essere utili:

indice: questa pagina può essere indicizzata.
noindex: questa pagina non può essere visualizzata nei risultati di ricerca.
Seguire: i collegamenti su questa pagina possono essere seguiti.
non seguire: i collegamenti su questa pagina non possono essere seguiti.
archivio: è permessa una copia cache di questa pagina.
noarchive: una copia cache di questa pagina non è consentita.

È possibile utilizzare più attributi in un meta tag di singoli robot, ad esempio:

Questo markup impedisce ai crawler di indicizzare la pagina e di seguirne i collegamenti.

Se ti capita di utilizzare tag in conflitto, Google utilizzerà l'opzione più limitante. Supponiamo che tu usi "" indice "e" noindex "nello stesso tag, la pagina non verrà indicizzata (opzione più restrittiva, solo per sicurezza).

Uso robots.txt o meta tag?

Come abbiamo discusso, ci sono due modi per gestire l'accessibilità delle pagine web: un file robots.txt e meta tag.

Il file robots.txt è ottimo per bloccare directory complete o determinati tipi di file. Con una sola riga di testo puoi fare molto lavoro (e potenzialmente molto danno!) Ma se vuoi bloccare una singola pagina, è meglio usare il meta tag robots.

A volte gli URL bloccati tramite il file robots.txt possono ancora apparire nei risultati della ricerca. Quando ci sono molti link che puntano alla pagina e Google crede che l'unico risultato di ricerca rilevante per la query di ricerca, verrà comunque visualizzato. Se non vuoi assolutamente che la pagina venga visualizzata devi aggiungere il meta tag noindex. Questo può sembrare complicato, ma Matt Cutts spiega tutto in dettaglio negli URL Uncrawled nei risultati di ricerca su YouTube.

Conclusione

Con i meta tag robots.txt e robots puoi gestire facilmente l'accessibilità del tuo sito per i motori di ricerca.

Non dimenticare di controllare e ricontrollare i meta tag e il file robots.txt per impedire inavvertitamente ai crawler di indicizzare pagine importanti.

Web design