Menu

ABC

Il file robots.txt


Il robots.txt è un file che permette al Webmaster di fornire una serie di istruzioni ai motori di ricerca riguardo ciò che possono e ciò che non possono fare all'interno del nostro sito.
Queste istruzioni seguono il cosiddetto Robots Exclusion Protocol (REP), le cui specifiche sono disponibili sul sito www.robotstxt.org .

Il file robots si presenta nel formato txt e codifica UTF-8 e contiene alcune semplici istruzioni.

Un'istruzione base allo spider è dato da due righe:

  • User-agent:
  • Disallow:


User-agent

Questo elemento specifica a quale spider si applica l'istruzione.

User-agent: *

con * (asterisco) si indica che l'istruzione riguarda tutti gli spider 

Se vogliamo specificare l'istruzione ad uno spider preciso, dovremmo scrivere il nome dello spider. Nel caso di Google lo spider principale, come visto, è Googlebot.
Scriveremo quindi:

User-agent: Googlebot

L'elenco dei nomi degli spider è disponibile su robotstxt.org.


Disallow

La riga definita dalla valore Disallow dice allo spider quale cartella o file del sito non deve essere visto e indicizzato; serve di fatto ad impedirne l'accesso.

Ipotizziamo di avere una cartella /admin contenente aspetti relativi all'area amministrativa del sito e di volere impedire che venga visto dallo spider. Scriveremo:

User-agent: *
Disallow: /admin/

Possiamo invece impedire, ad esempio, l'indicizzazione su Google Immagini di una cartella contenente le immagini: ad esempio la cartella /immagini del nostro sito (www.miosito.it/immagini).

Scriviamo:

User-agent: Googlebot-Image
Disallow: /immagini/

Possiamo dare istruzioni relative ad un singolo file. In questo caso scriveremo, ad esempio:

User-Agent: *
Disallow: /immagini/foto1.jpg


Allow


Possiamo anche utilizzare il termine Allow per permettere la visione e l'indicizzazione di alcune pagine o cartelle.
Può essere utile se abbiamo impedito l'accesso ad una cartella (ad esempio la cartella /immagini) ma vogliamo permettere l'indicizzazione di un file al suo interno (ad esempio il file foto1.jpg).
Scriveremo:

User-Agent: Googlebot-Image
Disallow: /immagini/
Allow: /immagini/foto1.jpg

In questo caso impediamo la scansione e l'indicizzazione di tutti i file contenuti dentro la cartella /immagini tranne che per il file foto1.jpg .


Carattere * e $

Il carattere * , rispettato dagli spider di Google e Bing, è utilizzato non solo a livello dell'User-agent (qui sta a significare "tutti gli spider") ma anche al livello di Disallow, anche insieme ad un secondo carattere accettato $.

Vediamo l'utilizzo di entrambi i caratteri.
Ipotizziamo di voler escludere tutti i file nel formato jpg dalla scansione dello spider.

Scriviamo:

User-Agent: *
Disallow: /*.jpg$

in questo modo indichiamo che tutti i file che terminano con .jpg devono essere esclusi dalla scansione dello spider.

Lo stesso potremo fare, ad esempio, per i file pdf.

User-Agent: *
Disallow: /*.pdf$

Potremmo invece permettere ad esempio l'accesso e la scansione di un file PDF specifico (ad esempio documento1.pdf)

Scriveremo
User-Agent: *
Disallow: /*.pdf$
Allow: /documento1.pdf


Il carattere * può essere utilizzato anche in altre situazioni.
Ipotizziamo di voler impedire l'accesso degli spider a più cartelle con nomi simili. Ad esempio:
/immagini-mare
/immagini-montagna
/immagini-citta

Possiamo scrivere un'unica regola che impedisca l'accesso a tutte quelle cartelle o sottocartelle che iniziano con il nome "immagini".
Scriveremo così:

User-Agent: *
Disallow: /immagini*/


Un altro utilizzo dell'asterisco * è quello di bloccare l'accesso a tutti gli URL che comprendono un determinato carattere.
Ad esempio il ? (punto interrogativo).
Scriveremo così:

User-Agent: *
Disallow: /*?


Regole per il file robots.txt

Vediamo alcune regole sul file robots.txt che devono essere rispettate:

  • il nome del file deve essere in minuscolo e mai in maiuscolo (robots.txt e non ROBOTS.TXT);
  • il file deve essere posizionato nel percorso principale del sito - avremo un url del genere: http://www.miosito.it/robots.txt (dove al posto di miosito.it andrà inserito il nome del proprio sito);
  • se abbiamo dei sottodomini, ognuno di essi deve avere il proprio file robots.txt;
  • possiamo commentare le singole istruzioni, in modo da ricordare più facilmente le regole inserite. Per farlo utilizziamo il carattere # .

Ad esempio:

# blocco l'accesso ai file jpg
User-Agent: *
Disallow: /*.jpg

Possiamo anche commentare la singola riga:

User-Agent: Googlebot-Image # spider di Google Immagini
Disallow: /*.jpg # tutti i file in .jpg


Velocità di scansione

Vediamo un aspetto relativo alla velocità di scansione dello spider.
Quando lo spider accede al nostro sito, per effettuare la scansione delle pagine, inevitabilmente va a consumare la banda del server, aumentando il carico sul server. Consideriamo che le nostre pagine non saranno scansionate solo da Googlebot o dallo spider di Bing, ma anche da altre decine di robot.
Per non sovraccaricare la larghezza di banda del server, possiamo anche chiedere di modificare la frequenza di scansione dello spider.
Possiamo inserire una direttiva all'interno del file robots in tal senso, anche se è supportata da Bing ma non da Google.
Questa istruzione è:

User-agent: bingbot
Crawl-delay: 5

dove 5 sta per i secondi tra una scansione e l'altra.
Questo di fatto permette di ridurre il sovraccarico sul server.

Informazioni più dettagliate su questa istruzione sono disponibili sul blog di Bing.

Nel caso di Google possiamo chiedere che lo spider limiti la velocità massima di scansione tramite le “Impostazioni sito” su Strumenti per Webmaster.
Google però sconsiglia di procedere in tal senso, perché potrebbero provocare alcune problematiche nella scansione.

Segui anche la video lezione 42 del Corso SEO da cui è tratta questa lezione ABC.

seocenter.it
RIPRODUZIONE RISERVATA


Hai trovato interessante o utile l'articolo? Condividilo con altre persone!


Come ottimizzare i siti web ed essere primi sui motori di ricerca?

Segui il Corso SEO professionale:


  • 120 video lezioni in HD
  • oltre 22 ore di spiegazioni ed esempi
  • accesso all'area didattica 24 su 24
  • documentazione e linkografia per approfondimenti
  • aggiornamenti costanti
  • attestato di partecipazione

Aumenta la visibilità del tuo sito web.Il Corso SEO è disponibile online. Da subito, sul tuo PC, tablet o smartphone.

Inizia adesso