Il file robots.txt contiene delle regole utilizzate dai crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet.
I web crawler sono dei software automatici programmati per effettuare ricerche ed indicizzazioni periodiche. Nella prima fase di analisi di un sito web controllano l'esistenza del file robots.txt per applicare eventuali restrizioni richieste dal webmaster del sito.
Il file robots.txt è stato creato nel giugno 1994 con il consenso dei membri della robots mailing list (robots-request@nexor.co.uk).
In questo momento non esiste un vero e proprio standard per il protocollo robots.
Indice |
Il file robots.txt utilizza un protocollo molto semplice che permette di definire il robot al quale applicare la regola e le pagine e directory da non indicizzare.
Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :
<campo> : <valore>
I campi disponibili sono :
Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow.
Il file robots è case sensitive quindi se blocchiamo la pagina /PAGINA_DA_BLOCCARE sarà differente da bloccare la pagina /pagina_da_bloccare
Ecco alcuni esempi classici dell'utilizzo del file robots.txt .
Per bloccare un intero sito, utilizza una barra.
User-agent: * Disallow: /
Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.
User-agent: * Disallow: /private_directory/
Per bloccare una pagina, indica tale pagina.
User-agent: * Disallow: /private_file.html
Per segnalare il file Sitemap del sito.
Sitemap: http://www.nomesito.it/sitemap.xml
Su Extended Standard for Robot Exclusion sono stati proposti due nuovi parametri: Request-rate e Visit-time:
User-agent: * Disallow: /private_directory/ # Blocca la directory /private_directory/ Request-rate: 1/5 # Visita al massimo una pagina ogni 5 secondi Visit-time: 0600-0845 # Vista soltanto tra le 6:00 AM e le 8:45 AM UT (GMT)
Una volta che il file robots.txt è stato creato deve essere inserito nella directory principale del dominio ed avere il nome esatto "robots.txt". Se viene memorizzato in una directory diversa, i robot non lo troveranno in quanto di default effettuano la ricerca nella directory principale del dominio.
Se non hai accesso alla directory principale di un dominio, puoi limitare l'accesso utilizzando il META tag Robots.