Il file robots.txt contiene delle regole utilizzate dai crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet.

I web crawler sono dei software automatici programmati per effettuare ricerche ed indicizzazioni periodiche. Nella prima fase di analisi di un sito web controllano l'esistenza del file robots.txt per applicare eventuali restrizioni richieste dal webmaster del sito.

Il file robots.txt è stato creato nel giugno 1994 con il consenso dei membri della robots mailing list (robots-request@nexor.co.uk).

In questo momento non esiste un vero e proprio standard per il protocollo robots.

Indice

[modifica] Protocollo

Il file robots.txt utilizza un protocollo molto semplice che permette di definire il robot al quale applicare la regola e le pagine e directory da non indicizzare.

Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :

<campo> : <valore>

I campi disponibili sono :

User-Agent 
il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.
Disallow 
il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l'indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern.

Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow.

Il file robots è case sensitive quindi se blocchiamo la pagina /PAGINA_DA_BLOCCARE sarà differente da bloccare la pagina /pagina_da_bloccare

[modifica] Esempi

Ecco alcuni esempi classici dell'utilizzo del file robots.txt .

Per bloccare un intero sito, utilizza una barra.

User-agent: *
Disallow: /

Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.

User-agent: *
Disallow: /private_directory/

Per bloccare una pagina, indica tale pagina.

User-agent: *
Disallow: /private_file.html

Per segnalare il file Sitemap del sito.

Sitemap: http://www.nomesito.it/sitemap.xml


[modifica] Estensione Standard

Su Extended Standard for Robot Exclusion sono stati proposti due nuovi parametri: Request-rate e Visit-time:

User-agent: *
Disallow: /private_directory/   # Blocca la directory /private_directory/
Request-rate: 1/5               # Visita al massimo una pagina ogni 5 secondi
Visit-time: 0600-0845           # Vista soltanto tra le 6:00 AM e le 8:45 AM UT (GMT)


[modifica] Posizionamento

Una volta che il file robots.txt è stato creato deve essere inserito nella directory principale del dominio ed avere il nome esatto "robots.txt". Se viene memorizzato in una directory diversa, i robot non lo troveranno in quanto di default effettuano la ricerca nella directory principale del dominio.

Se non hai accesso alla directory principale di un dominio, puoi limitare l'accesso utilizzando il META tag Robots.

[modifica] Collegamenti esterni

Estratto da "index.php?wiki=Robots.txt"




AutoCasco coaching odchudzanie rwa kulszowa leczenie auto kredyt
Makijaż permamentny angielski przez skype katalog domen zyczenia noworoczne gaz pieprzowy Tworzenie i edycja filmów Tworzenie i edycja filmów najlepsze parkiety Kraków wynagrodzenie
Komórki Telefony komórkowe Informacje gsm - Kino Filmy Recenzje filmów - znane cytaty popularne - TUTAJ zobaczysz e-book TAK - ksi±¿ki - ciekawe frazeologizmy wielki zbiór - Opony zimowe - Pozycjonowanie - Sprawd¼ co znacz± sny ciekawy sennik - Filmy animowane Bajki najlepsze bajki
skrobaczki do szyb | Polecamy Yerba Mate | Polecamy Yerba Mate | Tworzenie stron Starogard Gdański | biometria | stronka | stronka | stronka | stronka | stronka | fotografia ślubna więcej | maine coon | zobacz rolety warszawa | Zdobywaj nagrody Zaproszenia Lockerz Zaproszenia Lockerz | Nowoczesne strony internetowe dla firm

tłumaczenia symultaniczne | Atrakcje turystyczne Lubań | fifa 10 | podnośniki koszowe | Makita