ROBOTS.TXTSi tratta di un semplice file di testo che va collocato nella cartella base del nostro sito web e che contiene le informazioni su quali pagine/cartelle del nostro sito vanno inserite nei motori di ricerca e quali no.
Questo e'
robots.txt, oggi ormai uno
standard di fatto perche' tenuto in considerazione dai maggiori motori di ricerca, anche se con lievi differenze che andremo a vedere.
Creare questo file e' molto facile, e da quando google ha lanciato il suo servizio di indicizzazione mirata
sitemaps, ha messo a disposizione di tutti un comodo strumento che controlla e verifica il file robots.txt presente nel nostro sito web.
Vedi articolo di google in inglese.
Quali sono alcune differenze sul modo di interpretare il file
robots.txt dai diversi motori di ricerca?
- Google ammette le "wildcards", mentre gli altri no.
- Ask, MSN e Yahoo ammettono il ritardo della prossima visita, senza definire se si tratta di un valore massimo o minimo, mentre google non lo prevede.
- Ask e Google permettono il comando "ALLOW", mentre gli altri non lo supportano.
Questi fattori appena elencati ci torneranno utili quando andremo a costruire il nostro file
robots.txt. Esiste anche un sito di riferimento (in inglese) con tutte le direttive per la corretta compilazione del file robosts.txt e si tratta di:
www.robotstxt.org.
Facciamo un esempio di come compilare un file robots.txt. Ricordiamoci sempre che il file che andremo a creare si deve chiamare
robots.txt con la "s" finale e non
robot.txt.
Il file va inserito nella cartella di base del nostro sito web, la stessa cartella dove inseriremo la home page.
Esempio 1: Se vogliamo escludere tutti i robot dal visitare il nostro sitoUser-agent: *
Disallow: /
Esempio 2: Per permettere a tutti i robot un accesso completoUser-agent: *
Disallow:
In alternativa si puo' creare un file robots.txt vuotoEsempio 3: Per escludere tutti i robot dal visitare una parte del sitoUser-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Esempio 4: Per escludere un singolo robotUser-agent: BadBot
Disallow: /
Esempio 5: Per permettere la visita di uno specifico robotUser-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Esempio 6: Per escludere tutti i file eccetto unoNota: Visto che l'istruzione "Allow" non rappresenta uno standard consigliamo di inserire tutti i file che non devono essere recensiti in un'apposita cartella (nel nostro esempio "docs"):User-agent: *
Disallow: /~joe/docs/
Nota: In alternativa e' possibile indicare esplicitamente le pagine da non visitare:User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
Note finaliNel sito
www.robotstxt.org viene
sconsigliato l'uso del meta tag "robots" all'interno della pagina web stessa in quanto supportato da pochie e sempre meno motori di ricerca.
Esempio di questo metatag che va inserito nella parte
head della pagina web:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">.
Infine, a questo indirizzo potrete vedere il database dei robot/crawler dei diversi motori di ricerca:
>> elenco robot <<Piccolo specchietto riassuntivo con corrispondenza tra bot/agent/motore di ricerca
GoogleBot googlebot Google
FAST fast All The Web / Fast
Slurp Yahoo! Slurp Yahoo Inktomi
Scooter Scooter Altavista
Altavista
Teoma Ask Jeeves/Teoma Ask
ia_archiver ia_archiver Alexa