PROZONE
  Home   Forum   Regolamento Help Login Registrati   *
Benvenuto, Visitatore. Per favore, effettua il login o registrati.
Hai perso la tua email di attivazione?
29 Luglio 2010, 17:19:02

Login con username, password e lunghezza della sessione
Utenti
Utenti Totali: 1949
Ultimo utente: gigi1963
Statistiche
Posts Totali: 29350
Topics Totali: 3402
Online Oggi: 64
Presenze Massime Online: 559
(23 Luglio 2008, 14:24:28)
Utenti Online
Utenti: 1
Visitatori: 43
Totale: 51
Pagine: [1]
  Stampa  
Autore Topic: Robots.txt Per Farci Indicizzare Meglio  (Letto 14931 volte)
0 Utenti e 1 Visitatore stanno guardando questo topic.
effe8
Coordinatore
*
Offline Offline

Posts: 821


Boss Hogg


WWW
« il: 29 Aprile 2006, 20:52:27 »

ROBOTS.TXT

Si tratta di un semplice file di testo che va collocato nella cartella base del nostro sito web e che contiene le informazioni su quali pagine/cartelle del nostro sito vanno inserite nei motori di ricerca e quali no.

Questo e' robots.txt, oggi ormai uno standard di fatto perche' tenuto in considerazione dai maggiori motori di ricerca, anche se con lievi differenze che andremo a vedere.

Creare questo file e' molto facile, e da quando google ha lanciato il suo servizio di indicizzazione mirata sitemaps, ha messo a disposizione di tutti un comodo strumento che controlla e verifica il file robots.txt presente nel nostro sito web. Vedi articolo di google in inglese.

Quali sono alcune differenze sul modo di interpretare il file robots.txt dai diversi motori di ricerca?
  • Google ammette le "wildcards", mentre gli altri no.
  • Ask, MSN e Yahoo ammettono il ritardo della prossima visita, senza definire se si tratta di un valore massimo o minimo, mentre google non lo prevede.
  • Ask e Google permettono il comando "ALLOW", mentre gli altri non lo supportano.
Questi fattori appena elencati ci torneranno utili quando andremo a costruire il nostro file robots.txt. Esiste anche un sito di riferimento (in inglese) con tutte le direttive per la corretta compilazione del file robosts.txt e si tratta di: www.robotstxt.org.

Facciamo un esempio di come compilare un file robots.txt. Ricordiamoci sempre che il file che andremo a creare si deve chiamare robots.txt con la "s" finale e non robot.txt.

Il file va inserito nella cartella di base del nostro sito web, la stessa cartella dove inseriremo la home page.


Esempio 1: Se vogliamo escludere tutti i robot dal visitare il nostro sito
User-agent: *
Disallow: /


Esempio 2: Per permettere a tutti i robot un accesso completo
User-agent: *
Disallow:

In alternativa si puo' creare un file robots.txt vuoto


Esempio 3: Per escludere tutti i robot dal visitare una parte del sito
User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/



Esempio 4: Per escludere un singolo robot
User-agent: BadBot
Disallow: /


Esempio 5: Per permettere la visita di uno specifico robot
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

Esempio 6: Per escludere tutti i file eccetto uno
Nota: Visto che l'istruzione "Allow" non rappresenta uno standard consigliamo di inserire tutti i file che non devono essere recensiti in un'apposita cartella (nel nostro esempio "docs"):
User-agent: *
Disallow: /~joe/docs/


Nota: In alternativa e' possibile indicare esplicitamente le pagine da non visitare:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

Note finali
Nel sito www.robotstxt.org viene sconsigliato l'uso del meta tag "robots" all'interno della pagina web stessa in quanto supportato da pochie e sempre meno motori di ricerca.

Esempio di questo metatag che va inserito nella parte head della pagina web: <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">.


Infine, a questo indirizzo potrete vedere il database dei robot/crawler dei diversi motori di ricerca:

>> elenco robot <<

Piccolo specchietto riassuntivo con corrispondenza tra bot/agent/motore di ricerca
GoogleBot googlebot       Google
FAST      fast            All The Web / Fast
Slurp     Yahoo! Slurp    Yahoo Inktomi
Scooter   Scooter         Altavista
          Altavista
Teoma     Ask Jeeves/Teoma Ask
ia_archiver ia_archiver   Alexa
« Ultima modifica: 29 Aprile 2006, 20:59:30 da effe8 » Loggato

guardaqua
Supervisore
*
Offline Offline

Posts: 717



WWW
« Risposta #1 il: 30 Aprile 2006, 01:39:10 »

Ottimo lavoro!
(tra l'altro non sapevo delle differenze tra i vari motori)

Intervengo solo per un approfondimento sul metatag Robots:
Codice:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Le opzioni possibili in CONTENT sono quattro: INDEX, NOINDEX, FOLLOW, NOFOLLOW.

Le prime due indicano, come dice il nome, se il robot deve indicizzare o meno quella pagina (infatti possiamo avere un INDEX sulla home ed un NOINDEX su altre pagine, nulla ce lo vieta).
Mentre la seconda indica se il robot deve seguire o meno i link che trova nella pagina.
Seguire un link, per un robot, vuol dire aggiungere un URL alla lista di quelli da controllare, e salvare la relazione tra le pagine (che ha come effetto collaterale il PR e la tematizzazione del testo e delle keyword).
Eventualmente, possiamo definire un link in modo che il robot non lo segua (ma segua tutti gli altri) aggiungendo rel=nofollow al link stesso. Esempio:
<a href="www.prozone.it" title="forum di hosting" rel="nofollow">Prozone[/url]
Questo link sarà uguale a tutti gli altri agli occhi di un utente, ma non così per il robot, che non ne terrà conto.

Il robots.txt è uno standard universalmente accettato, e ci permette di risparmiare banda, di escludere contenuti che non vogliamo nell'indice dei motori e anche di impedire l'accesso ad uno spider, se lo desideriamo.

Chiudo segnalando un tool di creazione automatizzata del robots.txt (per quanto non sia nulla di complicato, anzi!!)
http://www.cached.it/english/make-a-robots-txt.php
(al momento funziona solo con firefox)
Loggato

MacLucky
Utente Avanzato
*****
Offline Offline

Posts: 828


ALBA GU BRATH


WWW
« Risposta #2 il: 21 Giugno 2007, 14:06:00 »


Rispolvero questo topic perchè ho una domanda:
Che differenza fa tra
Codice:
User-agent: *
Disallow:

e

Codice:
User-agent: *
Allow: /

???

Io uso la seconda opzione anche se c'è scritto che la funzione Allow non è standard però per esempio Google lo riconosce
Loggato

Vuoi ben indicizzare in tempi rapidi il tuo sito sui motori di ricerca? Iscriviti anche tu al Prozone Network, clicca QUI

Tommy MacLucky
         22
MacLucky
Utente Avanzato
*****
Offline Offline

Posts: 828


ALBA GU BRATH


WWW
« Risposta #3 il: 22 Giugno 2007, 15:17:38 »


Boh io lo cambio eh...
Loggato

Vuoi ben indicizzare in tempi rapidi il tuo sito sui motori di ricerca? Iscriviti anche tu al Prozone Network, clicca QUI

Tommy MacLucky
         22
Alex_webspaghetti
Appena Entrato
*
Offline Offline

Posts: 3


« Risposta #4 il: 1 Novembre 2008, 12:50:29 »

Salve, ritiro fuori questo topic perchè è pertinente alla mia domanda.
Uso la stessa piattaforma per gestire un forum personale, simple machines forum, stessa versione di quella attualmente utilizzata da prozone.
Ho fatto una ricerca con google utilizzando queste parole "simple machine forum indicizzare contenuti" e sono finito qua.
Ho quindi la certezza che è possibile indicizzare i contenuti di questa piattaforma, ma non riesco a capire come.
Potreste indicarmi per favore dove intervenire per far sì che i motori di ricerca passino in rassegna i contenuti del forum?attualmente  si limitano solamente a indicizzare il titolo del post.

Ringrazio anticipatamente chi vorrà chiarirmi le idee e descrivermi una soluzione.
Alex
Loggato
Darknico
Utente
***
Offline Offline

Posts: 186



WWW
« Risposta #5 il: 1 Novembre 2008, 13:04:58 »

cercando troverai molte info utili Occhiolino
Loggato

Penny
Appena Entrato
*
Offline Offline

Posts: 1


« Risposta #6 il: 29 Dicembre 2008, 11:53:17 »

Segnalare a un motore di ricerca di non seguire un link che "esce" dal nostro sito
con il sistema che Guardaqua ci ha perfettamente spiegato

<a href="www.prozone.it" title="forum di hosting" rel="nofollow">

Aiuta l'indicizzazione della nostra pagina? O serve solo per evitare
che vengano indicizzate pagine che noi reputiamo inutili,
come la pagina del login, o le regole del forum...etc..etc
Loggato
mem
Utente Avanzato
*****
Online Online

Posts: 524



WWW
« Risposta #7 il: 29 Dicembre 2008, 12:49:50 »

Utilizzando rel="nofollow" si dice semplicemente di "non seguire" (traduzione letterale del termine) quel link, con tutto ciò che questo comporta, cioè la pagina seguente non viene indicizzata ed il link non viene considerato come backlink (da parte dei maggiori motori di ricerca come google, msn, ask, yahoo) e quindi non ne incrementa il PR (page rank). Solitamente viene utilizzato all'interno dei commenti per evitare lo spam.
Loggato

Pagine: [1]
  Stampa  
 
Salta a:  

Oggetto Iniziato da Risposte Visto Ultimo Post
Ottimizzare Mysql Per Prestazioni Migliori effe8 3 15256 Ultimo Post 10 Marzo 2009, 10:01:20
da MySeQuoiaL
Excom - Semplice Curiosità « 1 2 3 » Ghost22 32 13976 Ultimo Post 17 Settembre 2006, 22:29:49
da marcodxn
PHP come modulo o come CGI? lacellula 2 4395 Ultimo Post 14 Giugno 2007, 18:30:19
da gja
Tophost: Controllo A Garanzia Delle Risorse « 1 2 » Tophost 17 10743 Ultimo Post 10 Gennaio 2007, 14:26:26
da Venticello
come fare una tag board? _d4v1d3_ 12 7720 Ultimo Post 7 Maggio 2007, 19:27:35
da progettoradio
Powered by MySQL Powered by PHP Powered by SMF 1.1.8 | SMF © 2006-2008, Simple Machines LLC
Traduzione Italiana a cura di SMItalia

TinyPortal v0.9.8 © Bloc
XHTML 1.0 Valido! CSS Valido!
Pagina creata in 0.481 secondi con 28 queries.

Ultima visita di Google a questa pagina 22 Luglio 2010, 17:15:12