Caputo's blog

Informatica, tecnologia, programmazione, fai da te, papercraft e papertoy

File robots.txt e l’indicizzazione

Luglio 22nd, 2010 by Giovanni Caputo

Robots.txt

La funzione principale del robots.txtè quella di dichiarare quale parte del sito deve essere letta o protetta da un motere di crawling. Se non ci sono file robots.txt nella directory del sto web significa che è possibile accedere a tutte le pagine e indicizzare. E’ possibile introlre escludere la scansione di un documento HTML, inserendo il meta tag <meta name="robots" content="noindex" /> all’interno della pagina web.

Nota: è necessario specificar che i crawler, dovrebbero rispettare tali vincoli definiti dal file robots.txt, quindi tale meccanismo non assicura una protezione su file privati.

In generale il file robots.txt fa interagireil motore di ricerca e il proprio sito web.

Creare il file Robots.txt

Per creare un file robots.txt è necessario avere un editor di testo. Inoltre ricordiamo che il file deve essere chiamato proprimo in tale modo: robots.txt e deve essere presente all’interno della directory principale.

Il passo successivo è quello di specificare una lista di istruzioni da far seguire allo spider del motore di ricerca. I commenti nel file possono essere scritti inserendo il carattere ‘#’ all’inizio della riga.

Un semplice esempio che specifica di non indicizzare i file nelle cartelle /utenti/ e /privata/e:

 User-agent: *
 Disallow: /utenti/
 Disallow: /privata/

La prima riga indica lo User-agent, cioè specifica a quale web robots sono suggerite le regole. Con l’asterisco si identificano tutti gli user-agent.

Nei prossimi aricoli vedremo come definire una sitemap, opensearch.xml e dublin.rdf

Questo post è stato postato giovedì, Luglio 22nd, 2010 at 07:06 nella categoria Siti Web, tutorial. Tags:, , .
Puoi seguire tutti i commenti di questo articolo attraverso RSS 2.0 feed. Puoi lasciare un commento, o trackback dal nostro sito.

Lascia un commento

You must be loggati to post a comment.