Robots.txt
La funzione principale del robots.txtè quella di dichiarare quale parte del sito deve essere letta o protetta da un motere di crawling. Se non ci sono file robots.txt nella directory del sto web significa che è possibile accedere a tutte le pagine e indicizzare. E’ possibile introlre escludere la scansione di un documento HTML, inserendo il meta tag <meta name="robots" content="noindex" />
all’interno della pagina web.
Nota: è necessario specificar che i crawler, dovrebbero rispettare tali vincoli definiti dal file robots.txt, quindi tale meccanismo non assicura una protezione su file privati.
In generale il file robots.txt fa interagireil motore di ricerca e il proprio sito web.
Creare il file Robots.txt
Per creare un file robots.txt è necessario avere un editor di testo. Inoltre ricordiamo che il file deve essere chiamato proprimo in tale modo: robots.txt e deve essere presente all’interno della directory principale.
Il passo successivo è quello di specificare una lista di istruzioni da far seguire allo spider del motore di ricerca. I commenti nel file possono essere scritti inserendo il carattere ‘#’ all’inizio della riga.
Un semplice esempio che specifica di non indicizzare i file nelle cartelle /utenti/ e /privata/e:
User-agent: * Disallow: /utenti/ Disallow: /privata/
La prima riga indica lo User-agent, cioè specifica a quale web robots sono suggerite le regole. Con l’asterisco si identificano tutti gli user-agent.
Nei prossimi aricoli vedremo come definire una sitemap, opensearch.xml e dublin.rdf