|
Abbiamo
visto che, qualsiasi cosa facciamo, siamo noi a doverci
adattare agli spider dei search engine. E' possibile però far
adattare i robots alle nostre esigenze, indirizzandoli (Cloaking)
all'interno del sito, a nostro piacimento.
Se
foste in possesso di un
dominio, è possibile creare un file di nome robots.txt
che va inserito nella root principale (www.dominio.com/robots.txt).
In questo file, vanno inserite le istruzioni per
"governare" il ragno. Ad esempio:
- Escludere tutti i robots dai files contenuti nel
dominio:
User-agent:
*
Disallow:
/
- Consentire l'accesso a tutti i robots:
User-agent: *
Disallow:
(è anche possibile non creare il file o lasciarlo vuoto)
- Escludere tutti i robots da una o più cartelle:
User-agent:
*
Disallow:
/cgi_bin/
Disallow:
/secret/
- Escludere un robot (nell'esempio quello di Excite) da
alcune cartelle:
User-agent:
ArchitextSpider
Disallow:
/cgi_bin/
Disallow: /secret/
- Escludere un robot (nell'esempio quello di Altavista)
da tutti i file del dominio:
User-agent:
Scooter
Disallow:
/
- Lasciare passare un unico robot (nell'esempio quello
di Hotbot):
User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
Per conoscere i nomi dei ragni di altri motori di ricerca,
rimandiamo alle pagine dei rispettivi search engines.
Se non in possesso di
un dominio, esiste un meta tag ad hoc, che nonostante la
minore flessibilità e potenza rispetto all'inserimento del
file robots.txt,
consente un discreto risultato:
<meta name="robots"
content="noindex, nofollow">
Il Cloaking, se usato in maniera scorretta inviando
informazioni sbagliate agli indicizzatori,può
portare al “banneraggio” del sito.
|