it-swarm.it

Come si configura robots.txt per consentire la ricerca per indicizzazione del sito ad eccezione di alcune directory?

Qual è la migliore configurazione iniziale o generale per robots.txt per consentire ai motori di ricerca di passare attraverso il sito, ma forse limitare alcune cartelle?

Esiste una configurazione generale che dovrebbe essere sempre utilizzata?

7
Mike

Gli strumenti per i Webmaster di Google hanno una sezione chiamata "Accesso del crawler"

Questa sezione ti consente di creare facilmente il tuo robots.txt

Ad esempio, per consentire a tutto tranne blog una cartella chiamata test your robot.txt sarebbe simile a

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

La migliore configurazione, se non hai requisiti speciali, non è assolutamente nulla. (Anche se potresti almeno voler aggiungere un file vuoto per evitare che 404s riempia i tuoi log degli errori.)

Per bloccare una directory sul sito, utilizzare la clausola 'Disallow':

User-agent: *
Disallow: /example/

Esiste anche una clausola "Consenti" che sostituisce le precedenti clausole "Non consentire". Quindi, se non hai consentito la cartella "esempio", potresti voler consentire una cartella come "esempio/foobar".

Ricorda che robots.txt non impedisce a nessuno di visitare quelle pagine se lo desidera, quindi se alcune pagine devono rimanere segrete, dovresti nasconderle dietro una sorta di autenticazione (ad esempio un nome utente/password).

L'altra direttiva che probabilmente si troverà in molti file robots.txt è 'Sitemap', che specifica la posizione della tua Sitemap XML se ne hai una. Mettilo da solo:

Sitemap: /sitemap.xml

Il sito ufficiale robots.txt contiene molte più informazioni sulle varie opzioni. Ma in generale, la stragrande maggioranza dei siti avrà bisogno di pochissima configurazione.

1
DisgruntledGoat

Ecco tutto ciò che devi sapere sul file robots.txt

0
Jason