it-swarm.it

Bloccando tutti i motori di ricerca tranne quelli grandi

Vorrei in qualche modo essere in grado di bloccare tutti i motori di ricerca tranne Google, Yahoo e Bing (e i loro siti correlati come Google Immagini) dalla scansione del mio sito poiché consumano molto server e larghezza di banda ma non portano traffico.

È facile o difficile? Sarebbe bello se qualcuno mantenesse un elenco di piccoli motori di ricerca che potrebbero essere incollati in un file robots.txt per bloccarli.

Inoltre, mi rendo conto di non poter bloccare i crawler che ignorano il file robots.txt o i siti da raschiare e strisciare di nascosto, ma non è quello che voglio. Voglio solo bloccare tutti gli Altavisti, gli Hotbot, i Lycos (anche se esistono ancora) e i crawler dell'esperimento universitario sprecano il mio tempo.

2
Craig

Cosa hai provato fino ad ora?

Usando generatore webmaster tools robots.txt Ho fatto questo:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Ma non l'ho provato.

3
delete

Quanto è grande un problema?

I robot di cui dovresti preoccuparti sono i robot che non seguono le regole e che fingono di essere visitatori abituali.

Il traffico dei motori di ricerca è legittimo e, come ha sottolineato Dan, Google ha anche iniziato come un piccolo progetto universitario. Non è davvero giusto discriminare i piccoli, e forse non è intelligente a lungo termine.

La risposta di Kinopiko funzionerà e gli strumenti per i webmaster di Google ti permetteranno di creare e testare il tuo robot.txt (configurazione del sito, accesso del crawler), ma penso che se il traffico proveniente da motori di ricerca originali è un problema per te, potrebbe essere che il tuo hosting attuale la soluzione non è un buon affare.

3
Sylver

Per quelli che non seguono le regole puoi provare a trovarle nei tuoi registri e quindi a bloccarle tramite IP.

Generalmente puoi individuare un bot dal fatto che legge le pagine troppo velocemente per essere umano.

1
Sruly