it-swarm.it

Come rilevare i robot dei motori di ricerca in modo affidabile all'interno del sito Web asp.net?

Qual è il modo migliore per rilevare l'attività generata dai bot (clic/visite alla pagina) ecc. Su un sito Web asp.net? Abbiamo un sito Web in cui monitoriamo i lead generati su siti Web esterni, monitoriamo l'IP dell'utente che genera il lead, tuttavia stiamo vedendo molti lead generati da Google e altri bot di ricerca. Qual è il modo migliore per filtrare questa attività. Ho sentito parlare di test di stringhe di user agent e filtri basati su indirizzi IP conosciuti, entrambi disponibili come dump di dati da varie fonti, non sono sicuro di quale sia il migliore da usare.

Grazie.

2
user1081

Come ha detto @Kinopiko, i robot, in particolare quelli migliori come google, o bing lasciano un UserAgent chiaro.

Non so come sia il tuo codice, quindi non posso dirti cosa fare ma per trovare UserAgent in Asp.Net guardi Request.UserAgent in qualsiasi WebForm, CodeBehind o MVC Controller.

2
Sruly

Siamo spiacenti ma non ho idea dei siti Web asp.net, ma qualsiasi motore di ricerca affidabile ti invierà una stringa agente utente che ti dice che è un bot e che dovrebbe essere disponibile nel tuo file di registro. Un altro omaggio è che cercano /robots.txt.

Il mio correttore assomiglia a questo (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

Se guardi nel codice sorgente di awstats troverai qualcosa di meglio di quanto sopra.

0
delete