it-swarm.it

Come posso rilevare collegamenti che puntano a squatter di dominio?

So come trovare collegamenti morti che vanno a 404 pagine. Tuttavia, in questi giorni non molti collegamenti in realtà si interrompono, ma finiscono per andare a un abusivo di dominio. Mi rendo conto che questo è un ordine elevato, ma c'è un modo per scoprire se un sito Web è in realtà un abusivo del dominio senza effettivamente andare in ciascun sito con il mio browser ed esaminarlo per vedere se c'è una foto di una ragazza con uno zaino ecc. .?

4
delete

Possibili metodi di rilevamento per pagine/domini parcheggiati:

Trova frasi spazzatura

Fai una ricerca senza distinzione tra maiuscole e minuscole per frasi spazzatura generiche comuni come "quello che ti serve, quando ne hai bisogno" e "la tua fonte praticamente per qualsiasi cosa!".

Trova gli inviti per l'acquisto

Cerca un testo come "Richiedi informazioni su questo dominio" e "Questo dominio potrebbe essere in vendita".

Test per 404 secondi su sottopagine casuali

Visita testdomain.com/randomstring. Se ottieni un 404 o la pagina stessa contiene il testo "404" o "non trovato", probabilmente non è parcheggiata.

Test per reindirizzamenti su sottopagine casuali

Altri sistemi di domini parcheggiati reindirizzano testdomain.com/randomstring su testdomain.com.

Cerca il nome di dominio nei meta tag

Diversi modelli di domini parcheggiati utilizzano il seguente formato per il meta tag dell'autore:

<meta name="author" content="Nameofdomain.com" />

Altri lo hanno inserito nella descrizione:

<meta name="description" content="nameofdomain.com">

In ogni caso, il dominio è solo cosa nell'attributo 'content'. È improbabile che ciò avvenga per i siti attivi.

Cerca il tag frameset

Alcuni modelli di domini parcheggiati usano il tag <frameset> con più frame interni per estrarre contenuti esterni (spesso da 'information.com'), ma altrimenti non presentano nient'altro sulla pagina.

Usa più test

Nessuno di questi test è necessariamente un indicatore affidabile di un dominio parcheggiato da solo. Probabilmente dovrai combinare più test per creare il tuo algoritmo, quindi testarlo e perfezionarlo in base a una suite di domini parcheggiati noti e noti attivi.

2
Nick

Ci sono cose che puoi cercare. L'elemento dominante nella pagina è un iFrame? La risposta è un 301/302 che ti porta fuori dominio? (molti abusivi ti salteranno semplicemente 302 o 301 sulla loro pagina di destinazione). Il rapporto link/testo è incredibilmente alto?

Direi che è molto difficile, ma almeno alcune caratteristiche comuni.

Sembra anche che ci sia un progetto sulla pagina Wikipedia linkrot che fa riferimento a qualche progetto che tenta di farlo: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - dettagli sono imprecisi però.

0
Mark Henderson