Ho un sito legacy piuttosto grande con letteralmente migliaia di PDF che a volte rappresentano in un database, ma spesso sono solo collegamenti sulla pagina e sono memorizzati in quasi tutte le directory del sito.
Ho scritto un crawler php per seguire tutti i collegamenti sul mio sito, e poi lo sto confrontando con un dump della struttura delle directory, ma c'è qualcosa di più facile?
Ho usato Xenu's Link Sleuth . Funziona abbastanza bene, assicurati di non DOS!
Se stai usando Windows 7 lo strumento migliore è SEO Toolkit 1.0 di IIS7. È gratuito e puoi scaricarlo gratuitamente.
Lo strumento eseguirà la scansione di qualsiasi sito e ti dirà dove sono tutti i link non funzionanti, quali pagine impiegano troppo tempo a caricarsi, quali pagine hanno titoli mancanti, titoli duplicati, lo stesso per parole chiave e descrizioni e quali pagine hanno rotto l'HTML.
Prova Link Checker dello strumento open source del W3C . Puoi usarlo online o installarlo localmente
Esistono diversi prodotti di Microsys , in particolare A1 Sitemap Generator e A1 Website Analyzer che eseguiranno la scansione del tuo sito Web e segnaleranno tutto ciò che puoi immaginare esso.
Ciò include collegamenti interrotti, ma anche una visualizzazione tabella di tutte le tue pagine in modo da poter confrontare cose come identici tag <title> e meta description, collegamenti nofollow, meta noindex su pagine Web e molte malattie che hanno solo bisogno di un occhio acuto e una mano rapida da sistemare.
Link Examiner è davvero un ottimo software gratuito per le tue esigenze.
Sono un grande fan di linklint per il controllo di link di siti statici di grandi dimensioni, se hai una riga di comando unix attorno a (I ' ho usato su Linux, MacOS e FreeBSD). Vedere il loro sito per le istruzioni di installazione. Una volta installato, creo un file chiamato check.ll
e faccio:
linklint @check.ll
Ecco come appare il mio file check.ll
# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-Host www.example.com
-timeout 10
Esegue una ricerca per indicizzazione di www.example.com
e genera file HTML con report con riferimenti incrociati per ciò che è rotto, mancante, ecc.