it-swarm.it

Controllo su Internet Archive oltre a "Disallow /"?

Esistono meccanismi per controllare ciò che l'archivio di Internet Archive archivia in un sito? So di non consentire tutte le pagine Potrei aggiungere :

User-agent: ia_archiver
Disallow: /
  1. Posso dire al bot che voglio che eseguano la scansione del mio sito una volta al mese o una volta all'anno?

  2. Ho un sito/pagine che non vengono/non vengono archiviate correttamente a causa di risorse non raccolte. C'è un modo per dire al bot di Internet Archive di quali risorse ha bisogno se vuole prendere il sito?

13
artlung

Nota : questa risposta è sempre più obsoleta.

Il principale collaboratore della raccolta web di Internet Archive è stato Alexa Internet. Il materiale che Alexa striscia per i suoi scopi è stato donato all'IA alcuni mesi dopo. L'aggiunta della regola di non consentire menzionata nella domanda non influisce su tali ricerche per indicizzazione, ma il Wayback li onorerà "retroattivamente" (negando l'accesso, il materiale sarà ancora nell'archivio - dovresti escludere il robot di Alexa se vuoi davvero tenere fuori il tuo materiale di Internet Archive).

Potrebbero esserci dei modi per influenzare i gattoni di Alexa, ma non ne ho familiarità.

Da quando IA ha sviluppato il proprio crawler (Heritrix), hanno iniziato a fare i loro crawl, ma quelli tendono ad essere crawl mirati (fanno crawl elettorali per la Library of Congress e hanno fatto crawl nazionali per Francia e Australia, ecc.). Non si impegnano nel tipo di ricerche per indicizzazione su scala mondiale sostenute da Google e Alexa. La più grande ricerca per indicizzazione di IA è stata un progetto speciale per la scansione di 2 miliardi di pagine.

Poiché queste ricerche per indicizzazione vengono gestite in base a pianificazioni derivanti da fattori specifici del progetto, non è possibile influire sulla frequenza con cui visitano il sito o se visitano il sito.

L'unico modo per influire direttamente su come e quando IA esegue la scansione del tuo sito è utilizzare il loro servizio Archive-It . Tale servizio consente di specificare ricerche per indicizzazione personalizzate. I dati risultanti verranno (eventualmente) incorporati nella raccolta web di IA. Questo è comunque un servizio di abbonamento pagato .

8
Kris

La maggior parte dei motori di ricerca supporta la direttiva "Crawl-delay", ma non so se lo fa IA. Puoi provarlo però:

User-agent: ia_archiver
Crawl-delay: 3600

Ciò limiterebbe il ritardo tra le richieste a 3600 secondi (ovvero 1 ora) o ~ 700 richieste al mese.

Non credo che il numero 2 sia possibile: il bot IA prende le risorse come e quando lo ritiene opportuno. Potrebbe avere un limite di dimensione del file per evitare di usare troppa memoria.

2
DisgruntledGoat