it-swarm.it

I motori di ricerca eseguono la scansione dei PDF e, in tal caso, ci sono delle regole da seguire quando li crei

Il sito Web su cui sto lavorando contiene alcune centinaia di PDF. Non credo di aver mai visto nessuno di loro tornare in una ricerca, ma sono collegati direttamente dal nostro sito. Sono anche pieni di parole chiave perché sono documenti di prodotto.

C'è qualcosa di speciale che dobbiamo fare per far scansionare Google o altri motori di ricerca?

Esistono regole rigide e veloci per la creazione di PDF per aiutare Google a apprezzarli maggiormente? Ad esempio, dovrei eseguirli tramite ghostscript per ripulire i tag PDF rotti creati da Adobe durante la generazione?

22
Ben Hoffman

Google sicuramente indicizza PDF file e puoi cercare solo PDF file aggiungendo filetype:pdf alla tua query di ricerca ( esempio ).

Direi che le cose principali da fare per ottimizzare un PDF in modo che sia facilmente indicizzato sarebbero:

  • Dagli un nome file significativo
  • Completa tutte le proprietà dei metadati del documento (titolo, autore, parole chiave ecc.)
  • Assicurati che il tuo PDF sia composto da testo reale e non immagini scansionate
  • Assicurati di avere un buon contenuto con un uso corretto delle intestazioni, proprio come faresti con un documento HTML

Per ulteriori suggerimenti leggi Ottimizzazione PDF Documents e ndici suggerimenti per l'ottimizzazione dei PDF per i motori di ricerca

17
Dan Diplo

Non sono sicuro di altri motori di ricerca, ma per quanto riguarda Google la regola principale sarebbe quella di non escluderli tramite robots.txt

Questo era il loro annuncio iniziale di supporto alla ricerca PDF.

1
intlect

Proprio come rendere un sito web conforme non può far male al tuo SEO, rendere il tuo PDF accessibile non può far male. Il correttore di accessibilità incorporato di Adobe è tutt'altro che perfetto, ma almeno correggere quelle aree ti farà iniziare.

Probabilmente passo 5 minuti su ogni 4 o 5, principalmente PDF di testo che mettiamo online. Il tempo aumenta in modo uniforme a seconda del numero di pagine e della complessità di tali pagine.

Supponendo di avere Adobe Acrobat Pro per eseguire le modifiche:

  • Esegui un controllo completo dell'accessibilità. (Il controllo rapido è abbastanza inutile per me)
  • Aggiorna le meta informazioni nelle proprietà del documento (parole chiave, soggetto, lingua, ecc.)
  • Assicurati che i tag vengano aggiunti
  • Assicurati che il testo sia taggato come testo, immagini come immagini, elementi di sfondo come sfondo
  • Contrassegna la lanugine inutile (come decorazione o disegno) come sfondo
  • Aggiungi un buon testo alternativo alle immagini
  • Assicurarsi nell'ordine di lettura, il testo è ordinato correttamente
  • Nella barra degli strumenti del contenuto, assicurati che il testo non sia duplicato o tradotto male
  • Utilizzare lo scanner OCR su pagine scansionate

Per un editing più avanzato come tabelle e errori Adobe davvero strani, utilizziamo un plugin chiamato CommonLook. CommonLook svolge il lavoro, ma lo odio quasi quanto odio gli strumenti di Adobe.

Acquisire familiarità con lo strumento Ritocco ordine di lettura, la barra degli strumenti Tag, la barra degli strumenti Ordine di lettura e la barra degli strumenti Contenuto. Il mio lavoro richiede documenti pienamente conformi prima di uscire sul Web, ma chiunque potrebbe trarre vantaggio da alcune semplici proprietà di tag e documenti.

1
MrChrister