it-swarm.it

Struttura di a PDF file?

Per un piccolo progetto devo analizzare i file pdf e prenderne una parte specifica (una semplice catena di caratteri). Mi piacerebbe usare Python per fare questo e ho trovato diverse librerie che sono in grado di fare ciò che voglio in qualche modo.

Ma ora, dopo alcune ricerche, mi chiedo quale sia la vera struttura di un file pdf, qualcuno sa se c'è una specifica o qualche spiegazione ovunque online? Ho trovato un collegamento su Adobe ma sembra che sia un collegamento morto :(

57

Ecco un link al materiale di riferimento di Adobe

http://www.Adobe.com/devnet/pdf/pdf_reference.html

Dovresti sapere che PDF riguarda solo la presentazione, non la struttura. L'analisi non sarà facile.

38
minty

Quando ho iniziato a lavorare con il PDF, ho trovato il PDF reference molto difficile da navigare . Potrebbe aiutarti a sapere che la panoramica della struttura dei file si trova nella sintassi e quale Adobe chiamare la struttura del documento è la struttura dell'oggetto e non la struttura del file. Questo si trova anche nella sintassi. La descrizione degli operatori è nascosta nell'Appendice A, molto utile per capire cosa sta succedendo nei flussi di contenuti. Se hai mai il dolore di lavorare con gli spazi colore, lo troverai nascosto nella grafica! Spero che questi suggerimenti ti aiutino a trovare le cose più velocemente di quanto ho fatto io.

Se stai usando windows, pdftron CosEdit ti permette di navigare nella struttura dell'oggetto per capirlo. È disponibile una demo gratuita che consente di esaminare il file ma non di salvarlo.

22
danio

Ho trovato l' GNU Introduzione a PDF per essere d'aiuto nella comprensione della struttura. Include un esempio PDF file facilmente leggibile che descrive in dettaglio.

Altri link utili:

20
Jeff Moser

Ecco il raw riferimento di PDF 1.7 , ed ecco un articolo che descrive la struttura di un file PDF . Se usi Vim, il plugin pdftk è un buon modo per esplorare il documento in una forma sempre meno grezza, e l'utilità pdftk (e la sua fonte GPL) è un ottimo modo per prendere in giro i documenti a parte.

10
jmah

Sto provando a fare praticamente la stessa cosa. Il riferimento PDF è un documento molto difficile da leggere. Questo tutorial è un inizio migliore, penso.

7
Noran

Questo può aiutare a fare un po 'di luce: (Da pagina 11 di PDF32000.book)

La sintassi del PDF è meglio compresa considerandola come quattro parti, come mostrato nella Figura 1:

• Oggetti. Un documento PDF è una struttura dati composta da un piccolo insieme di tipi base di oggetti dati La sotto-clausola 7.2, "Convenzioni lessicali", descrive il set di caratteri usato per scrivere oggetti e altri elementi sintattici. La sotto-clausola 7.3, "Oggetti", descrive la sintassi e le proprietà essenziali degli oggetti . La sotto-clausola 7.3.8, "Oggetti di flusso", fornisce i dettagli completi del tipo di dati più complesso, lo stream oggetto.

• Struttura del file. La struttura del file PDF determina come gli oggetti sono memorizzati in un file PDF, come sono accesso, e come sono aggiornati. Questa struttura è indipendente dalla semantica degli oggetti. Sub- la clausola 7.5, "Struttura del file", descrive la struttura del file. La sotto-clausola 7.6, "Crittografia", descrive un livello di file meccanismo per proteggere i contenuti di un documento da accessi non autorizzati.

• Struttura del documento. La struttura del documento PDF specifica come vengono utilizzati i tipi di oggetti di base per rappresentano i componenti di un documento PDF: pagine, caratteri, annotazioni e così via. Sottoclima 7.7, "Struttura del documento", descrive la struttura complessiva del documento; le clausole successive riguardano il dettagliato semantica dei componenti.

• Stream di contenuti. Un flusso di contenuti PDF contiene una sequenza di istruzioni che descrivono l'aspetto di una pagina o un'altra entità grafica. Queste istruzioni, anche se rappresentate come oggetti, sono concettualmente distinto dagli oggetti che rappresentano la struttura del documento e sono descritti separatamente. Sub-clausola 7.8, "Stream e risorse del contenuto", illustra i flussi di contenuti PDF e le relative risorse associate.

Sembra che la navigazione in un file PDF richiederà un po 'più di un semplice sforzo.

6
Josh Albert
3
Peter Teoh

Se vuoi analizzare PDF usando Python, dai un'occhiata a PDFMINER . Questa è la migliore libreria per analizzare i file PDF fino alla data.

3
codingscientist

Estrarre il testo da PDF è un problema difficile perché PDF ha una struttura orientata al layout. Puoi vedere i documenti e il codice sorgente del mio tentativo a malapena riuscito su CPAN (la mia implementazione è in Perl). La struttura dei dati PDF è molto interessante e ben progettata, ma è più facile da scrivere che da leggere.

2
Chris Dolan

Un modo per ottenere alcuni indizi è creare un file PDF costituito da una pagina vuota. Ho CutePDF Writer sul mio computer e ho creato un documento Wordpad vuoto di una pagina. Stampato in un file .pdf e quindi aperto il file .pdf utilizzando Blocco note.

Quindi, utilizzare una copia di questo file ed eliminare righe o blocchi di testo che potrebbero essere di interesse, quindi ricaricare in Acrobat Reader. Sareste sorpresi di quanto poche informazioni siano necessarie per creare un documento PDF di una sola pagina.

Sto cercando di creare un foglio di calcolo per creare un modulo PDF dal codice.

2
Daniel Kim

È necessario il PDF manuale di riferimento per iniziare a leggere i dettagli e la struttura dei file PDF. Suggerisco di iniziare con la versione 1.7.

Su Windows ho usato uno strumento gratuito PDF Analyzer per vedere la struttura interna dei file PDF . Questo ti aiuterà a capire quando leggi il manuale di riferimento.

 enter image description here

0
juFo