Estrazione completa dei metadati
Visualizza tutti i campi di metadati standard e personalizzati: autore, data di creazione, data di modifica, produttore PDF, versione del software e chiavi personalizzate (ad esempio, ID documento, copyright, classificazione). Identifica quando e come è stato creato il PDF.
- Autore, titolo, oggetto, parole chiave
- Timestamp di creazione e modifica (incluso fuso orario)
- Metadati XMP personalizzati e proprietà nascoste
Analisi del testo e del contenuto
Estrai tutto il testo dal PDF con informazioni sulla posizione. Analizza conteggio parole, conteggio caratteri, utilizzo dei font e difficoltà di lettura. Rileva livelli di testo (ricercabile vs scannerizzato). Identifica testo nascosto o invisibile.
- Estrazione del testo completo con suddivisione pagina per pagina
- Rileva la qualità OCR e la presenza di livelli di testo
- Evidenzia il testo invisibile o il testo bianco su bianco nascosto
Imagini estratte
Elenca ogni immagine all'interno del PDF: formato (JPEG, PNG, CCITT), risoluzione, spazio colore, livello di compressione e dimensione. Rileva video incorporati, oggetti 3D, JavaScript o allegati – cruciale per gli audit di sicurezza.
- Conteggio immagini, dimensioni, DPI, tipo di compressione
- Identificare file o script incorporati sospetti
- Estrarre e visualizzare le immagini inline
Analisi approfondita di font e tipografia
Scopri tutti i font utilizzati nel documento – inclusi font incorporati, subset e font di sistema. Verifica la presenza di font mancanti, tipo di font (TrueType, Type1, OpenType) e l'effettiva mappatura testo-font.
- Elenco di nomi di font, tipi e stato di incorporamento
- Rilevare i rischi di sostituzione dei font (per l'affidabilità di stampa)
- Verificare se i font sono completamente incorporati (buono per l'archiviazione)
Struttura del documento e navigazione
Analizza segnalibri (albero dei contorni), etichette di pagina, ordine logico delle pagine, thread degli articoli e collegamenti interni/esterni. Comprendi come è organizzato il documento – essenziale per la validazione degli e-book.
- Gerarchia dei segnalibri e numeri di pagina di destinazione
- Rilevamento di collegamenti interni interrotti
- Effetti di transizione pagina e impostazioni di presentazione
Rilevamento della sicurezza e dei rischi nascosti
Verifica la crittografia, la protezione tramite password e i flag di autorizzazione (stampa, copia, modifica). Rileva elementi potenzialmente dannosi: JavaScript, azioni di avvio, file incorporati o moduli che inviano dati esterni – fondamentale per i flussi di lavoro di documenti zero-trust.
- Livello di crittografia (AES-128/256) e presenza di password
- Segnala azioni sospette (URI, JavaScript, SubmitForm)
- Identificare la conformità PDF/A e le firme digitali
Analisi dei campi modulo e delle annotazioni
Estrai tutti i campi modulo interattivi: input di testo, caselle di controllo, pulsanti di opzione, menu a discesa e campi firma. Visualizza nomi dei campi, valori predefiniti, script di convalida e ordine di calcolo.
- Contare ed elencare tutti i campi modulo per pagina
- Rilevare campi nascosti o dati precompilati
- Analizzare i tipi di annotazione (note adesive, evidenziazioni, timbri)
Dimensioni della pagina e metriche di qualità
Ottieni statistiche dettagliate per pagina: dimensione pagina (es. A4, Lettera), orientamento, rotazione, complessità del contenuto, numero di oggetti, efficienza di compressione e dimensione stimata del file per pagina.
- Dimensioni della pagina in punti, mm, pollici
- Identificare pagine insolitamente grandi (problemi di prestazioni)
- Rilevare dimensioni di pagina miste in un documento
Confronto documenti (Differenza versione)
Carica due versioni di un PDF e visualizza immediatamente le differenze: testo aggiunto/eliminato, immagini spostate, metadati modificati o annotazioni alterate. Ideale per la revisione dei contratti e il tracciamento delle revisioni.
- Evidenziazione delle differenze a livello di testo (aggiungi/rimuovi/modifica)
- Confronto di metadati e struttura
- Esporta il report di confronto come JSON o HTML
Best practice per l'analisi PDF
Analizza sempre i PDF provenienti da fonti non attendibili prima di aprirli. Utilizza i metadati per verificare l'autenticità del documento. Per gli e-book, controlla la qualità del livello di testo e l'incorporamento dei font. Per i documenti legali, esegui audit di sicurezza per rilevare modifiche nascoste.
- Scansionare PDF sospetti alla ricerca di JavaScript e azioni di avvio
- Convalidare la conformità PDF/A per l'archiviazione a lungo termine
- Confrontare versioni firmate e non firmate per rilevare manomissioni
- Utilizzare l'analisi prima della redazione per individuare tutti i dati sensibili