Vollständige Metadatenextraktion
Alle standardmäßigen und benutzerdefinierten Metadatenfelder anzeigen: Autor, Erstellungsdatum, Änderungsdatum, PDF-Produzent, Softwareversion und benutzerdefinierte Schlüssel (z. B. Dokumenten-ID, Urheberrecht, Klassifizierung). Identifizieren Sie, wann und wie das PDF erstellt wurde.
- Autor, Titel, Betreff, Schlüsselwörter
- Zeitstempel für Erstellung und Änderung (einschließlich Zeitzone)
- Benutzerdefinierte XMP-Metadaten und versteckte Eigenschaften
Text- und Inhaltsanalyse
Extrahieren Sie den gesamten Text aus dem PDF mit Positionsinformationen. Analysieren Sie Wortanzahl, Zeichenanzahl, Schriftverwendung und Leseschwierigkeit. Erkennen Sie Textebenen (durchsuchbar vs. gescannt). Identifizieren Sie versteckten oder unsichtbaren Text.
- Volltext-Extraktion mit seitenweiser Aufschlüsselung
- OCR-Qualität und Vorhandensein von Textebenen erkennen
- Unsichtbaren oder versteckten weißen Text auf weißem Grund hervorheben
Extrahierte Bilder
Listen Sie jedes Bild im PDF auf: Format (JPEG, PNG, CCITT), Auflösung, Farbraum, Komprimierungsstufe und Größe. Erkennen Sie eingebettete Videos, 3D-Objekte, JavaScript oder Anhänge – entscheidend für Sicherheitsaudits.
- Bildanzahl, Abmessungen, DPI, Komprimierungstyp
- Verdächtige eingebettete Dateien oder Skripte identifizieren
- Bilder inline extrahieren und in der Vorschau anzeigen
Schrift- und Typografie-Tiefenanalyse
Entdecken Sie alle im Dokument verwendeten Schriftarten – einschließlich eingebetteter, Teil- und Systemschriftarten. Prüfen Sie auf fehlende Schriftarten, Schriftartentyp (TrueType, Type1, OpenType) und die tatsächliche Text-zu-Schrift-Zuordnung.
- Liste der Schriftnamen, -typen und des Einbettungsstatus
- Risiken der Schriftartersetzung erkennen (für Druckzuverlässigkeit)
- Prüfen, ob Schriftarten vollständig eingebettet sind (gut für die Archivierung)
Dokumentenstruktur und Navigation
Analysieren Sie Lesezeichen (Gliederungsbaum), Seitenbeschriftungen, logische Seitenreihenfolge, Artikelthreads und interne/externe Links. Verstehen Sie, wie das Dokument organisiert ist – wesentlich für die E-Book-Validierung.
- Lesezeichenhierarchie und Zielseitenzahlen
- Erkennung defekter interner Links
- Seitenübergangseffekte und Präsentationseinstellungen
Sicherheits- und versteckte Risikoerkennung
Prüfen Sie Verschlüsselung, Passwortschutz und Berechtigungsflags (Drucken, Kopieren, Bearbeiten). Erkennen Sie potenziell schädliche Elemente: JavaScript, Startaktionen, eingebettete Dateien oder Formulare, die externe Daten senden – entscheidend für Zero-Trust-Dokumentenworkflows.
- Verschlüsselungsstufe (AES-128/256) und Passwortvorhandensein
- Verdächtige Aktionen kennzeichnen (URI, JavaScript, SubmitForm)
- PDF/A-Konformität und digitale Signaturen identifizieren
Analyse von Formularfeldern und Anmerkungen
Extrahieren Sie alle interaktiven Formularfelder: Texteingaben, Kontrollkästchen, Optionsfelder, Dropdown-Listen und Signaturfelder. Sehen Sie Feldnamen, Standardwerte, Validierungsskripte und Berechnungsreihenfolge.
- Alle Formularfelder pro Seite zählen und auflisten
- Versteckte Felder oder vorausgefüllte Daten erkennen
- Analyse von Anmerkungstypen (Haftnotizen, Hervorhebungen, Stempel)
Seitenabmessungen und Qualitätsmetriken
Erhalten Sie detaillierte Seitenstatistiken: Seitengröße (z. B. A4, Letter), Ausrichtung, Drehung, Komplexität des Inhalts, Anzahl der Objekte, Komprimierungseffizienz und geschätzte Dateigröße pro Seite.
- Seitenabmessungen in Punkt, mm, Zoll
- Ungewöhnlich große Seiten identifizieren (Leistungsprobleme)
- Gemischte Seitengrößen in einem Dokument erkennen
Dokumentenvergleich (Versionsunterschied)
Laden Sie zwei Versionen eines PDF hoch und visualisieren Sie sofort Unterschiede: hinzugefügter/entfernter Text, verschobene Bilder, geänderte Metadaten oder veränderte Anmerkungen. Ideal für Vertragsprüfungen und Revisionsverfolgung.
- Textbasierte Diff-Hervorhebung (Hinzufügen/Entfernen/Ändern)
- Metadaten- und Strukturvergleich
- Vergleichsbericht als JSON oder HTML exportieren
Bewährte Verfahren für die PDF-Analyse
Analysieren Sie PDFs aus nicht vertrauenswürdigen Quellen immer vor dem Öffnen. Verwenden Sie Metadaten, um die Dokumentenauthentizität zu überprüfen. Überprüfen Sie bei E-Books die Textschichtqualität und die Schrifteinbettung. Führen Sie bei Rechtsdokumenten Sicherheitsüberprüfungen durch, um versteckte Bearbeitungen zu erkennen.
- Verdächtige PDFs auf JavaScript und Startaktionen scannen
- PDF/A-Konformität für die langfristige Archivierung validieren
- Signierte vs. unsignierte Versionen vergleichen, um Manipulationen zu erkennen
- Verwenden Sie die Analyse vor der Schwärzung, um alle sensiblen Daten zu lokalisieren