Extracción completa de metadatos
Vea todos los campos de metadatos estándar y personalizados: autor, fecha de creación, fecha de modificación, productor de PDF, versión del software y claves personalizadas (por ejemplo, ID de documento, derechos de autor, clasificación). Identifique cuándo y cómo se creó el PDF.
- Autor, título, asunto, palabras clave
- Marca de tiempo de creación y modificación (incluyendo zona horaria)
- Metadatos XMP personalizados y propiedades ocultas
Análisis de texto y contenido
Extraiga todo el texto del PDF con información de posición. Analice el recuento de palabras, el recuento de caracteres, el uso de fuentes y la dificultad de lectura. Detecte capas de texto (buscable vs escaneado). Identifique texto oculto o invisible.
- Extracción de texto completo con desglose página por página
- Detectar la calidad del OCR y la presencia de capas de texto
- Resaltar texto invisible o texto blanco sobre blanco oculto
Imágenes extraídas
Enumere cada imagen dentro del PDF: formato (JPEG, PNG, CCITT), resolución, espacio de color, nivel de compresión y tamaño. Detecte videos incrustados, objetos 3D, JavaScript o archivos adjuntos – crucial para auditorías de seguridad.
- Recuento de imágenes, dimensiones, DPI, tipo de compresión
- Identificar archivos o scripts incrustados sospechosos
- Extraer y previsualizar imágenes en línea
Inmersión profunda en fuentes y tipografía
Descubra todas las fuentes utilizadas en el documento – incluyendo fuentes incrustadas, subconjuntos y fuentes del sistema. Verifique fuentes faltantes, tipo de fuente (TrueType, Type1, OpenType) y el mapeo real de texto a fuente.
- Lista de nombres de fuentes, tipos y estado de incrustación
- Detectar riesgos de sustitución de fuentes (para confiabilidad de impresión)
- Verificar si las fuentes están completamente incrustadas (bueno para archivar)
Estructura del documento y navegación
Analice marcadores (árbol de esquema), etiquetas de página, orden lógico de páginas, hilos de artículos y enlaces internos/externos. Comprenda cómo está organizado el documento – esencial para la validación de libros electrónicos.
- Jerarquía de marcadores y números de página objetivo
- Detección de enlaces internos rotos
- Efectos de transición de página y configuraciones de presentación
Detección de seguridad y riesgos ocultos
Verifique el cifrado, la protección con contraseña y los indicadores de permisos (impresión, copia, edición). Detecte elementos potencialmente maliciosos: JavaScript, acciones de lanzamiento, archivos incrustados o formularios que envían datos externos – crítico para flujos de trabajo de documentos de confianza cero.
- Nivel de cifrado (AES-128/256) y presencia de contraseña
- Marcar acciones sospechosas (URI, JavaScript, SubmitForm)
- Identificar el cumplimiento de PDF/A y las firmas digitales
Análisis de campos de formulario y anotaciones
Extraiga todos los campos de formulario interactivos: entradas de texto, casillas de verificación, botones de opción, listas desplegables y campos de firma. Vea nombres de campos, valores predeterminados, scripts de validación y orden de cálculo.
- Contar y enumerar todos los campos de formulario por página
- Detectar campos ocultos o datos precargados
- Analizar tipos de anotaciones (notas adhesivas, resaltados, sellos)
Dimensiones de página y métricas de calidad
Obtenga estadísticas detalladas por página: tamaño de página (por ejemplo, A4, Carta), orientación, rotación, complejidad del contenido, número de objetos, eficiencia de compresión y tamaño de archivo estimado por página.
- Dimensiones de página en puntos, mm, pulgadas
- Identificar páginas inusualmente grandes (problemas de rendimiento)
- Detectar tamaños de página mixtos en un documento
Comparación de documentos (Diferencia de versión)
Cargue dos versiones de un PDF y visualice instantáneamente las diferencias: texto agregado/eliminado, imágenes movidas, metadatos cambiados o anotaciones alteradas. Ideal para revisión de contratos y seguimiento de revisiones.
- Resaltado de diferencias a nivel de texto (agregar/eliminar/modificar)
- Comparación de metadatos y estructura
- Exportar informe de comparación como JSON o HTML
Mejores prácticas para el análisis de PDF
Analice siempre los PDF de fuentes no confiables antes de abrirlos. Use metadatos para verificar la autenticidad del documento. Para libros electrónicos, verifique la calidad de la capa de texto y la incrustación de fuentes. Para documentos legales, realice auditorías de seguridad para detectar ediciones ocultas.
- Escanear PDF sospechosos en busca de JavaScript y acciones de lanzamiento
- Validar el cumplimiento de PDF/A para archivado a largo plazo
- Comparar versiones firmadas y no firmadas para detectar manipulaciones
- Utilice el análisis antes de la redacción para localizar todos los datos sensibles