Extração completa de metadados
Veja todos os campos de metadados padrão e personalizados: autor, data de criação, data de modificação, produtor do PDF, versão do software e chaves personalizadas (por exemplo, ID do documento, direitos autorais, classificação). Identifique quando e como o PDF foi criado.
- Autor, título, assunto, palavras-chave
- Carimbos de data/hora de criação e modificação (incluindo fuso horário)
- Metadados XMP personalizados e propriedades ocultas
Análise de texto e conteúdo
Extraia todo o texto do PDF com informações de posição. Analise contagem de palavras, contagem de caracteres, uso de fontes e dificuldade de leitura. Detecte camadas de texto (pesquisável vs digitalizado). Identifique texto oculto ou invisível.
- Extração de texto completo com detalhamento página por página
- Detectar qualidade de OCR e presença de camada de texto
- Realçar texto invisível ou texto branco sobre branco oculto
Imagens extraídas
Liste cada imagem dentro do PDF: formato (JPEG, PNG, CCITT), resolução, espaço de cor, nível de compressão e tamanho. Detecte vídeos incorporados, objetos 3D, JavaScript ou anexos – crucial para auditorias de segurança.
- Contagem de imagens, dimensões, DPI, tipo de compressão
- Identificar arquivos ou scripts incorporados suspeitos
- Extrair e visualizar imagens inline
Análise aprofundada de fontes e tipografia
Descubra todas as fontes usadas no documento – incluindo fontes incorporadas, subconjuntos e fontes do sistema. Verifique fontes ausentes, tipo de fonte (TrueType, Type1, OpenType) e o mapeamento real de texto para fonte.
- Lista de nomes de fontes, tipos e status de incorporação
- Detectar riscos de substituição de fontes (para confiabilidade de impressão)
- Verificar se as fontes estão totalmente incorporadas (bom para arquivamento)
Estrutura do documento e navegação
Analise marcadores (árvore de estrutura), rótulos de página, ordem lógica de páginas, threads de artigos e links internos/externos. Entenda como o documento está organizado – essencial para validação de e-books.
- Hierarquia de marcadores e números de página de destino
- Detecção de links internos quebrados
- Efeitos de transição de página e configurações de apresentação
Detecção de segurança e riscos ocultos
Verifique criptografia, proteção por senha e flags de permissão (impressão, cópia, edição). Detecte elementos potencialmente maliciosos: JavaScript, ações de inicialização, arquivos incorporados ou formulários que enviam dados externos – crítico para fluxos de trabalho de documentos de confiança zero.
- Nível de criptografia (AES-128/256) e presença de senha
- Sinalizar ações suspeitas (URI, JavaScript, SubmitForm)
- Identificar conformidade com PDF/A e assinaturas digitais
Análise de campos de formulário e anotações
Extraia todos os campos de formulário interativos: entradas de texto, caixas de seleção, botões de opção, menus suspensos e campos de assinatura. Veja nomes de campos, valores padrão, scripts de validação e ordem de cálculo.
- Contar e listar todos os campos de formulário por página
- Detectar campos ocultos ou dados pré-preenchidos
- Analisar tipos de anotação (notas adesivas, realces, selos)
Dimensões da página e métricas de qualidade
Obtenha estatísticas detalhadas por página: tamanho da página (ex., A4, Carta), orientação, rotação, complexidade do conteúdo, número de objetos, eficiência de compressão e tamanho estimado do arquivo por página.
- Dimensões da página em pontos, mm, polegadas
- Identificar páginas excepcionalmente grandes (problemas de desempenho)
- Detectar tamanhos de página mistos em um documento
Comparação de documentos (Diferença de versão)
Carregue duas versões de um PDF e visualize instantaneamente as diferenças: texto adicionado/removido, imagens movidas, metadados alterados ou anotações modificadas. Ideal para revisão de contratos e rastreamento de revisões.
- Destaque de diferenças em nível de texto (adicionar/remover/modificar)
- Comparação de metadados e estrutura
- Exportar relatório de comparação como JSON ou HTML
Melhores práticas para análise de PDF
Sempre analise PDFs de fontes não confiáveis antes de abri-los. Use metadados para verificar a autenticidade do documento. Para e-books, verifique a qualidade da camada de texto e a incorporação de fontes. Para documentos legais, execute auditorias de segurança para detectar edições ocultas.
- Examinar PDFs suspeitos em busca de JavaScript e ações de inicialização
- Validar conformidade com PDF/A para arquivamento de longo prazo
- Comparar versões assinadas e não assinadas para detectar adulteração
- Use a análise antes da redação para localizar todos os dados confidenciais