استخراج البيانات الوصفية الكامل
عرض جميع حقول البيانات الوصفية القياسية والمخصصة: المؤلف وتاريخ الإنشاء وتاريخ التعديل ومنتج PDF وإصدار البرنامج والمفاتيح المخصصة (مثل معرف المستند وحقوق النشر والتصنيف). تحديد متى وكيف تم إنشاء PDF.
- المؤلف، العنوان، الموضوع، الكلمات المفتاحية
- الطوابع الزمنية للإنشاء والتعديل (بما في ذلك المنطقة الزمنية)
- بيانات XMP الوصفية المخصصة والخصائص المخفية
تحليل النص والمحتوى
استخراج جميع النصوص من PDF مع معلومات الموقع. تحليل عدد الكلمات وعدد الأحرف واستخدام الخطوط وصعوبة القراءة. اكتشاف طبقات النص (قابل للبحث مقابل ممسوح ضوئياً). تحديد النص المخفي أو غير المرئي.
- استخراج النص الكامل مع تفصيل صفحة بصفحة
- اكتشاف جودة OCR ووجود طبقة النص
- تمييز النص المخفي أو النص الأبيض على خلفية بيضاء
الصور المستخرجة
سرد كل صورة داخل PDF: التنسيق (JPEG، PNG، CCITT)، الدقة، مساحة اللون، مستوى الضغط، والحجم. اكتشاف مقاطع الفيديو المضمنة، الكائنات ثلاثية الأبعاد، JavaScript، أو المرفقات – ضروري لتدقيق الأمان.
- عدد الصور، الأبعاد، DPI، نوع الضغط
- تحديد الملفات أو البرامج النصية المضمنة المشبوهة
- استخراج ومعاينة الصور مباشرة
الغوص العميق في الخطوط والطباعة
اكتشف جميع الخطوط المستخدمة في المستند – بما في ذلك الخطوط المضمنة والمجموعة الفرعية وخطوط النظام. تحقق من الخطوط المفقودة ونوع الخط (TrueType، Type1، OpenType) ورسم الخرائط الفعلي للنص إلى الخط.
- قائمة بأسماء الخطوط وأنواعها وحالة التضمين
- اكتشاف مخاطر استبدال الخطوط (لموثوقية الطباعة)
- التحقق مما إذا كانت الخطوط مضمنة بالكامل (جيد للأرشفة)
هيكل المستند والتنقل
تحليل الإشارات المرجعية (شجرة المخطط التفصيلي)، وتسميات الصفحات، وترتيب الصفحات المنطقي، وسلاسل المقالات، والروابط الداخلية/الخارجية. فهم كيفية تنظيم المستند – ضروري للتحقق من صحة الكتب الإلكترونية.
- تسلسل الإشارات المرجعية وأرقام الصفحات المستهدفة
- كشف الروابط الداخلية المعطلة
- تأثيرات انتقال الصفحة وإعدادات العرض
كشف الأمان والمخاطر الخفية
التحقق من التشفير وحماية كلمة المرور وأعلام الأذونات (الطباعة والنسخ والتحرير). اكتشاف العناصر التي قد تكون ضارة: JavaScript، وإجراءات التشغيل، والملفات المضمنة، أو النماذج التي ترسل بيانات خارجية – ضروري لسير عمل المستندات ذات الثقة الصفرية.
- مستوى التشفير (AES-128/256) ووجود كلمة المرور
- تحديد الإجراءات المشبوهة (URI، JavaScript، SubmitForm)
- تحديد التوافق مع PDF/A والتوقيعات الرقمية
تحليل حقول النماذج والتعليقات التوضيحية
استخراج جميع حقول النماذج التفاعلية: حقول إدخال النص، وخانات الاختيار، وأزرار الاختيار، والقوائم المنسدلة، وحقول التوقيع. الاطلاع على أسماء الحقول والقيم الافتراضية والنصوص البرمجية للتحقق وترتيب الحساب.
- حساب وسرد جميع حقول النماذج لكل صفحة
- اكتشاف الحقول المخفية أو البيانات المعبأة مسبقاً
- تحليل أنواع التعليقات التوضيحية (الملاحظات اللاصقة، التمييز، الطوابع)
أبعاد الصفحة ومقاييس الجودة
احصل على إحصائيات مفصلة لكل صفحة: حجم الصفحة (مثل A4، Letter)، والاتجاه، والتدوير، وتعقيد المحتوى، وعدد الكائنات، وكفاءة الضغط، وحجم الملف المقدر لكل صفحة.
- أبعاد الصفحة بالنقاط والملم والإنش
- تحديد الصفحات الكبيرة بشكل غير عادي (مشاكل الأداء)
- اكتشاف أحجام الصفحات المختلطة في مستند واحد
مقارنة المستندات (فرق الإصدار)
حمّل نسختين من PDF وتصور الفروقات فوراً: النص المضاف/المحذوف، الصور المنقولة، البيانات الوصفية المتغيرة، أو التعليقات التوضيحية المعدلة. مثالي لمراجعة العقود وتتبع المراجعات.
- تمييز الفروق على مستوى النص (إضافة/إزالة/تعديل)
- مقارنة البيانات الوصفية والهيكل
- تصدير تقرير المقارنة بتنسيق JSON أو HTML
أفضل الممارسات لتحليل PDF
قم دائماً بتحليل ملفات PDF من مصادر غير موثوقة قبل فتحها. استخدم البيانات الوصفية للتحقق من صحة المستند. بالنسبة للكتب الإلكترونية، تحقق من جودة طبقة النص وتضمين الخطوط. بالنسبة للمستندات القانونية، قم بإجراء تدقيق أمني لاكتشاف التعديلات المخفية.
- فحص ملفات PDF المشبوهة بحثاً عن JavaScript وإجراءات التشغيل
- التحقق من التوافق مع PDF/A للأرشفة طويلة الأجل
- مقارنة الإصدارات الموقعة وغير الموقعة لاكتشاف العبث
- استخدم التحليل قبل التنقيح لتحديد موقع جميع البيانات الحساسة