PDF解析（無料・オンライン）– 文書構造とプロパティの詳細 | DonePDF

PDFを分析する

PDFファイルをアップロード

PDFファイルをここにドラッグ＆ドロップするか、クリックして参照

ファイルが選択されていません

0ページ

0 KB

ページ数

0

総ページ数

単語数

0

総単語数

文字数

0

総文字数

ファイルサイズ

0 KB

PDFファイルサイズ

読了時間

0 min

推定読了時間

感情分析

中立

ネガティブ

ポジティブ

ドキュメントコンテンツ

完全なメタデータ抽出

プロパティ	値

ドキュメントを検索

大文字と小文字を区別完全一致のみ

テキスト統計

抽出された画像

キーフレーズとトピック

PDFを分析：メタデータ、テキスト、構造、セキュリティ情報を抽出

あらゆるPDFファイルに隠されたすべてを明らかにします。当社のPDF分析ツールは、ドキュメントメタデータ、埋め込みフォント、画像、注釈、フォームフィールド、セキュリティ設定を抽出します。電子書籍の検証、法務文書のレビュー、マルウェア検出、コンプライアンス監査に最適 – すべてサーバーにアップロードすることなく実行できます。

完全なメタデータ抽出

すべての標準およびカスタムメタデータフィールド（作成者、作成日、変更日、PDFプロデューサー、ソフトウェアバージョン、カスタムキー（文書ID、著作権、分類など））を表示します。PDFがいつ、どのように作成されたかを特定します。

作成者、タイトル、件名、キーワード
作成タイムスタンプと更新タイムスタンプ（タイムゾーンを含む）
カスタムXMPメタデータと隠しプロパティ

テキストとコンテンツの分析

位置情報付きでPDFからすべてのテキストを抽出します。単語数、文字数、フォント使用状況、読みやすさを分析します。テキストレイヤー（検索可能 vs スキャン済み）を検出します。隠しテキストや見えないテキストを識別します。

ページごとの内訳付きの完全なテキスト抽出
OCR品質とテキストレイヤーの存在を検出
見えないテキストや白地に白の隠しテキストをハイライト

抽出された画像

PDF内のすべての画像をリストアップ：形式（JPEG、PNG、CCITT）、解像度、色空間、圧縮レベル、サイズ。埋め込みビデオ、3Dオブジェクト、JavaScript、添付ファイルを検出 – セキュリティ監査に不可欠です。

画像数、寸法、DPI、圧縮タイプ
疑わしい埋め込みファイルやスクリプトを識別
画像をインラインで抽出およびプレビュー

フォントとタイポグラフィの詳細分析

ドキュメントで使用されているすべてのフォント（埋め込みフォント、サブセット、システムフォントを含む）を検出します。欠落しているフォント、フォントタイプ（TrueType、Type1、OpenType）、実際のテキストからフォントへのマッピングを確認します。

フォント名、タイプ、埋め込みステータスのリスト
フォント置換リスクを検出（印刷の信頼性向上のため）
フォントが完全に埋め込まれているか確認（アーカイブに適しています）

文書構造とナビゲーション

ブックマーク（アウトラインツリー）、ページラベル、論理ページ順序、記事スレッド、内部/外部リンクを分析します。ドキュメントの構成方法を理解 – 電子書籍の検証に不可欠です。

ブックマーク階層と対象ページ番号
壊れた内部リンクの検出
ページ遷移効果とプレゼンテーション設定

セキュリティと隠れたリスクの検出

暗号化、パスワード保護、権限フラグ（印刷、コピー、編集）を確認します。潜在的に悪意のある要素（JavaScript、起動アクション、埋め込みファイル、外部データを送信するフォーム）を検出します – ゼロトラストドキュメントワークフローに不可欠です。

暗号化レベル（AES-128/256）とパスワードの有無
疑わしいアクション（URI、JavaScript、SubmitForm）にフラグを立てる
PDF/A準拠とデジタル署名を識別

フォームフィールドと注釈の分析

すべてのインタラクティブなフォームフィールド（テキスト入力、チェックボックス、ラジオボタン、ドロップダウン、署名フィールド）を抽出します。フィールド名、デフォルト値、検証スクリプト、計算順序を表示します。

ページごとのすべてのフォームフィールドをカウントしてリスト化
非表示フィールドや事前入力されたデータを検出
注釈タイプ（付箋、ハイライト、スタンプ）を分析

ページ寸法と品質メトリクス

ページごとの詳細な統計情報（ページサイズ（例：A4、レター）、向き、回転、コンテンツの複雑さ、オブジェクト数、圧縮効率、ページごとの推定ファイルサイズ）を取得します。

ポイント、mm、インチ単位のページ寸法
異常に大きなページを識別（パフォーマンスの問題）
1つのドキュメント内の混合ページサイズを検出

文書比較（バージョン差分）

PDFの2つのバージョンをアップロードし、追加/削除されたテキスト、移動された画像、変更されたメタデータ、変更された注釈などの違いを即座に可視化します。契約レビューと改訂追跡に最適です。

テキストレベルの差分ハイライト（追加/削除/変更）
メタデータと構造の比較
比較レポートをJSONまたはHTMLとしてエクスポート

PDF分析のベストプラクティス

信頼できないソースからのPDFは、開く前に必ず分析してください。メタデータを使用してドキュメントの信頼性を検証します。電子書籍の場合は、テキストレイヤーの品質とフォントの埋め込みを確認します。法的文書の場合は、セキュリティ監査を実行して隠された編集を検出します。

疑わしいPDFをJavaScriptと起動アクションについてスキャン
長期アーカイブのためのPDF/A準拠を検証
改ざんを検出するために署名済みバージョンと未署名バージョンを比較
すべての機密データを特定するために、編集前に分析を使用

PDFを分析 › ドキュメントセキュリティと電子書籍検証の実用的なユースケース

PDF分析は単にプロパティを表示するだけではありません – それはセキュリティ、コンプライアンス、品質保証のツールです。電子書籍に隠されたマルウェアの検出から法務文書の検証まで、専門家がどのように当社のアナライザーを使用してワークフローを保護しているかを学びます。

電子書籍の品質とアクセシビリティを検証

電子書籍を公開する前に、そのテキストレイヤーを分析してすべてのコンテンツが検索可能であることを確認します。フォントが適切に埋め込まれているか（リーダーでの置換を回避）、ブックマークが章の見出しと一致しているか、画像の解像度が印刷可能であるかを検証します。

OCR変換からの隠れたテキストアーティファクトを特定し、読解の複雑さを測定し、欠落しているメタデータ（タイトル、作成者、ISBN）を検出します。クリーンな分析レポートは、デジタル製品が専門的な基準を満たしているという自信を与えます。

電子書籍がテキスト検索可能でスクリーンリーダーに対応していることを確認
配布前に欠落または破損したフォントを検出
すべての画像がDPI要件を満たしていることを検証
抽出されたメタデータでストアリストを改善

法務文書の検証とコンプライアンス監査

法律事務所やコンプライアンス担当者は、受信したPDFの整合性を検証する必要があります。メタデータを分析して作成日を確認し、隠された注釈や編集ミスを見つけ、改ざんの可能性を示す埋め込みJavaScriptや外部アクションを特定します。

比較ツールを使用して、契約書のバージョン間の変更を発見します。デジタル署名の有効性と証明書の詳細を確認します。文書の意味を変える可能性のある隠されたレイヤーや見えないテキストが存在しないことを確認します。

期待値に対する作成者と作成タイムスタンプを検証
編集ミスを検出（テキストはまだ存在するが隠されている）
正確な変更を確認するために2つのドラフトを比較
Adobeで開く前に疑わしいアクションにフラグを立てる

悪意のあるPDFやフィッシング攻撃からの保護

PDFはマルウェア、フィッシングリンク、ランサムウェアの一般的なベクターです。当社のアナライザーは、既知の悪意のあるパターン（JavaScriptエクスプロイト、外部プログラムを実行する起動アクション、埋め込み実行可能ファイル、不正サイトへの隠しハイパーリンク）をスキャンします。

ゼロトラストセキュリティポリシーでは、既知の送信者からのものであっても、すべての着信PDFを分析することを推奨しています。分析は完全にクライアント側で実行されるため（アップロードなし）、機密文書がコンピュータから離れることはありません。開く前にリスクスコアを取得します。

JavaScript、OpenAction、起動アクションを検出
埋め込みEXE、ZIP、スクリプトの添付ファイルを識別
注釈やフォーム内の疑わしいURLにフラグを立てる
既知のエクスプロイトパターンに基づくリスクスコアリング

長期アーカイブとPDF/A準拠チェック

博物館、図書館、企業アーカイブでは、長期保存のためにPDF/A（ISO 19005）が必要です。当社のツールは、PDFがPDF/A準拠（A-1、A-2、A-3バージョン）であるかどうかを識別し、準拠を破る機能（JavaScript、オーディオ/マルチメディア、欠落フォントなど）をリストします。

また、色空間情報を抽出し、透明のフラットニング問題をチェックし、すべてのフォントが埋め込まれていることを検証できます – これにより、100年後にドキュメントが同じように表示されることが保証されます。

PDF/A準拠レベルを検出（ある場合）
準拠していないすべての機能をリスト（例：フォーム、注釈）
埋め込みフォントとデバイスに依存しない色を検証
デジタル化プロジェクトや法務アーカイブに最適

PDFを分析した後、プレビューして読む、埋め込み画像を抽出する、またはコンテンツをテキストに変換することができます。共有する前に、ファイルサイズを縮小したり、ドキュメントを保護することもできます。

PDF分析・処理の関連ツール

これらの強力な抽出、最適化、変換ツールを使用して、PDF分析後のワークフローを強化します。

Frequently Asked Questions about PDF Analysis

PDF分析は実際に何を明らかにしますか？

PDF分析は、表示情報と隠し情報の両方を抽出します：メタデータ（作成者、作成日、ソフトウェア）、埋め込みフォントと画像、テキストレイヤー（見えないテキストを含む）、注釈、フォームフィールド、ブックマーク、リンク、セキュリティ設定（暗号化、権限）、JavaScript、埋め込みファイル、ページ形状。あなたが見ているものだけでなく、内部に正確に何があるかを教えます。

私のPDFはサーバーにアップロードされますか？プライバシーはどうなりますか？

いいえ。当社のPDFアナライザーは、WebAssemblyとローカルJavaScriptを使用してブラウザ内で完全に動作します。お客様のファイルはコンピュータから離れることはありません – アップロードなし、サーバー処理なし。これにより、機密文書や弁護士・依頼者の特権文書であっても、完全にプライベートで安全です。

パスワードで保護されたPDFを分析できますか？

はい、パスワードをお持ちの場合。分析中にPDFパスワードを入力すると、ツールはメタデータ、テキスト、構造を抽出するためにコンテンツをローカルで復号化します。パスワードがない暗号化ファイルについては、暗号化タイプと権限フラグを引き続き確認できます（コンテンツは読み取れません）。

マルウェア検出の精度はどのくらいですか？

当社のアナライザーは、PDF仕様に基づいて既知の悪意のあるパターン（JavaScript、AutoLaunch、埋め込み実行可能ファイル、URLリダイレクト、難読化コードなど）を識別します。完全なアンチウイルスではありませんが、一次リスク評価として機能します。ゼロデイエクスプロイトの場合は、専用のPDFサンドボックスと組み合わせてください。ただし、一般的な攻撃ベクトルの95％以上を捕捉します。

スキャンされた（画像のみの）PDFからテキストを抽出できますか？

当社の分析ツールは、ページにテキストレイヤー（検索可能）があるか、純粋に画像であるかを示します。画像のみのPDFの場合、OCRなしではテキストを抽出できません。ただし、ページの寸法、圧縮タイプ、テキスト抽出が利用できないことをお知らせします。変換には別の「OCR PDF」ツールを使用してください。

標準メタデータとXMPの違いは何ですか？

標準メタデータには、作成者、タイトル、作成日などの基本フィールドが含まれます。XMP（拡張可能メタデータプラットフォーム）は、よりリッチなデータ（編集履歴、著作権URL、カメラ設定、カスタムスキーマ）を保存できるXMLベースの標準です。当社のツールは両方を表示し、矛盾を強調表示します。

署名後にPDFが編集されたかどうかを検出できますか？

はい。PDFにデジタル署名がある場合、当社のアナライザーは署名の有効性、証明書の詳細、署名後に変更が加えられたかどうかを表示します。署名されていないPDFの場合は、当社のサイドバイサイド差分機能を使用して以前のバージョンと比較できます。また、不審なメタデータの変更（作成日より前の変更日など）にもフラグを立てます。

PDFの分析はファイルに何らかの影響を与えますか？

いいえ。分析は読み取り専用です。コンテンツの変更、フラット化、削除、改変は一切行いません。重要なオリジナルを破損のリスクなく安全に分析できます。出力はレポートであり、変更されたPDFではありません。

"見えないテキスト"とは何ですか？どのように見つけますか？

見えないテキストとは、PDFのコンテンツストリームに存在するが、完全な透明（alpha=0）、白い背景に白い色、または非常に小さいフォントサイズでレンダリングされるテキストです。悪意のある行為者は、検索エンジンやスクリーンリーダーをトリガーしながら、視覚的な検査からキーワードを隠すためにこれを使用します。当社のアナライザーは、透明度がゼロまたはレンダリングモードによって見えなくなっているテキストを強調表示します。

どのフォントが欠落しているか、または埋め込まれていないかを確認できますか？

もちろんです。フォント分析タブには、すべてのフォント参照がリスト表示されます。各フォントについて、名前（例：「ArialMT」）、タイプ（TrueType/Type1）、完全埋め込みまたはサブセット埋め込みの別、すべてのPDFリーダーが持つ標準ベースフォント（Courierなど）を使用しているかどうかが表示されます。欠落しているフォントは注意書きされ、それらは代替される可能性があり、レイアウトが崩れることがあります。

分析のためのファイルサイズ制限はありますか？

すべての処理はローカルで行われるため、制限はお使いのデバイスのメモリに依存します。最近のほとんどのコンピュータでは、最大500 MB、最大5,000ページのPDFを分析できます。非常に大きなファイルは数秒かかる場合があります。プログレスバーを提供しています。ファイルはアップロードされないため、サーバー側の制限はありません。

どのブラウザがクライアントサイドPDF分析をサポートしていますか？

Chrome、Firefox、Edge、Safari、Opera – WebAssemblyをサポートするすべての最新ブラウザ。Internet Explorerはサポートされていません。大きなPDFでの最高のパフォーマンスを得るには、ChromeまたはEdgeを使用してください。モバイルブラウザ（iOS Safari、Android Chrome）も動作しますが、メモリ制約のため非常に大きなファイルでは苦労する場合があります。

複数のPDFを一度に分析できますか？

はい。PDFのフォルダをドラッグアンドドロップすると、バッチ分析モードが各ファイルの要約レポートを生成します。これを使用して、JavaScript、欠落フォント、特定のメタデータを含むPDFをすばやく見つけます。バッチ結果は監査証跡のためにCSVとしてダウンロードできます。

分析における「フラット化された透明度」とはどういう意味ですか？

PDFが透明オブジェクト（影、フェード画像）を使用する場合、一部のソフトウェアはそれらを不透明な形状にフラット化します。これにより、視覚的なアーティファクトが発生する可能性があります。当社のアナライザーは、PDFにアクティブな透明度グループが含まれているか、またはフラット化されているかを検出し、プロフェッショナルな印刷のために透明度を保持するかどうかを決定するのに役立ちます。

分析レポートをエクスポートするにはどうすればよいですか？

分析後、詳細なレポートをJSON、HTML、またはCSV形式でエクスポートできます。レポートには、抽出されたすべてのデータ、セキュリティ警告、ファイルメトリクスが含まれます。これは、元のPDFコンテンツを公開せずに、ドキュメント作成、法的証拠開示、ITセキュリティチームとの共有に役立ちます。

{hub} にあるすべてのツールコレクションをご覧ください。

PDF 保護

圧縮PDF

PDF解析（オンライン）– 技術的な文書検査ツール Analyze PDF File

ページ数

単語数

文字数

ファイルサイズ

読了時間

感情分析

ドキュメントコンテンツ

完全なメタデータ抽出

ドキュメントを検索

テキスト統計

抽出された画像

キーフレーズとトピック

PDFの探索を続ける

PDFを分析：メタデータ、テキスト、構造、セキュリティ情報を抽出

完全なメタデータ抽出

テキストとコンテンツの分析

抽出された画像

フォントとタイポグラフィの詳細分析

文書構造とナビゲーション

セキュリティと隠れたリスクの検出

フォームフィールドと注釈の分析

ページ寸法と品質メトリクス

文書比較（バージョン差分）

PDF分析のベストプラクティス

PDFを分析 › ドキュメントセキュリティと電子書籍検証の実用的なユースケース

電子書籍の品質とアクセシビリティを検証

法務文書の検証とコンプライアンス監査

悪意のあるPDFやフィッシング攻撃からの保護

長期アーカイブとPDF/A準拠チェック

PDF分析・処理の関連ツール

Frequently Asked Questions about PDF Analysis

PDF分析は実際に何を明らかにしますか？

私のPDFはサーバーにアップロードされますか？プライバシーはどうなりますか？

パスワードで保護されたPDFを分析できますか？

マルウェア検出の精度はどのくらいですか？

スキャンされた（画像のみの）PDFからテキストを抽出できますか？

標準メタデータとXMPの違いは何ですか？

署名後にPDFが編集されたかどうかを検出できますか？

PDFの分析はファイルに何らかの影響を与えますか？

"見えないテキスト"とは何ですか？どのように見つけますか？

どのフォントが欠落しているか、または埋め込まれていないかを確認できますか？

分析のためのファイルサイズ制限はありますか？

どのブラウザがクライアントサイドPDF分析をサポートしていますか？

複数のPDFを一度に分析できますか？

分析における「フラット化された透明度」とはどういう意味ですか？

分析レポートをエクスポートするにはどうすればよいですか？

このトピックのその他のツール