PDFからExcelへの変換は、ドキュメントからテキストを抽出し、空間レイアウトを分析して行と列を検出し、構造化された.xlsxスプレッドシートを作成します。ツールは各ページ上のテキスト要素の配置を調べて表形式データを識別します。同じ水平線上の要素が1行となり、グループ間の一貫した間隔が列の境界を定義します。
抽出パイプラインはすべてブラウザ内で実行されます。PDF.jsがドキュメントを読み取り、x/y座標付きのテキストアイテムを返します。レイアウト分析コードがこれらのアイテムを位置に基づいて行と列にグループ化します。xlsxライブラリが検出された構造でスプレッドシートを作成します。明確な列間隔の整形された表では、検出精度は通常90%以上です。結合セルや不規則な間隔の複雑な表は、手動調整が必要な場合があります。
PDFからスプレッドシートに定期的に抽出されるデータ:
- 収益テーブルを含む財務諸表や四半期報告書
- 商品名、数量、価格を含む請求書の明細
- 大学ポータルからの成績表や学生記録
- 列に整理された仕様を含む製品カタログ
- 人口統計や経済データの表を含む政府統計レポート
クラウド型抽出サービスは、より高度なアルゴリズム(場合によってはAIを含む)を使用し、より複雑な表レイアウトに対応できます。その代償として、管理できないサーバーに財務諸表やクライアントデータをアップロードすることになります。規則的な列間隔の単純な表であれば、ブラウザベースの本ツールの抽出はクラウド品質に匹敵します。ネストされた表を含む複雑なレポートの場合は、スプレッドシートの出力を手動で調整する必要があるかもしれません。
PDFに表よりもテキストが多い場合は、PDFからWordの方が適しています。Excelへのデータ抽出後に、関連するページのみを残すために元のPDFを分割したり、アーカイブ前に圧縮することもできます。