PDF 到 Excel 的轉換從檔案中提取文字,分析空間版面以檢測行和列,並建立結構化的 .xlsx 電子表格。該工具透過檢查文字元素在每個頁面上的位置來識別表格資料。同一水平線上的元素成為一行,組之間一致的間距定義了列邊界。
提取管道完全在瀏覽器中執行。 PDF.js 讀取檔案並返回帶有 x/y 座標的文字項。我們的版面分析程式碼根據這些專案的位置將它們分組為行和列。然後,xlsx 庫會建立一個包含檢測到的結構的電子表格。對於格式良好且列間距清晰的表格,檢測準確度通常高於 90%。具有合併單元格或不規則間距的複雜表格可能需要手動調整。
人們定期從 PDF 提取到電子表格的資料:
- 帶有收入表的財務報表和季度報告
- 包含產品名稱、數量和價格的發票行專案價格
- 大學入口網站的學業成績表和學生記錄
- 按列組織的規格產品目錄
- 帶有人口或經濟資料表的政府統計報告
雲端提取服務使用更復雜的演算法(有時包括人工智慧)並且可以處理更混亂的表格版面。成本是將您的財務報表或客戶資料上傳到您無法控制的伺服器。對於具有規則列間距的簡單表格,我們基於瀏覽器的提取與雲端品質相匹配。對於具有巢狀表格的複雜報告,您可能需要手動調整電子表格輸出。
如果您的 PDF 主要包含文字而不是表格,則 PDF 到 Word 更適合。將資料提取到 Excel 後,您可能需要 拆分原始 PDF 以僅保留相關頁面,或者 在存檔之前將其壓縮 。
您還可以嘗試 PDF 轉 Word、壓縮 PDF 或 拆分 PDF。