PDF 到 Excel 的转换从文档中提取文本,分析空间布局以检测行和列,并创建结构化的 .xlsx 电子表格。该工具通过检查文本元素在每个页面上的位置来识别表格数据。同一水平线上的元素成为一行,组之间一致的间距定义了列边界。
提取管道完全在浏览器中运行。 PDF.js 读取文档并返回带有 x/y 坐标的文本项。我们的布局分析代码根据这些项目的位置将它们分组为行和列。然后,xlsx 库会创建一个包含检测到的结构的电子表格。对于格式良好且列间距清晰的表格,检测准确度通常高于 90%。具有合并单元格或不规则间距的复杂表格可能需要手动调整。
人们定期从 PDF 提取到电子表格的数据:
- 带有收入表的财务报表和季度报告
- 包含产品名称、数量和价格的发票行项目价格
- 大学门户网站的学业成绩表和学生记录
- 按列组织的规格产品目录
- 带有人口或经济数据表的政府统计报告
云提取服务使用更复杂的算法(有时包括人工智能)并且可以处理更混乱的表格布局。成本是将您的财务报表或客户数据上传到您无法控制的服务器。对于具有规则列间距的简单表格,我们基于浏览器的提取与云质量相匹配。对于具有嵌套表格的复杂报告,您可能需要手动调整电子表格输出。
如果您的 PDF 主要包含文本而不是表格,则 PDF 到 Word 更适合。将数据提取到 Excel 后,您可能需要 拆分原始 PDF 以仅保留相关页面,或者 在存档之前将其压缩 。
您还可以尝试 PDF 转 Word、压缩 PDF 或 拆分 PDF。