PDF sang Excel trích xuất văn bản từ tài liệu của bạn, phân tích bố cục không gian để phát hiện các hàng và cột và tạo bảng tính .xlsx có cấu trúc. Công cụ này xác định dữ liệu dạng bảng bằng cách kiểm tra cách các thành phần văn bản được định vị trên mỗi trang. Các phần tử trên cùng một đường ngang sẽ trở thành một hàng và khoảng cách nhất quán giữa các nhóm sẽ xác định ranh giới cột.
Đường dẫn trích xuất chạy hoàn toàn trong trình duyệt của bạn. PDF.js đọc tài liệu và trả về các mục văn bản có tọa độ x/y. Mã phân tích bố cục của chúng tôi nhóm các mục này thành hàng và cột dựa trên vị trí của chúng. Thư viện xlsx sau đó tạo một bảng tính có cấu trúc được phát hiện. Đối với các bảng được định dạng tốt với khoảng cách cột rõ ràng, độ chính xác phát hiện thường trên 90%. Các bảng phức tạp có các ô được hợp nhất hoặc khoảng cách không đều có thể cần điều chỉnh thủ công.
Dữ liệu mà mọi người thường xuyên trích xuất từ tệp PDF sang bảng tính:
- Báo cáo tài chính và báo cáo hàng quý với bảng doanh thu
- Các mục hàng hóa đơn có tên sản phẩm, số lượng và giá
- ABảng điểm học tập và hồ sơ sinh viên từ cổng thông tin đại học
- Danh mục sản phẩm với thông số kỹ thuật được sắp xếp theo cột
- Báo cáo thống kê chính phủ với các bảng dữ liệu nhân khẩu học hoặc kinh tế
Các dịch vụ trích xuất đám mây sử dụng phức tạp hơn các thuật toán (đôi khi bao gồm cả AI) và có thể xử lý các bố cục bảng lộn xộn hơn. Chi phí là tải báo cáo tài chính hoặc dữ liệu khách hàng của bạn lên máy chủ mà bạn không kiểm soát. Đối với các bảng đơn giản có khoảng cách cột đều đặn, tính năng trích xuất dựa trên trình duyệt của chúng tôi phù hợp với chất lượng đám mây. Đối với các báo cáo phức tạp có bảng lồng nhau, bạn có thể cần điều chỉnh đầu ra bảng tính theo cách thủ công.
Nếu tệp PDF của bạn chứa chủ yếu là văn bản thay vì bảng thì PDF sang Word sẽ phù hợp hơn. Sau khi trích xuất dữ liệu sang Excel, bạn có thể muốn tách PDF gốc để chỉ giữ lại các trang có liên quan hoặc nén nó trước khi lưu trữ.
Ban cung co the thu Chuyển PDF sang Word, Nén PDF hoac Tách file PDF.