PDF’den Excel’e dönüştürme, belgenizden metni çıkarır, satır ve sütunları algılamak için uzamsal düzeni analiz eder ve yapılandırılmış bir .xlsx elektronik tablosu oluşturur. Araç, her sayfadaki metin öğelerinin nasıl konumlandırıldığını inceleyerek tablo verilerini tanımlar. Aynı yatay çizgideki öğeler bir satır olur ve gruplar arasındaki tutarlı aralıklar sütun sınırlarını tanımlar.
Çıkarma hattı tamamen tarayıcınızda çalışır. PDF.js belgeyi okur ve x/y koordinatlarıyla metin öğelerini döndürür. Düzen analiz kodumuz bu öğeleri konumlarına göre satır ve sütunlara gruplar. Xlsx kütüphanesi ardından algılanan yapıyla bir elektronik tablo oluşturur. Net sütun aralığına sahip iyi biçimlendirilmiş tablolar için algılama doğruluğu genellikle %90’ın üzerindedir. Birleştirilmiş hücreli veya düzensiz aralıklı karmaşık tablolar manuel ayarlama gerektirebilir.
İnsanların düzenli olarak PDF’lerden elektronik tablolara çıkardığı veriler:
- Gelir tabloları içeren mali tablolar ve üç aylık raporlar
- Ürün adları, miktarlar ve fiyatlarla fatura kalemleri
- Üniversite portallarından akademik not çizelgeleri ve öğrenci kayıtları
- Sütunlar halinde düzenlenmiş teknik özelliklerle ürün katalogları
- Demografik veya ekonomik veri tablolarıyla devlet istatistik raporları
Bulut çıkarma hizmetleri daha gelişmiş algoritmalar kullanır (bazen yapay zeka dahil) ve daha karmaşık tablo düzenlerini işleyebilir. Karşılığında mali tablolarınızı veya müşteri verilerinizi kontrol edemediğiniz bir sunucuya yüklersiniz. Düzenli sütun aralığına sahip basit tablolar için tarayıcı tabanlı çıkarmamız bulut kalitesiyle eşleşir. İç içe tablolu karmaşık raporlar için elektronik tablo çıktısını manuel olarak ayarlamanız gerekebilir.
PDF’niz tablolardan çok metin içeriyorsa, PDF’den Word’e daha uygun olacaktır. Verileri Excel’e çıkardıktan sonra yalnızca ilgili sayfaları tutmak için orijinal PDF’yi bölebilir veya arşivlemeden önce sıkıştırabilirsiniz.
Ayrica PDF’den Word’e, PDF Sıkıştır veya PDF Böl aracini deneyin.