Konverzija PDF-a u Excel izvlači tekst iz vašeg dokumenta, analizira prostorni raspored kako bi otkrila retke i stupce i stvara strukturiranu proračunsku tablicu .xlsx. Alat identificira tablične podatke ispitujući kako su elementi teksta pozicionirani na svakoj stranici. Elementi na istoj vodoravnoj crti postaju red, a dosljedan razmak između grupa definira granice stupaca.
Cjevovod za ekstrakciju teče u potpunosti u vašem preglednik. PDF.js čita dokument i vraća tekstualne stavke s x/y koordinatama. Naš kod za analizu izgleda grupira te stavke u retke i stupce na temelju njihovih pozicija. Knjižnica xlsx zatim stvara proračunsku tablicu s otkrivenom strukturom. Za dobro oblikovane tablice s jasnim razmakom stupaca, točnost otkrivanja obično je iznad 90%. Složene tablice sa spojenim ćelijama ili nepravilnim razmacima možda će trebati ručno prilagoditi.
Podaci koje ljudi redovito izdvajaju iz PDF-ova u proračunske tablice:
- Financijska izvješća i tromjesečna izvješća s tablicama prihoda
- Stavke fakture s nazivima proizvoda, količinama i cijenama
- Liste s ocjenama i evidencija studenata sa sveučilišnih portala
- Katalozi proizvoda sa specifikacijama organizirani u stupce
- Vladina statistička izvješća s tablicama demografskih ili ekonomskih podataka
Usluge izdvajanja iz oblaka koriste sofisticiranije algoritme (ponekad uključujući AI) i mogu se nositi s neurednijim rasporedima tablica. Trošak je učitavanje vaših financijskih izvješća ili podataka o klijentima na poslužitelj koji ne kontrolirate. Za jednostavne tablice s pravilnim razmakom stupaca, naše izdvajanje temeljeno na pregledniku odgovara kvaliteti oblaka. Za složena izvješća s ugniježđenim tablicama, možda ćete morati ručno prilagoditi izlaz proračunske tablice.
Ako vaš PDF sadrži uglavnom tekst, a ne tablice, PDF u Word bolje pristaje. Nakon izdvajanja podataka u Excel, možda biste željeli podijelite izvorni PDF zadržati samo relevantne stranice, ili stisnuti ga prije arhiviranja.
Isprobajte i PDF do Word, Komprimirati PDF ili Podijeliti PDF.