Konverzija PDF-a u Excel izvlači tekst iz vašeg dokumenta, analizira prostorni raspored za detekciju redova i kolona te kreira strukturiranu .xlsx tabelu. Alat identificira tabelarne podatke ispitivanjem kako su tekstualni elementi pozicionirani na svakoj stranici. Elementi na istoj horizontalnoj liniji postaju red, a konzistentni razmaci između grupa definišu granice kolona.
Proces izvlačenja radi kompletno u vašem pregledniku. PDF.js čita dokument i vraća tekstualne stavke s x/y koordinatama. Naš kod za analizu rasporeda grupiše ove stavke u redove i kolone na osnovu njihovih pozicija. Biblioteka xlsx zatim kreira tabelu s detektiranom strukturom. Za dobro formatirane tabele s jasnim razmacima kolona preciznost detekcije je tipično iznad 90%. Složene tabele sa spojenim ćelijama ili nepravilnim razmacima mogu zahtijevati ručne ispravke.
Podaci koje ljudi redovno izvlače iz PDF-a u tabele:
- Finansijski izvještaji i kvartalni izvještaji s tabelama prihoda
- Stavke faktura s nazivima proizvoda, količinama i cijenama
- Akademske ocjene i zapisi studenata s univerzitetskih portala
- Katalozi proizvoda sa specifikacijama organiziranim u kolone
- Državni statistički izvještaji s demografskim ili ekonomskim tabelama podataka
Usluge izvlačenja u oblaku koriste sofisticiranije algoritme (ponekad uključujući AI) i mogu podnijeti neurednije rasporede tabela. Cijena je slanje vaših finansijskih izvještaja ili podataka klijenata na server koji ne kontrolišete. Za jednostavne tabele s pravilnim razmacima kolona naše izvlačenje u pregledniku odgovara kvalitetu oblaka. Za složene izvještaje s ugniježdenim tabelama možda ćete morati ručno korigirati izlaz.
Ako vaš PDF sadrži uglavnom tekst umjesto tabela, PDF u Word je bolji izbor. Nakon izvlačenja podataka u Excel možete podijeliti originalni PDF i zadržati samo relevantne stranice, ili ga komprimirati prije arhiviranja.
Isprobajte i PDF u Word, Komprimirati PDF ili Podijeliti PDF.