Konverzia PDF do Excelu extrahuje text z vášho dokumentu, analyzuje priestorové rozloženie na zistenie riadkov a stĺpcov a vytvorí štruktúrovanú tabuľku .xlsx. Nástroj identifikuje tabuľkové údaje tým, že skúma, ako sú textové prvky umiestnené na každej stránke. Prvky na tej istej vodorovnej čiare sa stanú riadkami a konzistentné rozstupy medzi skupinami vymedzujú hranice stĺpcov.
Extrakčné potrubie vedie úplne vo vašom prehliadač. PDF.js prečíta dokument a vráti textové položky so súradnicami x/y. Náš kód analýzy rozloženia zoskupuje tieto položky do riadkov a stĺpcov na základe ich pozície. Knižnica xlsx potom vytvorí tabuľku so zistenou štruktúrou. Pre dobre naformátované tabuľky s jasným rozostupom medzi stĺpcami je presnosť detekcie zvyčajne vyššia ako 90 %. Zložité tabuľky so zlúčenými bunkami alebo nepravidelnými medzerami môžu vyžadovať manuálne nastavenie.
Údaje, ktoré ľudia pravidelne extrahujú z PDF do tabuliek:
- Účtovné závierky a štvrťročné správy s tabuľkami výnosov
- Fakturačné riadkové položky s názvami produktov, množstvami a cenami
- Akademické známky a záznamy študentov z univerzitných portálov
- Katalógy produktov so špecifikáciami usporiadanými do stĺpcov
- Vládne štatistické správy s tabuľkami demografických alebo ekonomických údajov
Služby cloudovej extrakcie používajú sofistikovanejšie algoritmy (niekedy vrátane AI) a dokážu zvládnuť zložitejšie rozloženia tabuliek. Cenou je nahranie vašich účtovných uzávierok alebo klientskych údajov na server, ktorý nemáte pod kontrolou. V prípade jednoduchých tabuliek s pravidelnými medzerami medzi stĺpcami naša extrakcia založená na prehliadači zodpovedá kvalite cloudu. Pre zložité zostavy s vnorenými tabuľkami možno budete musieť upraviť výstup tabuľky manuálne.
Ak váš PDF obsahuje väčšinou text a nie tabuľky, PDF do Wordu je vhodnejšia. Po extrahovaní údajov do Excelu možno budete chcieť rozdeliť pôvodné PDF ponechať len príslušné strany, príp komprimovať to pred archiváciou.
Vyskusajte tiez PDF do Word, Komprimovať PDF alebo Rozdeliť PDF.