Převod PDF do Excelu extrahuje text z vašeho dokumentu, analyzuje prostorové rozložení pro detekci řádků a sloupců a vytváří strukturovanou .xlsx tabulku. Nástroj identifikuje tabulková data zkoumáním, jak jsou textové elementy umístěny na každé stránce. Elementy na stejné horizontální linii se stanou řádkem a konzistentní mezery mezi skupinami definují hranice sloupců.
Extrakční proces běží kompletně ve vašem prohlížeči. PDF.js čte dokument a vrací textové položky s x/y souřadnicemi. Náš kód na analýzu rozložení seskupuje tyto položky do řádků a sloupců na základě jejich pozic. Knihovna xlsx pak vytvoří tabulku s detekovanou strukturou. Pro dobře formátované tabulky s jasnými mezerami sloupců je přesnost detekce typicky nad 90%. Komplexní tabulky se sloučenými buňkami nebo nepravidelným rozestupem mohou vyžadovat ruční úpravy.
Data, která lidé pravidelně extrahují z PDF do tabulek:
- Finanční výkazy a čtvrtletní zprávy s tabulkami příjmů
- Položky faktur s názvy produktů, množstvím a cenami
- Akademická hodnocení a záznamy studentů z univerzitních portálů
- Produktové katalogy se specifikacemi organizovanými ve sloupcích
- Státní statistické zprávy s demografickými nebo ekonomickými datovými tabulkami
Cloudové extrakční služby používají sofistikovanější algoritmy (někdy včetně AI) a dokáží zvládnout neuspořádanější rozložení tabulek. Cenou je nahrání vašich finančních výkazů nebo klientských dat na server, který nekontrolujete. Pro přímočaré tabulky s pravidelným rozestupem sloupců naše extrakce v prohlížeči odpovídá kvalitě cloudu. Pro komplexní zprávy s vnořenými tabulkami může být potřeba ručně upravit výstup.
Pokud váš PDF obsahuje hlavně text namísto tabulek, PDF do Wordu je lepší volba. Po extrakci dat do Excelu můžete rozdělit původní PDF a ponechat pouze relevantní stránky, nebo ho zkomprimovat před archivací.
Vyzkousejte take PDF do Wordu, Komprimovat PDF nebo Rozdělit PDF.