Konwersja PDF na Excel wyodrebnia tekst z dokumentu, analizuje przestrzenny uklad w celu wykrycia wierszy i kolumn, a nastepnie tworzy ustrukturyzowany arkusz kalkulacyjny .xlsx. Narzedzie identyfikuje dane tabelaryczne, analizujac, jak elementy tekstowe sa rozmieszczone na kazdej stronie. Elementy na tej samej linii poziomej staja sie wierszem, a stale odstepy miedzy grupami definiuja granice kolumn.
Caly proces ekstrakcji odbywa sie w Twojej przegladarce. PDF.js odczytuje dokument i zwraca elementy tekstowe ze wspolrzednymi x/y. Nasz kod analizy ukladu grupuje te elementy w wiersze i kolumny na podstawie ich pozycji. Biblioteka xlsx nastepnie tworzy arkusz kalkulacyjny z wykryta struktura. Dla dobrze sformatowanych tabel z wyraznymi odstepami kolumn dokladnosc wykrywania wynosi zwykle ponad 90%. Zlozone tabele ze scalonymi komorkami lub nieregularnymi odstepami moga wymagac recznej korekty.
Dane, ktore ludzie regularnie wyodrebniaja z PDF do arkuszy kalkulacyjnych:
- Sprawozdania finansowe i raporty kwartalne z tabelami przychodow
- Pozycje faktur z nazwami produktow, ilosciami i cenami
- Karty ocen i dane studentow z portali uczelnianych
- Katalogi produktow ze specyfikacjami ulozonymi w kolumnach
- Rzadowe raporty statystyczne z danymi demograficznymi lub ekonomicznymi
Uslugi ekstrakcji w chmurze uzywaja bardziej zaawansowanych algorytmow (czasem wlacznie z AI) i radza sobie z bardziej nieregularnymi ukladami tabel. Kosztem jest przesylanie sprawozdan finansowych lub danych klientow na serwer, ktorego nie kontrolujesz. Dla prostych tabel z regularnymi odstepami kolumn nasze narzedzie w przegladarce dorownuje jakosci rozwiazaniom chmurowym. Dla zlozonych raportow z zagniezdzonymi tabelami moze byc konieczna reczna korekta wyjscia arkusza.
Jesli Twoj PDF zawiera glownie tekst, a nie tabele, PDF na Word bedzie lepszym wyborem. Po wyodrebnieniu danych do Excela mozesz chciec podzielic oryginalny PDF, aby zachowac tylko istotne strony, lub skompresowac go przed archiwizacja.
Wyprobuj takze PDF na Word, Kompresja PDF lub Podziel PDF.