Конверторът на PDF към Excel извлича текст от вашия документ, анализира пространственото оформление, за да открие редове и колони, и създава структурирана .xlsx електронна таблица. Инструментът идентифицира таблични данни, като изследва подредбата на текстовите елементи на всяка страница. Елементите на една и съща хоризонтална линия стават ред ипостоянното разстояние между групите определя границите на колоните.
Тръбопроводът за извличане работи изцяло във вашия браузър. PDF.js чете документа и връща текстови елементи с координати x/y. Нашият код за анализ на оформлението групира тези елементи в редове и колони въз основа на техните позиции. След това библиотеката xlsx създава електронна таблица с откритата структура. За добре форматирани таблици с ясно разстояние между колонитеточността обикновено надвишава 90%. Сложните таблици с обединени клетки или неправилно разстояние може да изискват ръчни корекции.
Данни, които хората редовно извличат от PDF файлове в електронни таблици:
- Финансови отчети и тримесечни обобщения с таблици на приходите
- Фактурни елементи с имена на артикули, количества и цени
- Академични справки и студентски досиета от университетски портали
- Продукт каталози със спецификации, организирани в колони
- Правителствени статистически отчети с таблици с демографски или икономически данни
Услугите за извличане в облак използват по-сложни алгоритми (понякога включващи AI) и могат да обработват по-малко структурирани таблици. Цената на това е качването на вашите финансови отчети или клиентски данни на сървър, който не контролирате. За прости таблици с редовно разстояние между колоните, нашето извличане, базирано на браузър, е с качество в облак. За сложни отчети с вложени таблици може да се наложи ръчно да коригирате резултата.
Ако вашият PDF съдържа предимно текст, а не таблици, PDF към Word ще работи по-добре. След като извлечете данните в Excel, можете да разделите оригиналния PDF, за да запазите само съответните страници, или да го компресирате преди архивиране.
Opitajte sashto PDF към Word, Компресирайте PDF ili Разделяне на PDF.