PDF у Excel витягує текст із вашого документа, аналізує просторовий макет для виявлення рядків і стовпців і створює структуровану електронну таблицю .xlsx. Інструмент ідентифікує табличні дані, перевіряючи, як текстові елементи розташовані на кожній сторінці. Елементи на одній горизонтальній лінії перетворюються на рядок, а послідовний відстань між групами визначає межі стовпців.
Конвеєр вилучення повністю працює у вашому браузері. PDF.js читає документ і повертає текстові елементи з координатами x/y. Наш код аналізу макета групує ці елементи в рядки та стовпці на основі їх позицій. Потім бібліотека xlsx створює електронну таблицю з виявленою структурою. Для добре відформатованих таблиць із чітким інтервалом між стовпцями точність виявлення зазвичай перевищує 90%. Складні таблиці з об’єднаними клітинками або неправильними інтервалами можуть потребувати ручного коригування.
Дані, які люди регулярно витягують із PDF-файлів до електронних таблиць:
- Фінансові звіти та квартальні звіти з таблицями доходів
- Позиції рахунків із назвами продуктів, кількість і ціни
- Aакадемічні оцінки та записи студентів з університетських порталів
- Каталоги продуктів із специфікаціями, організованими в стовпці
- Урядові статистичні звіти з демографічними чи економічними даними tables
Служби вилучення з хмари використовують складніші алгоритми (іноді включають штучний інтелект) і можуть обробляти складні макети таблиць. Вартість - це завантаження ваших фінансових звітів або даних клієнта на сервер, який ви не контролюєте. Для простих таблиць із регулярним інтервалом у стовпцях наше видобування на основі браузера відповідає якості хмари. Для складних звітів із вкладеними таблицями вам може знадобитися налаштувати вивід електронної таблиці вручну.
Якщо ваш PDF містить здебільшого текст, а не таблиці, краще підійде PDF до Word. Після вилучення даних до Excel ви можете розділити оригінальний PDF, щоб зберегти лише відповідні сторінки, або стиснути його перед архівуванням.
Takozh sprobujte PDF у Word, Стиснути PDF abo Розділити PDF.