Конвертация PDF в Excel извлекает текст из вашего документа, анализирует пространственное расположение для обнаружения строк и столбцов и создаёт структурированную электронную таблицу .xlsx. Инструмент определяет табличные данные, исследуя расположение текстовых элементов на каждой странице. Элементы на одной горизонтальной линии становятся строкой, а постоянное расстояние между группами определяет границы столбцов.
Конвейер извлечения работает целиком в вашем браузере. PDF.js считывает документ и возвращает текстовые элементы с координатами x/y. Наш код анализа макета группирует эти элементы в строки и столбцы на основе их позиций. Библиотека xlsx затем создаёт электронную таблицу с обнаруженной структурой. Для хорошо отформатированных таблиц с чётким межстолбцовым расстоянием точность определения обычно превышает 90%. Сложные таблицы с объединёнными ячейками или нерегулярным расстоянием могут потребовать ручной корректировки.
Данные, которые люди регулярно извлекают из PDF в электронные таблицы:
- Финансовые отчёты и квартальные сводки с таблицами доходов
- Позиции счетов с наименованиями товаров, количеством и ценами
- Академические ведомости и студенческие записи с университетских порталов
- Каталоги продукции со спецификациями, организованными в столбцы
- Государственные статистические отчёты с демографическими или экономическими таблицами данных
Облачные сервисы извлечения используют более сложные алгоритмы (иногда включающие ИИ) и могут обрабатывать менее структурированные таблицы. Цена этого - загрузка ваших финансовых отчётов или клиентских данных на сервер, который вы не контролируете. Для простых таблиц с регулярным расстоянием между столбцами наше браузерное извлечение соответствует облачному качеству. Для сложных отчётов с вложенными таблицами может потребоваться ручная корректировка результата.
Если ваш PDF содержит в основном текст, а не таблицы, PDF в Word подойдёт лучше. После извлечения данных в Excel вы можете разделить исходный PDF для сохранения только релевантных страниц или сжать его перед архивированием.
Takze poprobujte PDF в Word, Сжать PDF ili Разделить PDF.