تبدیل PDF به اکسل متن را از سند شما استخراج می کند، طرح بندی فضایی را برای تشخیص سطرها و ستون ها تجزیه و تحلیل می کند و یک صفحه گسترده xlsx. ساختار یافته ایجاد می کند. این ابزار با بررسی نحوه قرارگیری عناصر متن در هر صفحه، داده های جدولی را شناسایی می کند. عناصر روی همان خط افقی به یک ردیف تبدیل می شوند و فاصله ثابت بین گروه ها مرزهای ستون را مشخص می کند.
خط لوله استخراج به طور کامل در شما اجرا می شود مرورگر. PDF.js سند را می خواند و موارد متنی را با مختصات x/y برمی گرداند. کد تحلیل چیدمان ما این موارد را بر اساس موقعیت آنها در ردیف ها و ستون ها گروه بندی می کند. سپس کتابخانه xlsx یک صفحه گسترده با ساختار شناسایی شده ایجاد می کند. برای جداول با فرمت خوب با فاصله ستون های واضح، دقت تشخیص معمولاً بالای 90٪ است. جداول پیچیده با سلول های ادغام شده یا فاصله نامنظم ممکن است نیاز به تنظیم دستی داشته باشند.
داده هایی که افراد به طور منظم از PDF به صفحات گسترده استخراج می کنند:
- صورت های مالی و گزارش های فصلی با جداول درآمد
- اقلام خط فاکتور با نام محصول، مقدار و قیمت
- برگه نمرات تحصیلی و سوابق دانشجویی از پورتال های دانشگاه
- کاتالوگ محصولات با مشخصاتی که در ستون ها سازماندهی شده اند
- گزارش های آماری دولتی با جداول اطلاعات جمعیتی یا اقتصادی
سرویسهای استخراج ابری از الگوریتمهای پیچیدهتری (گاهی از جمله هوش مصنوعی) استفاده میکنند و میتوانند طرحبندی جدولهای آشفتهتری را انجام دهند. هزینه بارگذاری صورتهای مالی یا دادههای مشتری در سروری است که کنترل آن را ندارید. برای جداول ساده با فاصله ستون های منظم، استخراج مبتنی بر مرورگر ما با کیفیت ابر مطابقت دارد. برای گزارش های پیچیده با جداول تو در تو، ممکن است لازم باشد خروجی صفحه گسترده را به صورت دستی تنظیم کنید.
اگر PDF شما بیشتر حاوی متن است نه جداول، PDF به Word تناسب بهتری دارد پس از استخراج داده ها در اکسل، ممکن است بخواهید PDF اصلی را تقسیم کنید برای نگه داشتن فقط صفحات مربوطه، یا آن را فشرده کنید قبل از بایگانی
PDF به Word، فشرده سازی PDF یا جدا سازی PDF را نیز امتحان کنید.