چرا نمی‌توانید متن را در یک PDF اسکن‌شده انتخاب کنید؟

وقتی یک سند به صورت فیزیکی اسکن می‌شود و به عنوان PDF ذخیره می‌شود، اسکنر یک تصویر مسطح از صفحه ضبط می‌کند - درست مثل گرفتن عکس. فایل حاصل هیچ کاراکتر متنی واقعی ندارد، فقط پیکسل‌هایی که شبیه حروف به نظر می‌رسند. به همین دلیل کلیک در هرجای سند چیزی انتخاب نمی‌کند: هیچ لایه متنی وجود ندارد که نشانگر بتواند به آن چنگ بزند.

این یکی از رایج‌ترین مشکلات PDF است. سند روی صفحه کاملاً خوانا به نظر می‌رسد، اما اساساً یک عکس است که درون یک پوشش PDF جاسازی شده. نمی‌توانید در آن جستجو کنید، از آن کپی بگیرید، یا اجازه دهید یک screen reader آن را تجزیه کند.

OCR چیست و چگونه این مشکل را برطرف می‌کند؟

OCR (Optical Character Recognition) فناوری است که تصویر متن را تجزیه و تحلیل می‌کند و آن را به کاراکترهای واقعی قابل خواندن توسط ماشین تبدیل می‌کند. نرم‌افزار اشکال حروف را بررسی می‌کند، آن‌ها را با الگوهای شناخته‌شده مقایسه می‌کند، و یک لایه متنی تولید می‌کند که به PDF برمی‌گردد.

پس از پردازش OCR، یک PDF قابل جستجو و انتخاب خواهید داشت - از نظر بصری یکسان با اصل، اما اکنون نشانگر می‌تواند کلمات را برجسته کند، Ctrl+F می‌تواند عبارات را پیدا کند، و کپی-پیست به طور عادی کار می‌کند. screen readerها و ابزارهای دسترس‌پذیری هم می‌توانند آن را بخوانند.

چگونه OCR را بر یک PDF اسکن‌شده اعمال کنیم

روش‌های مختلفی برای اضافه کردن OCR به یک PDF اسکن‌شده وجود دارد، از ابزارهای رایگان مرورگر تا نرم‌افزارهای دسکتاپ:

  • تبدیل به Word، سپس ذخیره به عنوان PDF: مبدل PDF به Word ما محتوای بصری را استخراج کرده و به یک سند Word قابل ویرایش تبدیل می‌کند. در Word، متن کاملاً قابل انتخاب است. سپس می‌توانید با یک لایه متنی مناسب دوباره به PDF صادر کنید.
  • Adobe Acrobat (پولی): ابزار استاندارد صنعت. PDF را باز کنید، به ابزارها → اسکن & OCR → شناسایی متن بروید، و Acrobat مستقیماً یک لایه متن اضافه می‌کند. گران اما بسیار دقیق.
  • Google Drive (رایگان): PDF اسکن‌شده خود را به Google Drive آپلود کنید، روی آن راست‌کلیک کنید و "باز کردن با Google Docs" را انتخاب کنید. Google به طور خودکار OCR اجرا می‌کند و متن را در یک سند Docs باز می‌کند. برای اسکن‌های تمیز به طرز شگفت‌انگیزی کار می‌کند.
  • Tesseract OCR (رایگان، متن‌باز): یک موتور OCR قوی خط فرمان که توسط بسیاری از برنامه‌ها استفاده می‌شود. بهترین گزینه برای توسعه‌دهندگان یا کاربران فنی که می‌خواهند یک راه‌حل رایگان خودمیزبان داشته باشند.
  • Adobe Acrobat online (رایگان محدود): Adobe پردازش OCR رایگان محدودی را از طریق ابزارهای آنلاین خود برای کاربران بدون اشتراک ارائه می‌دهد.

نکاتی برای دقت بهتر OCR

کیفیت OCR به شدت به کیفیت اسکن اصلی بستگی دارد. این نکات را دنبال کنید تا دقت را به حداکثر برسانید:

  • اسکن با 300 DPI یا بالاتر: اسکن‌های با وضوح پایین‌تر کاراکترهای مبهم تولید می‌کنند که موتورهای OCR اشتباه می‌خوانند. 300 DPI حداقل است؛ 600 DPI برای متن کوچک یا اسناد جزئیاتی ایده‌آل است.
  • استفاده از سیاه‌وسفید برای اسناد متنی: اسکن‌های رنگی حجم فایل را بدون بهبود دقت OCR برای متن ساده افزایش می‌دهند. سیاه‌وسفید یا خاکستری برای اکثر اسناد کافی است.
  • صفحات را مستقیم نگه دارید: صفحات کج یا چرخیده نرم‌افزار OCR را گیج می‌کنند. اکثر ابزارهای مدرن می‌توانند به طور خودکار تراز کنند، اما شروع مستقیم کمک می‌کند.
  • از لکه‌های قهوه و آلودگی‌ها دوری کنید: علامت‌های فیزیکی روی سند به عنوان کاراکتر اشتباه خوانده می‌شوند. اصل را در صورت امکان تمیز کنید.
  • خروجی را بررسی کنید: OCR 100٪ دقیق نیست. همیشه نتیجه را بررسی کنید، به خصوص برای اعداد، علائم نگارشی و بخش‌های دست‌نویس.

پس از OCR: در صورت نیاز حجم فایل را کاهش دهید

پردازش OCR گاهی می‌تواند حجم فایل PDF را افزایش دهد زیرا یک لایه متن پنهان بر روی لایه تصویر موجود اضافه می‌کند. اگر فایل حاصل بسیار بزرگ است، از فشرده‌ساز PDF ما استفاده کنید تا بدون از دست دادن کیفیت بصری، حجم را کاهش دهید.

اگر OCR متن را به درستی تشخیص ندهد چه باید کرد؟

دقت OCR به کیفیت اسکن اصلی بستگی دارد. نتایج ضعیف با این موارد رایج است: فونت‌های بسیار کوچک (زیر 8 نقطه)، متن دست‌نویس، فونت‌های تزئینی یا غیرمعمول، جوهر محو شده، یا اسکن‌های با کیفیت پایین زیر 200 DPI. در این موارد، تایپ مجدد دستی ممکن است ضروری باشد - یا اسکن مجدد سند اصلی با کیفیت بالاتر قبل از اجرای مجدد OCR.