Miért nem lehet szöveget kijelölni egy szkennelt PDF-ben?

Ha egy dokumentumot fizikailag beszkennelnek és PDF-ként mentik el, a szkenner az oldal lapos képét rögzíti - ugyanúgy, mintha fotót készítenénk. A kapott fájl nem tartalmaz tényleges szöveges karaktereket, csak betűkre emlékeztető pixeleket. Ezért ha bárhol a dokumentumra kattint, semmi sem jelölődik ki: nincs szöveges réteg, amelybe a kurzor belekapaszkodhatna.

Ez az egyik leggyakoribb PDF-bosszúság. A dokumentum tökéletesen olvashatónak tűnik a képernyőn, de lényegében egy PDF burkolóba ágyazott fénykép. Nem kereshet benne, nem másolhat belőle, és a képernyőolvasó sem képes értelmezni.

Mi az OCR, és hogyan javítja ezt?

Az OCR (Optical Character Recognition) olyan technológia, amely elemzi a szöveg képét, és tényleges, gépileg olvasható karakterekké alakítja. A szoftver megvizsgálja a betűk alakját, összehasonlítja azokat az ismert mintázatokkal, és létrehoz egy szöveges réteget, amelyet visszaágyaz a PDF-be.

Az OCR feldolgozás után egy kereshető, kijelölhető PDF-et kap - vizuálisan azonosat az eredetivel, de mostantól a kurzor képes szavakat kiemelni, a Ctrl+F megtalálhatja a kifejezéseket, és a másolás-beillesztés normálisan működik. A képernyőolvasók és az akadálymentességi eszközök is képesek olvasni.

Hogyan alkalmazzon OCR-t egy szkennelt PDF-re

Többféleképpen adhat OCR-t egy szkennelt PDF-hez, az ingyenes böngészős eszközöktől az asztali szoftverekig:

  • Konvertálja Word-be, majd mentse PDF-ként: A PDF-ből Word-be konvertálónk kinyeri a vizuális tartalmat és szerkeszthető Word dokumentummá alakítja. A Word-ben a szöveg teljesen kijelölhető lesz. Ezután megfelelő szöveges réteggel újra exportálhatja PDF-be.
  • Adobe Acrobat (fizetős): Az iparági szabvány eszköz. Nyissa meg a PDF-et, lépjen az Eszközök → Szkennelés & OCR → Szöveg felismerése menüpontra, és az Acrobat közvetlenül hozzáad egy szöveges réteget. Drága, de nagyon pontos.
  • Google Drive (ingyenes): Töltse fel a szkennelt PDF-et a Google Drive-ra, kattintson rá jobb gombbal, és válassza a "Megnyitás Google Dokumentumokkal" lehetőséget. A Google automatikusan futtatja az OCR-t, és megnyitja a szöveget egy Dokumentumok dokumentumban. Meglepően jól működik tiszta szkenneléseknél.
  • Tesseract OCR (ingyenes, nyílt forráskódú): Egy hatékony parancssoros OCR motor, amelyet sok alkalmazás használ. A legjobb fejlesztők vagy technikai felhasználók számára, akik ingyenes, önállóan hosztolt megoldást szeretnének.
  • Adobe Acrobat online (korlátozott ingyenes): Az Adobe korlátozott ingyenes OCR feldolgozást kínál online eszközein keresztül az előfizetés nélküli felhasználók számára.

Tippek a jobb OCR pontossághoz

Az OCR minősége nagymértékben függ az eredeti szkennelés minőségétől. Kövesse ezeket a tippeket a pontosság maximalizálásához:

  • Szkennelés 300 DPI vagy magasabb felbontáson: Az alacsony felbontású szkenneléseknél elmosódott karakterek keletkeznek, amelyeket az OCR motorok félreolvasnak. A 300 DPI a minimum; 600 DPI ideális kis betűméretű vagy részletes dokumentumokhoz.
  • Fekete-fehér használata szöveges dokumentumokhoz: A színes szkenneléseknél nagyobb a fájlméret, miközben nem javítja az OCR pontosságát egyszerű szövegnél. A fekete-fehér vagy szürkeárnyalatos elegendő a legtöbb dokumentumhoz.
  • Tartsa egyenesen az oldalakat: A dőlt vagy ferden befűzött oldalak összezavarják az OCR szoftvert. A legtöbb modern eszköz automatikusan javíthatja a dőlést, de az egyenes kezdés segít.
  • Kerülje a kávéfoltokat és smudge-okat: A dokumentum fizikai jelei karakterként kerülnek félreolvasásra. Ha lehetséges, tisztítsa meg az eredetit.
  • Ellenőrizze a kimenetet: Az OCR nem 100%-ig pontos. Mindig olvassa át az eredményt, különösen számokra, írásjelekre és kézzel írt részekre vonatkozóan.

OCR után: csökkentse a fájlméretet, ha szükséges

Az OCR feldolgozás néha növelheti a PDF fájlméretet, mivel egy rejtett szöveges réteget ad hozzá a meglévő képréteg tetejére. Ha a kapott fájl túl nagy, használja a PDF tömörítőnket a méret csökkentéséhez a vizuális minőség elvesztése nélkül.

Mi a teendő, ha az OCR nem ismeri fel helyesen a szöveget?

Az OCR pontossága az eredeti szkennelés minőségétől függ. Gyenge eredmények közösek ezekkel: nagyon kis betűméretek (8 pt alatt), kézzel írt szöveg, dekoratív vagy szokatlan betűtípusok, halvány tinta vagy 200 DPI alatti, alacsony minőségű szkenneléseknél. Ezekben az esetekben szükség lehet a kézi újragépelésre - vagy az eredeti dokumentum újraskennelésére magasabb minőségben az OCR ismételt futtatása előtt.