Miért nem jelölhető ki a szöveg a PDF-emben?

A PDF-je egy szkennelt kép , nem beágyazott szöveges réteggel rendelkező dokumentum. Amikor egy papírdokumentumot beszkennelnek és PDF-ként mentenek, az eredmény lényegében az oldal fényképe - betű alakú pixelek, de nem tényleges szöveg. A kijelölhetővé tételhez OCR-t (Optical Character Recognition) kell futtatnia szöveges réteg hozzáadásához.

Van ingyenes módszer a szkennelt PDF szöveg kijelölhetővé tételére?

Igen - a Google Drive ingyenes OCR-t kínál : töltse fel a PDF-et, kattintson rá jobb gombbal, és nyissa meg a Google Dokumentumokkal. A Google automatikusan felismeri a szöveget. Alternatívaként a PDF-ből Word-be konvertálónk kinyeri a tartalmat egy szerkeszthető dokumentumba. Teljesen ingyenes asztali megoldásként a Tesseract OCR nyílt forráskódú és nagyon hatékony.

Az OCR megváltoztatja a PDF megjelenését?

Nem - az OCR egy láthatatlan szöveges réteget ad hozzá a meglévő kép mögé. A PDF vizuális megjelenése pontosan ugyanolyan marad. Csak a szöveg kijelölésének, másolásának és keresésének képességét nyeri el. Az egyetlen kivétel, ha Word-be konvertálja és újra exportálja, ahol kisebb formázási változások fordulhatnak elő.

Mennyire pontos az OCR szkennelt dokumentumokon?

A modern OCR 95-99%-os pontosságot ér el tiszta, jól szkennelt dokumentumokon 300 DPI vagy magasabb felbontáson. A pontosság jelentősen csökken alacsony felbontású szkenneléseknél, kézírásnál, szokatlan betűtípusoknál vagy fizikailag sérült oldalaknál. Fontos dokumentumokra támaszkodás előtt mindig olvassa át a kimenetet.

Kijelölhetővé tehetem-e a kézzel írt PDF szöveget OCR-rel?

A normál OCR rosszul teljesít kézíráson - nyomtatott, gépelt szövegre tervezték. Speciális kézírás-felismerő eszközök léteznek, de jóval kevésbé pontosak, mint a nyomtatott szöveg OCR-je. Ha a dokumentum kevert nyomtatott és kézírásos tartalmat tartalmaz, az OCR helyesen felismeri a nyomtatott részeket, de valószínűleg félreolvassa a kézírásos részeket.

Szkennelt PDF szöveg nem jelölhető ki - Hogyan javítható OCR-rel

Miért nem lehet szöveget kijelölni egy szkennelt PDF-ben?

Ha egy dokumentumot fizikailag beszkennelnek és PDF-ként mentik el, a szkenner az oldal lapos képét rögzíti - ugyanúgy, mintha fotót készítenénk. A kapott fájl nem tartalmaz tényleges szöveges karaktereket, csak betűkre emlékeztető pixeleket. Ezért ha bárhol a dokumentumra kattint, semmi sem jelölődik ki: nincs szöveges réteg, amelybe a kurzor belekapaszkodhatna.

Ez az egyik leggyakoribb PDF-bosszúság. A dokumentum tökéletesen olvashatónak tűnik a képernyőn, de lényegében egy PDF burkolóba ágyazott fénykép. Nem kereshet benne, nem másolhat belőle, és a képernyőolvasó sem képes értelmezni.

Mi az OCR, és hogyan javítja ezt?

Az OCR (Optical Character Recognition) olyan technológia, amely elemzi a szöveg képét, és tényleges, gépileg olvasható karakterekké alakítja. A szoftver megvizsgálja a betűk alakját, összehasonlítja azokat az ismert mintázatokkal, és létrehoz egy szöveges réteget, amelyet visszaágyaz a PDF-be.

Az OCR feldolgozás után egy kereshető, kijelölhető PDF-et kap - vizuálisan azonosat az eredetivel, de mostantól a kurzor képes szavakat kiemelni, a Ctrl+F megtalálhatja a kifejezéseket, és a másolás-beillesztés normálisan működik. A képernyőolvasók és az akadálymentességi eszközök is képesek olvasni.

Hogyan alkalmazzon OCR-t egy szkennelt PDF-re

Többféleképpen adhat OCR-t egy szkennelt PDF-hez, az ingyenes böngészős eszközöktől az asztali szoftverekig:

Konvertálja Word-be, majd mentse PDF-ként: A PDF-ből Word-be konvertálónk kinyeri a vizuális tartalmat és szerkeszthető Word dokumentummá alakítja. A Word-ben a szöveg teljesen kijelölhető lesz. Ezután megfelelő szöveges réteggel újra exportálhatja PDF-be.
Adobe Acrobat (fizetős): Az iparági szabvány eszköz. Nyissa meg a PDF-et, lépjen az Eszközök → Szkennelés & OCR → Szöveg felismerése menüpontra, és az Acrobat közvetlenül hozzáad egy szöveges réteget. Drága, de nagyon pontos.
Google Drive (ingyenes): Töltse fel a szkennelt PDF-et a Google Drive-ra, kattintson rá jobb gombbal, és válassza a "Megnyitás Google Dokumentumokkal" lehetőséget. A Google automatikusan futtatja az OCR-t, és megnyitja a szöveget egy Dokumentumok dokumentumban. Meglepően jól működik tiszta szkenneléseknél.
Tesseract OCR (ingyenes, nyílt forráskódú): Egy hatékony parancssoros OCR motor, amelyet sok alkalmazás használ. A legjobb fejlesztők vagy technikai felhasználók számára, akik ingyenes, önállóan hosztolt megoldást szeretnének.
Adobe Acrobat online (korlátozott ingyenes): Az Adobe korlátozott ingyenes OCR feldolgozást kínál online eszközein keresztül az előfizetés nélküli felhasználók számára.

Tippek a jobb OCR pontossághoz

Az OCR minősége nagymértékben függ az eredeti szkennelés minőségétől. Kövesse ezeket a tippeket a pontosság maximalizálásához:

Szkennelés 300 DPI vagy magasabb felbontáson: Az alacsony felbontású szkenneléseknél elmosódott karakterek keletkeznek, amelyeket az OCR motorok félreolvasnak. A 300 DPI a minimum; 600 DPI ideális kis betűméretű vagy részletes dokumentumokhoz.
Fekete-fehér használata szöveges dokumentumokhoz: A színes szkenneléseknél nagyobb a fájlméret, miközben nem javítja az OCR pontosságát egyszerű szövegnél. A fekete-fehér vagy szürkeárnyalatos elegendő a legtöbb dokumentumhoz.
Tartsa egyenesen az oldalakat: A dőlt vagy ferden befűzött oldalak összezavarják az OCR szoftvert. A legtöbb modern eszköz automatikusan javíthatja a dőlést, de az egyenes kezdés segít.
Kerülje a kávéfoltokat és smudge-okat: A dokumentum fizikai jelei karakterként kerülnek félreolvasásra. Ha lehetséges, tisztítsa meg az eredetit.
Ellenőrizze a kimenetet: Az OCR nem 100%-ig pontos. Mindig olvassa át az eredményt, különösen számokra, írásjelekre és kézzel írt részekre vonatkozóan.

OCR után: csökkentse a fájlméretet, ha szükséges

Az OCR feldolgozás néha növelheti a PDF fájlméretet, mivel egy rejtett szöveges réteget ad hozzá a meglévő képréteg tetejére. Ha a kapott fájl túl nagy, használja a PDF tömörítőnket a méret csökkentéséhez a vizuális minőség elvesztése nélkül.

Mi a teendő, ha az OCR nem ismeri fel helyesen a szöveget?

Az OCR pontossága az eredeti szkennelés minőségétől függ. Gyenge eredmények közösek ezekkel: nagyon kis betűméretek (8 pt alatt), kézzel írt szöveg, dekoratív vagy szokatlan betűtípusok, halvány tinta vagy 200 DPI alatti, alacsony minőségű szkenneléseknél. Ezekben az esetekben szükség lehet a kézi újragépelésre - vagy az eredeti dokumentum újraskennelésére magasabb minőségben az OCR ismételt futtatása előtt.