Hvorfor kan du ikke velge tekst i en skannet PDF?

Når et dokument fysisk skannes og lagres som PDF, tar skanneren et flatt bilde av siden - akkurat som å ta et foto. Den resulterende filen inneholder ingen faktiske teksttegn, bare piksler arrangert til å se ut som bokstaver. Det er derfor et klikk et sted i dokumentet ikke velger noe: det finnes ingen tekstlag for markøren å gripe tak i.

Dette er en av de vanligste PDF-frustrasjonene. Dokumentet ser perfekt lesbart ut på skjermen, men det er i bunn og grunn et fotografi innebygd i en PDF-wrapper. Du kan ikke søke i det, kopiere fra det eller la en skjermleser tolke det.

Hva er OCR og hvordan løser det dette?

OCR (Optical Character Recognition) er en teknologi som analyserer bildet av tekst og konverterer det til faktiske, maskinlesbare tegn. Programvaren ser på bokstavenes former, sammenligner dem med kjente mønstre og produserer et tekstlag som legges tilbake inn i PDF-en.

Etter OCR-behandling får du en søkbar, markerbar PDF - visuelt identisk med originalen, men nå kan markøren markere ord, Ctrl+F kan finne fraser, og kopier-lim inn fungerer normalt. Skjermlesere og tilgjengelighetsverktøy kan også lese den.

Slik bruker du OCR på en skannet PDF

Det finnes flere måter å legge til OCR i en skannet PDF på, fra gratis nettleserverktøy til skrivebordsprogramvare:

  • Konverter til Word, lagre deretter som PDF: Vår PDF til Word-konverter trekker ut det visuelle innholdet og konverterer det til et redigerbart Word-dokument. I Word er teksten fullt markerbar. Du kan deretter re-eksportere til PDF med et korrekt tekstlag.
  • Adobe Acrobat (betalt): Bransjestandardverktøyet. Åpne PDF-en, gå til Verktøy → Skann & OCR → Gjenkjenn tekst, og Acrobat legger direkte til et tekstlag. Dyrt men meget nøyaktig.
  • Google Drive (gratis): Last opp den skannede PDF-en til Google Drive, høyreklikk på den og velg "Åpne med Google Docs." Google kjører automatisk OCR og åpner teksten i et Docs-dokument. Fungerer overraskende bra for rene skanninger.
  • Tesseract OCR (gratis, åpen kildekode): En kraftig kommandolinje-OCR-motor brukt av mange apper. Best for utviklere eller tekniske brukere som ønsker en gratis selvdriftet løsning.
  • Adobe Acrobat online (begrenset gratis): Adobe tilbyr begrenset gratis OCR-behandling via sine nettverktøy for brukere uten abonnement.

Tips for bedre OCR-nøyaktighet

OCR-kvalitet avhenger sterkt av kvaliteten på den originale skanningen. Følg disse tipsene for å maksimere nøyaktigheten:

  • Skann ved 300 DPI eller høyere: Skanninger med lavere oppløsning produserer uklare tegn som OCR-motorer leser feil. 300 DPI er minimum; 600 DPI er ideelt for liten tekst eller detaljerte dokumenter.
  • Bruk svart-hvitt for tekstdokumenter: Fargeskanninger øker filstørrelsen uten å forbedre OCR-nøyaktighet for ren tekst. Svart-hvitt eller gråtoner er tilstrekkelig for de fleste dokumenter.
  • Hold sidene rette: Skjeve eller vinklete sider forvirrer OCR-programvare. De fleste moderne verktøy kan auto-rette, men å starte rett hjelper.
  • Unngå kaffeflekker og flekker: Fysiske merker på dokumentet leses feil som tegn. Rengjør originalen om mulig.
  • Sjekk resultatet: OCR er ikke 100% nøyaktig. Korrekturles alltid resultatet, spesielt for tall, tegnsetting og håndskrevne avsnitt.

Etter OCR: reduser filstørrelse om nødvendig

OCR-behandling kan noen ganger øke PDF-filstørrelsen fordi det legger til et skjult tekstlag oppå det eksisterende bilderlaget. Hvis den resulterende filen er for stor, bruk vår PDF-kompressor for å redusere størrelsen uten å miste visuell kvalitet.

Hva om OCR ikke gjenkjenner teksten korrekt?

OCR-nøyaktighet avhenger av kvaliteten på den originale skanningen. Dårlige resultater er vanlige med: veldig små skrifttyper (under 8pt), håndskrevet tekst, dekorative eller uvanlige skrifttyper, falmet blekk eller skanninger av lav kvalitet under 200 DPI. I disse tilfellene kan manuell omskriving være nødvendig - eller å skanne originaldokumentet på nytt med høyere kvalitet før OCR kjøres igjen.