Por que o texto do meu PDF não é selecionável?

O seu PDF é uma imagem digitalizada , não um documento com uma camada de texto incorporada. Quando um documento em papel é digitalizado e guardado como PDF, o resultado é essencialmente uma fotografia da página - píxeis com a forma de letras, mas não texto real. Para o tornar selecionável, precisa de executar OCR para adicionar uma camada de texto.

Existe alguma forma gratuita de tornar selecionável o texto de um PDF digitalizado?

Sim - o Google Drive oferece OCR gratuito : carregue o PDF, clique com o botão direito e abra com o Google Docs. O Google reconhece o texto automaticamente. Em alternativa, o nosso conversor de PDF para Word extrai o conteúdo para um documento editável. Para uma solução de secretária completamente gratuita, o Tesseract OCR é de código aberto e muito poderoso.

O OCR altera o aspeto do PDF?

Não - o OCR adiciona uma camada de texto invisível por trás da imagem existente. O aspeto visual do PDF mantém-se exatamente igual. Apenas ganha a capacidade de selecionar, copiar e pesquisar o texto. A única exceção é se converter para Word e reexportar, onde podem ocorrer pequenas alterações de formatação.

Qual é a precisão do OCR em documentos digitalizados?

O OCR moderno tem uma precisão de 95-99% em documentos limpos e bem digitalizados a 300 DPI ou mais. A precisão diminui significativamente para digitalizações de baixa resolução, escrita manual, fontes incomuns ou páginas com danos físicos. Reveja sempre o resultado antes de o utilizar em documentos importantes.

Consigo tornar texto manuscrito num PDF selecionável com OCR?

O OCR padrão funciona mal com escrita manual - foi concebido para texto impresso e dactilografado. Existem ferramentas especializadas de reconhecimento de escrita manual, mas são muito menos precisas do que o OCR para texto impresso. Se o documento tiver texto impresso e manuscrito misturados, o OCR reconhecerá corretamente as partes impressas, mas provavelmente lerá incorretamente as secções manuscritas.

O texto de um PDF digitalizado não é selecionável - Como corrigir com OCR

Por que não consegue selecionar texto num PDF digitalizado?

Quando um documento é fisicamente digitalizado e guardado como PDF, o scanner captura uma imagem plana da página - tal como tirar uma fotografia. O ficheiro resultante não contém caracteres de texto reais, apenas píxeis dispostos para parecerem letras. É por isso que clicar em qualquer parte do documento não seleciona nada: não existe uma camada de texto para o cursor agarrar.

Esta é uma das frustrações mais comuns com os PDF. O documento parece perfeitamente legível no ecrã, mas é essencialmente uma fotografia incorporada num contentor PDF. Não é possível pesquisar, copiar ou deixar que um leitor de ecrã o interprete.

O que é OCR e como resolve este problema?

OCR (Reconhecimento Ótico de Carateres) é uma tecnologia que analisa a imagem do texto e a converte em carateres reais legíveis por máquinas. O software examina as formas das letras, compara-as com padrões conhecidos e gera uma camada de texto que é reintegrada no PDF.

Após o processamento OCR, obtém um PDF pesquisável com texto selecionável - visualmente idêntico ao original, mas agora o cursor pode realçar palavras, Ctrl+F pode encontrar frases e copiar e colar funciona normalmente. Leitores de ecrã e ferramentas de acessibilidade também conseguem lê-lo.

Como aplicar OCR a um PDF digitalizado

Existem várias formas de adicionar OCR a um PDF digitalizado, desde ferramentas gratuitas no navegador até software de secretária:

Converter para Word e depois guardar como PDF: O nosso conversor de PDF para Word extrai o conteúdo visual e converte-o num documento Word editável. No Word, o texto fica completamente selecionável. Pode depois reexportar para PDF com uma camada de texto adequada.
Adobe Acrobat (pago): A ferramenta padrão da indústria. Abra o PDF, vá a Ferramentas → Digitalizar e OCR → Reconhecer Texto, e o Acrobat adiciona uma camada de texto diretamente. Caro, mas muito preciso.
Google Drive (gratuito): Carregue o seu PDF digitalizado para o Google Drive, clique com o botão direito e escolha "Abrir com Google Docs." O Google executa OCR automaticamente e abre o texto num documento Docs. Funciona surpreendentemente bem para digitalizações limpas.
Tesseract OCR (gratuito, código aberto): Um poderoso motor OCR de linha de comandos utilizado por muitas aplicações. Ideal para programadores ou utilizadores técnicos que pretendem uma solução gratuita auto-alojada.
Adobe Acrobat online (gratuito limitado): A Adobe oferece processamento OCR gratuito limitado através das suas ferramentas online para utilizadores sem subscrição.

Dicas para melhorar a precisão do OCR

A qualidade do OCR depende muito da qualidade da digitalização original. Siga estas dicas para maximizar a precisão:

Digitalize a 300 DPI ou mais: Digitalizações de baixa resolução produzem carateres desfocados que os motores OCR leem incorretamente. 300 DPI é o mínimo; 600 DPI é ideal para texto pequeno ou documentos detalhados.
Use preto e branco para documentos de texto: Digitalizações a cores aumentam o tamanho do ficheiro sem melhorar a precisão do OCR para texto simples. Preto e branco ou escala de cinzentos é suficiente para a maioria dos documentos.
Mantenha as páginas direitas: Páginas inclinadas ou tortas confundem o software OCR. A maioria das ferramentas modernas consegue corrigir automaticamente a inclinação, mas começar direito ajuda.
Evite manchas de café e sujidade: As marcas físicas no documento são lidas incorretamente como carateres. Limpe o original se possível.
Verifique o resultado: O OCR não é 100% preciso. Reveja sempre o resultado, especialmente para números, pontuação e secções manuscritas.

Após o OCR: reduza o tamanho do ficheiro se necessário

O processamento OCR pode por vezes aumentar o tamanho do ficheiro PDF porque adiciona uma camada de texto oculta sobre a camada de imagem existente. Se o ficheiro resultante for demasiado grande, utilize o nosso compressor de PDF para reduzir o tamanho sem perder qualidade visual.

E se o OCR não reconhecer o texto corretamente?

A precisão do OCR depende da qualidade da digitalização original. Os resultados deficientes são comuns com: fontes muito pequenas (abaixo de 8 pt), texto manuscrito, fontes decorativas ou incomuns, tinta desbotada ou digitalizações de baixa qualidade abaixo de 200 DPI. Nestes casos, pode ser necessária a redigitação manual - ou redigitalizar o documento original com maior qualidade antes de executar o OCR novamente.