# 扫描 PDF 文字无法选择 - 如何用 OCR 修复

> 打开扫描的 PDF 却无法高亮或复制文字？这是一个仅含图像、没有文字层的 PDF。了解原因以及如何用 OCR 即时修复。

- Source: https://pdfviz.com/zh/blog/scanned-pdf-text-not-selectable
- Language: zh
- Published: 2026-04-08
- Updated: 2026-04-08
- Reading time: 6 min
- Publisher: PDFviz (https://pdfviz.com)
- License: All rights reserved. Attribution required for excerpts.

---
## 为什么扫描的 PDF 中的文字无法选择？

当文件被**实体扫描**并保存为 PDF 时，扫描仪会捕获页面的平面图像--就像拍照一样。生成的文件不包含实际的文字字符，只有排列成字母形状的像素。这就是为什么在文档中点击任何地方都不会选中任何内容：没有可供光标抓取的文字层。

这是最常见的 PDF 使用问题之一。文档在屏幕上看起来完全可读，但本质上是嵌入在 PDF 包装中的照片。您无法搜索、复制，屏幕阅读器也无法解析它。

## 什么是 OCR，它如何解决这个问题？

**OCR（光学字符识别）**是一种分析文字图像并将其转换为实际机器可读字符的技术。软件查看字母形状，与已知图案进行比较，并输出嵌入回 PDF 的文字层。

经过 OCR 处理后，您将得到一个**可搜索、可选择的 PDF**--视觉上与原版完全相同，但现在光标可以高亮单词，Ctrl+F 可以查找短语，复制粘贴也正常工作。屏幕阅读器和无障碍工具也可以读取它。

## 如何对扫描的 PDF 应用 OCR

向扫描的 PDF 添加 OCR 有几种方法，从免费浏览器工具到桌面软件不等：

- **转换为 Word 再保存为 PDF：**我们的[PDF 转 Word 转换器](https://pdfviz.com/pdf-to-word)可提取视觉内容并将其转换为可编辑的 Word 文档。在 Word 中，文字完全可选择。然后您可以重新导出为具有适当文字层的 PDF。
- **Adobe Acrobat（付费）：**行业标准工具。打开 PDF，前往工具 → 扫描 &amp; OCR → 识别文字，Acrobat 会直接添加文字层。价格昂贵但准确度高。
- **Google Drive（免费）：**将扫描的 PDF 上传到 Google Drive，右键点击它，选择&quot;用 Google 文档打开&quot;。Google 会自动运行 OCR 并在 Docs 文档中打开文字。对于清晰的扫描效果出人意料地好。
- **Tesseract OCR（免费，开源）：**许多应用程序使用的强大命令行 OCR 引擎。最适合需要免费自托管解决方案的开发人员或技术用户。
- **Adobe Acrobat 在线（有限免费）：**Adobe 通过其在线工具为没有订阅的用户提供有限的免费 OCR 处理。

## 提高 OCR 准确度的技巧

OCR 质量在很大程度上取决于原始扫描的质量。遵循以下技巧以最大化准确度：

- **以 300 DPI 或更高分辨率扫描：**低分辨率扫描会产生模糊字符，OCR 引擎会误读。300 DPI 是最低要求；对于小字体或详细文件，600 DPI 是理想选择。
- **文字文件使用黑白扫描：**彩色扫描不会提高纯文字的 OCR 准确度，却会增加文件大小。对于大多数文件，黑白或灰度已经足够。
- **保持页面平直：**倾斜或歪斜的页面会使 OCR 软件混淆。大多数现代工具可以自动校正倾斜，但从一开始就保持平直会有所帮助。
- **避免咖啡渍和污点：**文件上的物理污迹会被误读为字符。如有可能，请清洁原件。
- **检查输出结果：**OCR 不是 100% 准确的。始终校对结果，尤其是数字、标点符号和手写部分。

## OCR 后：如有需要减小文件大小

OCR 处理有时会增加 PDF 文件大小，因为它在现有图像层之上添加了隐藏的文字层。如果生成的文件太大，请使用我们的[PDF 压缩工具](https://pdfviz.com/compress-pdf)在不损失视觉质量的情况下减小文件大小。

## 如果 OCR 无法正确识别文字怎么办？

OCR 准确度取决于原始扫描质量。**以下情况常见效果差：**非常小的字体（8pt 以下）、手写文字、装饰性或不常见字体、褪色墨水，或低于 200 DPI 的低质量扫描。在这些情况下，可能需要手动重新输入，或在再次运行 OCR 之前以更高质量重新扫描原始文件。

## FAQ

### 为什么 PDF 中的文字无法选择？

**您的 PDF 是扫描图像**，而不是带有嵌入文字层的文档。当纸质文件被扫描并保存为 PDF 时，结果本质上是页面的照片--像字母形状的像素，但不是实际文字。要使其可选择，您需要运行 OCR（光学字符识别）来添加文字层。

### 有免费方法使扫描的 PDF 文字可选择吗？

有 - **Google Drive 提供免费 OCR**：上传 PDF，右键点击并用 Google 文档打开。Google 会自动识别文字。此外，我们的 PDF 转 Word 转换器可将内容提取为可编辑文档。对于完全免费的桌面解决方案，Tesseract OCR 是开源且非常强大的工具。

### OCR 会改变 PDF 的外观吗？

**不会 - OCR 在现有图像后面添加了一个不可见的文字层**。PDF 的视觉外观保持完全相同。您只是获得了选择、复制和搜索文字的能力。唯一的例外是转换为 Word 并重新导出，此时可能会发生轻微的格式更改。

### OCR 对扫描文件的准确度如何？

现代 OCR 对**300 DPI 或更高分辨率的清晰扫描文件准确率为 95-99%**。对于低分辨率扫描、手写、不常见字体或物理损坏的页面，准确率会大幅下降。在用于重要文件之前，请务必校对输出结果。

### OCR 能使手写 PDF 文字可选择吗？

**标准 OCR 对手写的识别效果较差**--它是为印刷、打字文字设计的。专门的手写识别工具虽然存在，但准确度远不及印刷文字 OCR。如果文件中混有印刷和手写内容，OCR 会正确识别印刷部分，但手写部分很可能会识别错误。