為什麼掃描的 PDF 中的文字無法選取?

當文件被實體掃描並儲存為 PDF 時,掃描器會擷取頁面的平面影像--就像拍照一樣。產生的檔案不包含實際的文字字元,只有排列成字母形狀的像素。這就是為什麼在文件中點擊任何地方都不會選取任何內容:沒有可供游標抓取的文字層。

這是最常見的 PDF 使用問題之一。文件在螢幕上看起來完全可讀,但本質上是嵌入在 PDF 包裝中的照片。您無法搜尋、複製,螢幕閱讀器也無法解析它。

什麼是 OCR,它如何解決這個問題?

OCR(光學字元辨識)是一種分析文字影像並將其轉換為實際機器可讀字元的技術。軟體查看字母形狀,與已知圖案進行比較,並輸出嵌入回 PDF 的文字層。

經過 OCR 處理後,您將得到一個可搜尋、可選取的 PDF--視覺上與原版完全相同,但現在游標可以標示單詞,Ctrl+F 可以尋找片語,複製貼上也正常運作。螢幕閱讀器和無障礙工具也可以讀取它。

如何對掃描的 PDF 套用 OCR

向掃描的 PDF 新增 OCR 有幾種方法,從免費瀏覽器工具到桌面軟體不等:

  • 轉換為 Word 再儲存為 PDF:我們的PDF 轉 Word 轉換器可提取視覺內容並將其轉換為可編輯的 Word 文件。在 Word 中,文字完全可選取。然後您可以重新匯出為具有適當文字層的 PDF。
  • Adobe Acrobat(付費):業界標準工具。開啟 PDF,前往工具 → 掃描 & OCR → 辨識文字,Acrobat 會直接新增文字層。價格昂貴但準確度高。
  • Google Drive(免費):將掃描的 PDF 上傳至 Google Drive,右鍵點擊它,選擇"以 Google 文件開啟"。Google 會自動執行 OCR 並在 Docs 文件中開啟文字。對於清晰的掃描效果出人意料地好。
  • Tesseract OCR(免費,開源):許多應用程式使用的強大命令列 OCR 引擎。最適合需要免費自託管解決方案的開發人員或技術使用者。
  • Adobe Acrobat 線上(有限免費):Adobe 透過其線上工具為沒有訂閱的使用者提供有限的免費 OCR 處理。

提高 OCR 準確度的技巧

OCR 品質在很大程度上取決於原始掃描的品質。遵循以下技巧以最大化準確度:

  • 以 300 DPI 或更高解析度掃描:低解析度掃描會產生模糊字元,OCR 引擎會誤讀。300 DPI 是最低要求;對於小字體或詳細文件,600 DPI 是理想選擇。
  • 文字文件使用黑白掃描:彩色掃描不會提高純文字的 OCR 準確度,卻會增加檔案大小。對於大多數文件,黑白或灰階已經足夠。
  • 保持頁面平直:傾斜或歪斜的頁面會使 OCR 軟體混淆。大多數現代工具可以自動校正傾斜,但從一開始就保持平直會有所幫助。
  • 避免咖啡漬和污點:文件上的實體污跡會被誤讀為字元。如有可能,請清潔原件。
  • 檢查輸出結果:OCR 不是 100% 準確的。請務必校對結果,尤其是數字、標點符號和手寫部分。

OCR 後:如有需要縮減檔案大小

OCR 處理有時會增加 PDF 檔案大小,因為它在現有影像層之上新增了隱藏的文字層。如果產生的檔案太大,請使用我們的PDF 壓縮工具在不損失視覺品質的情況下縮減檔案大小。

如果 OCR 無法正確辨識文字怎麼辦?

OCR 準確度取決於原始掃描品質。以下情況常見效果差:非常小的字體(8pt 以下)、手寫文字、裝飾性或不常見字體、褪色墨水,或低於 200 DPI 的低品質掃描。在這些情況下,可能需要手動重新輸入,或在再次執行 OCR 之前以更高品質重新掃描原始文件。