อัปเดต 8 เมษายน 2569·6 นาทีที่อ่าน

ข้อความใน PDF ที่สแกนไม่สามารถเลือกได้ - วิธีแก้ไขด้วย OCR

Q: ทำไมข้อความใน PDF ของฉันจึงไม่สามารถเลือกได้?

PDF ของคุณเป็นรูปภาพที่สแกน ไม่ใช่เอกสารที่มีชั้นข้อความฝังอยู่ เมื่อเอกสารกระดาษถูกสแกนและบันทึกเป็น PDF ผลลัพธ์โดยพื้นฐานคือรูปถ่ายของหน้า - พิกเซลที่มีรูปร่างเหมือนตัวอักษร แต่ไม่ใช่ข้อความจริง เพื่อให้เลือกได้ คุณต้องรัน OCR (การรู้จำอักขระด้วยแสง) เพื่อเพิ่มชั้นข้อความ

Q: มีวิธีฟรีในการทำให้ข้อความ PDF ที่สแกนเลือกได้ไหม?

ใช่ - Google Drive เสนอ OCR ฟรี : อัปโหลด PDF คลิกขวาและเปิดด้วย Google Docs Google รู้จำข้อความโดยอัตโนมัติ หรือตัวแปลง PDF เป็น Word ของเราจะดึงเนื้อหาออกเป็นเอกสารที่แก้ไขได้ สำหรับโซลูชันเดสก์ท็อปฟรีอย่างสมบูรณ์ Tesseract OCR คือโอเพนซอร์สและทรงพลังมาก

Q: OCR เปลี่ยนลักษณะของ PDF ไหม?

ไม่ - OCR เพิ่มชั้นข้อความที่มองไม่เห็น ด้านหลังรูปภาพที่มีอยู่ ลักษณะภาพของ PDF ยังคงเหมือนเดิมทุกประการ คุณเพียงได้รับความสามารถในการเลือก คัดลอก และค้นหาข้อความ ข้อยกเว้นเดียวคือหากคุณแปลงเป็น Word และส่งออกใหม่ ซึ่งอาจเกิดการเปลี่ยนแปลงการจัดรูปแบบเล็กน้อย

Q: OCR แม่นยำแค่ไหนสำหรับเอกสารที่สแกน?

OCR สมัยใหม่มี ความแม่นยำ 95-99% สำหรับเอกสารที่สแกนสะอาดและชัดเจน ที่ 300 DPI หรือสูงกว่า ความแม่นยำลดลงอย่างมีนัยสำคัญสำหรับการสแกนความละเอียดต่ำ ลายมือเขียน แบบอักษรผิดปกติ หรือหน้าที่มีความเสียหายทางกายภาพ ตรวจสอบผลลัพธ์เสมอก่อนใช้งานกับเอกสารสำคัญ

Q: ฉันสามารถทำให้ข้อความลายมือเขียนใน PDF เลือกได้ด้วย OCR ไหม?

OCR มาตรฐานทำงานได้ไม่ดีกับลายมือเขียน - มันออกแบบมาสำหรับข้อความที่พิมพ์และดีดพิมพ์ เครื่องมือการรู้จำลายมือเขียนเฉพาะทางมีอยู่แต่มีความแม่นยำต่ำกว่า OCR ข้อความที่พิมพ์มาก หากเอกสารมีทั้งสิ่งพิมพ์และลายมือเขียน OCR จะรู้จำส่วนที่พิมพ์ได้อย่างถูกต้อง แต่มีแนวโน้มที่จะอ่านผิดในส่วนลายมือเขียน

เปิด PDF ที่สแกนแล้วแต่ไม่สามารถไฮไลต์หรือคัดลอกข้อความได้? นี่คือ PDF ที่มีแต่รูปภาพโดยไม่มีชั้นข้อความ นี่คือสาเหตุและวิธีที่ OCR แก้ไขได้ทันที

ข้อความใน PDF ที่สแกนไม่สามารถเลือกได้ - วิธีแก้ไขด้วย OCR

ทำไมจึงไม่สามารถเลือกข้อความใน PDF ที่สแกนได้?

เมื่อเอกสารถูกสแกนทางกายภาพและบันทึกเป็น PDF เครื่องสแกนจะจับภาพแบนราบของหน้า - เหมือนกับการถ่ายรูป ไฟล์ที่ได้ไม่มีอักขระข้อความจริง มีเพียงพิกเซลที่จัดเรียงให้ดูเหมือนตัวอักษร นั่นคือเหตุผลว่าทำไมการคลิกที่ใดก็ตามในเอกสารจึงไม่เลือกสิ่งใด: ไม่มีชั้นข้อความให้เคอร์เซอร์จับ

นี่เป็นหนึ่งในความหงุดหงิดที่พบบ่อยที่สุดเกี่ยวกับ PDF เอกสารดูเหมือนอ่านได้อย่างสมบูรณ์แบบบนหน้าจอ แต่โดยพื้นฐานแล้วเป็นรูปถ่ายที่ฝังอยู่ใน PDF wrapper คุณไม่สามารถค้นหา คัดลอก หรือให้โปรแกรมอ่านหน้าจอวิเคราะห์ได้

OCR คืออะไรและแก้ไขปัญหานี้อย่างไร?

OCR (การรู้จำอักขระด้วยแสง) คือเทคโนโลยีที่วิเคราะห์ภาพของข้อความและแปลงเป็นอักขระจริงที่เครื่องอ่านได้ ซอฟต์แวร์จะดูที่รูปร่างของตัวอักษร เปรียบเทียบกับรูปแบบที่รู้จัก และส่งออกชั้นข้อความที่ฝังกลับเข้าไปใน PDF

หลังการประมวลผล OCR คุณจะได้ PDF ที่ค้นหาและเลือกได้ - มีลักษณะเหมือนต้นฉบับทุกประการ แต่ตอนนี้เคอร์เซอร์สามารถไฮไลต์คำ Ctrl+F สามารถค้นหาวลี และการคัดลอก-วางทำงานปกติ โปรแกรมอ่านหน้าจอและเครื่องมือการเข้าถึงก็อ่านได้เช่นกัน

วิธีใช้ OCR กับ PDF ที่สแกน

มีหลายวิธีในการเพิ่ม OCR ให้กับ PDF ที่สแกน ตั้งแต่เครื่องมือเบราว์เซอร์ฟรีไปจนถึงซอฟต์แวร์เดสก์ท็อป:

แปลงเป็น Word แล้วบันทึกเป็น PDF: ตัวแปลง PDF เป็น Word ของเราจะดึงเนื้อหาภาพและแปลงเป็นเอกสาร Word ที่แก้ไขได้ ใน Word ข้อความจะเลือกได้อย่างสมบูรณ์ จากนั้นคุณสามารถส่งออกกลับเป็น PDF ที่มีชั้นข้อความที่เหมาะสม
Adobe Acrobat (มีค่าใช้จ่าย): เครื่องมือมาตรฐานของอุตสาหกรรม เปิด PDF ไปที่ Tools → Scan & OCR → Recognize Text และ Acrobat จะเพิ่มชั้นข้อความโดยตรง ราคาแพงแต่มีความแม่นยำสูง
Google Drive (ฟรี): อัปโหลด PDF ที่สแกนไปยัง Google Drive คลิกขวา และเลือก "เปิดด้วย Google Docs" Google จะรัน OCR โดยอัตโนมัติและเปิดข้อความในเอกสาร Docs ทำงานได้ดีสำหรับการสแกนที่ชัดเจน
Tesseract OCR (ฟรี โอเพนซอร์ส): เครื่องมือ OCR แบบบรรทัดคำสั่งที่ทรงพลังซึ่งใช้โดยหลายแอป เหมาะสมที่สุดสำหรับนักพัฒนาหรือผู้ใช้ทางเทคนิคที่ต้องการโซลูชันแบบ self-hosted ฟรี
Adobe Acrobat ออนไลน์ (ฟรีจำกัด): Adobe เสนอการประมวลผล OCR ฟรีจำกัดผ่านเครื่องมือออนไลน์สำหรับผู้ใช้ที่ไม่มีการสมัครสมาชิก

เคล็ดลับเพื่อความแม่นยำ OCR ที่ดีขึ้น

คุณภาพ OCR ขึ้นอยู่กับคุณภาพของการสแกนต้นฉบับเป็นอย่างมาก ทำตามเคล็ดลับเหล่านี้เพื่อเพิ่มความแม่นยำสูงสุด:

สแกนที่ 300 DPI หรือสูงกว่า: การสแกนความละเอียดต่ำจะสร้างอักขระที่เบลอซึ่ง OCR engine อ่านผิด 300 DPI คือขั้นต่ำ; 600 DPI เหมาะสำหรับข้อความขนาดเล็กหรือเอกสารที่มีรายละเอียด
ใช้ขาวดำสำหรับเอกสารข้อความ: การสแกนสีจะเพิ่มขนาดไฟล์โดยไม่ปรับปรุงความแม่นยำ OCR สำหรับข้อความธรรมดา ขาวดำหรือระดับสีเทาเพียงพอสำหรับเอกสารส่วนใหญ่
รักษาหน้าให้ตรง: หน้าที่เอียงหรือบิดจะทำให้ซอฟต์แวร์ OCR สับสน เครื่องมือสมัยใหม่ส่วนใหญ่สามารถปรับให้ตรงอัตโนมัติ แต่การเริ่มต้นให้ตรงจะช่วยได้
หลีกเลี่ยงรอยกาแฟและคราบสกปรก: รอยทางกายภาพบนเอกสารจะถูกอ่านเป็นอักขระ ทำความสะอาดต้นฉบับหากเป็นไปได้
ตรวจสอบผลลัพธ์: OCR ไม่แม่นยำ 100% ตรวจสอบผลลัพธ์เสมอ โดยเฉพาะสำหรับตัวเลข เครื่องหมายวรรคตอน และส่วนที่เขียนด้วยมือ

หลังจาก OCR: ลดขนาดไฟล์หากจำเป็น

การประมวลผล OCR บางครั้งอาจเพิ่มขนาดไฟล์ PDF เพราะเพิ่มชั้นข้อความที่ซ่อนอยู่ด้านบนของชั้นรูปภาพที่มีอยู่ หากไฟล์ที่ได้มีขนาดใหญ่เกินไป ให้ใช้ ตัวบีบอัด PDF ของเราเพื่อลดขนาดโดยไม่สูญเสียคุณภาพภาพ

ถ้า OCR ไม่รู้จำข้อความอย่างถูกต้องจะทำอย่างไร?

ความแม่นยำของ OCR ขึ้นอยู่กับคุณภาพของการสแกนต้นฉบับ ผลลัพธ์ที่ไม่ดีพบบ่อยใน: แบบอักษรที่เล็กมาก (ต่ำกว่า 8pt) ข้อความลายมือเขียน แบบอักษรตกแต่งหรือผิดปกติ หมึกที่เลือนราง หรือการสแกนคุณภาพต่ำต่ำกว่า 200 DPI ในกรณีเหล่านี้ อาจจำเป็นต้องพิมพ์ใหม่ด้วยตนเอง - หรือสแกนต้นฉบับใหม่ด้วยคุณภาพที่สูงกว่าก่อนที่จะรัน OCR อีกครั้ง

PDFViz·ปรับปรุงแล้ว 8 เมษายน 2569

คำถามที่พบบ่อยNo. 05

No. 01ทำไมข้อความใน PDF ของฉันจึงไม่สามารถเลือกได้?

PDF ของคุณเป็นรูปภาพที่สแกน ไม่ใช่เอกสารที่มีชั้นข้อความฝังอยู่ เมื่อเอกสารกระดาษถูกสแกนและบันทึกเป็น PDF ผลลัพธ์โดยพื้นฐานคือรูปถ่ายของหน้า - พิกเซลที่มีรูปร่างเหมือนตัวอักษร แต่ไม่ใช่ข้อความจริง เพื่อให้เลือกได้ คุณต้องรัน OCR (การรู้จำอักขระด้วยแสง) เพื่อเพิ่มชั้นข้อความ

No. 02มีวิธีฟรีในการทำให้ข้อความ PDF ที่สแกนเลือกได้ไหม?

ใช่ - Google Drive เสนอ OCR ฟรี: อัปโหลด PDF คลิกขวาและเปิดด้วย Google Docs Google รู้จำข้อความโดยอัตโนมัติ หรือตัวแปลง PDF เป็น Word ของเราจะดึงเนื้อหาออกเป็นเอกสารที่แก้ไขได้ สำหรับโซลูชันเดสก์ท็อปฟรีอย่างสมบูรณ์ Tesseract OCR คือโอเพนซอร์สและทรงพลังมาก

No. 03OCR เปลี่ยนลักษณะของ PDF ไหม?

ไม่ - OCR เพิ่มชั้นข้อความที่มองไม่เห็นด้านหลังรูปภาพที่มีอยู่ ลักษณะภาพของ PDF ยังคงเหมือนเดิมทุกประการ คุณเพียงได้รับความสามารถในการเลือก คัดลอก และค้นหาข้อความ ข้อยกเว้นเดียวคือหากคุณแปลงเป็น Word และส่งออกใหม่ ซึ่งอาจเกิดการเปลี่ยนแปลงการจัดรูปแบบเล็กน้อย

No. 04OCR แม่นยำแค่ไหนสำหรับเอกสารที่สแกน?

OCR สมัยใหม่มีความแม่นยำ 95-99% สำหรับเอกสารที่สแกนสะอาดและชัดเจนที่ 300 DPI หรือสูงกว่า ความแม่นยำลดลงอย่างมีนัยสำคัญสำหรับการสแกนความละเอียดต่ำ ลายมือเขียน แบบอักษรผิดปกติ หรือหน้าที่มีความเสียหายทางกายภาพ ตรวจสอบผลลัพธ์เสมอก่อนใช้งานกับเอกสารสำคัญ

No. 05ฉันสามารถทำให้ข้อความลายมือเขียนใน PDF เลือกได้ด้วย OCR ไหม?

OCR มาตรฐานทำงานได้ไม่ดีกับลายมือเขียน - มันออกแบบมาสำหรับข้อความที่พิมพ์และดีดพิมพ์ เครื่องมือการรู้จำลายมือเขียนเฉพาะทางมีอยู่แต่มีความแม่นยำต่ำกว่า OCR ข้อความที่พิมพ์มาก หากเอกสารมีทั้งสิ่งพิมพ์และลายมือเขียน OCR จะรู้จำส่วนที่พิมพ์ได้อย่างถูกต้อง แต่มีแนวโน้มที่จะอ่านผิดในส่วนลายมือเขียน

บทความที่เกี่ยวข้องNo. 03

No. 01