အပ်ဒိတ်ထားသည် ၂၀၂၆ ဧပြီ ၈·6 မိနစ် ဖတ်ရှုမှု

Scan လုပ်ထားသော PDF ရှိ စာသားကို ရွေးချယ်၍မရနိုင်ခြင်း - OCR ဖြင့် ပြင်ဆင်နည်း

Q: ကျွန်ုပ်၏ PDF ထဲတွင် ဘာကြောင့် စာသားကို ရွေးချယ်၍မရသနည်း?

သင့် PDF သည် Scan လုပ်ထားသော ရုပ်ပုံ ဖြစ်ပြီး ဝှက်ထားသော စာသားအလွှာပါသော စာရွက်စာတမ်း မဟုတ်ပါ။ ကဒ္ဒပတမ်းကို Scan လုပ်ပြီး PDF အနေဖြင့် သိမ်းဆည်းသောအခါ ရလဒ်မှာ ပင်မ စာမျက်နှာ၏ ဓာတ်ပုံ ဖြစ်သည် - အက္ခရာပုံသဏ္ဍာန်ရှိသော pixels များ ဖြစ်သော်လည်း တကယ့်စာသား မဟုတ်ပါ။ ရွေးချယ်နိုင်ရန် OCR (Optical Character Recognition) ကို run ပြီး စာသားအလွှာ ထည့်သွင်းရမည်။

Q: Scan လုပ်ထားသော PDF စာသားကို ရွေးချယ်နိုင်ရန် အခမဲ့ နည်းလမ်းရှိပါသလား?

ဟုတ်ပါသည် - Google Drive တွင် အခမဲ့ OCR ပေးဆောင်သည် : PDF ကို upload တင်ပြီး ညာဖက်နှိပ်ကာ Google Docs ဖြင့် ဖွင့်ပါ။ Google သည် စာသားကို အလိုအလျောက် မှတ်သားသည်။ ထို့အပြင် ကျွန်ုပ်တို့၏ PDF မှ Word ပြောင်းစနစ်သည် အကြောင်းအရာကို တည်းဖြတ်နိုင်သော စာရွက်စာတမ်းအဖြစ် ဆွဲထုတ်သည်။ လုံးဝ အခမဲ့ desktop ဖြေရှင်းချက်အတွက် Tesseract OCR သည် open-source ဖြစ်ပြီး အလွန်စွမ်းအားမြင့်သည်။

Q: OCR ဖြင့် PDF ထဲတွင် လက်ရေးသားများကို ရွေးချယ်နိုင်အောင် ပြုလုပ်နိုင်ပါသလား?

စံ OCR သည် လက်ရေးသားများတွင် ညံ့ဖျင်းစွာ ဆောင်ရွက်သည် - ၎င်းသည် နှိပ်ရိုက်ထားသော၊ ကိုယ်ကာ ရိုက်ထားသော စာသားအတွက် ဒီဇိုင်းထုတ်ထားသည်။ အထူးပြုလက်ရေးသားမှတ်သားမှု ကိရိယာများ ရှိသော်လည်း ရိုက်နှိပ်ထားသောနှင့် OCR ထက် တိကျမှုများစွာ နည်းသည်။ စာရွက်တွင် ရိုက်နှိပ်ထားသောနှင့် လက်ရေးများ ရောနှောပါနေပါက OCR သည် ရိုက်နှိပ်ထားသောအပိုင်းကို မှန်ကန်စွာ မှတ်သားနိုင်သော်လည်း လက်ရေးသားအပိုင်းကို မှားဖတ်ဖွယ်ရှိသည်။

Scan လုပ်ထားသော PDF ဖွင့်ပြီး စာသားကို မီးမောင်းထိုး သို့မဟုတ် ကူးယူ၍မရနိုင်ဘူးလား? ၎င်းသည် စာသားအလွှာမပါဘဲ ရုပ်ပုံသာပါသော PDF ဖြစ်သည်။ ဘာကြောင့်ဖြစ်ရသည်နှင့် OCR ဖြင့် ချက်ချင်းဖြေရှင်းနည်းကို ဆက်ဖတ်ပါ။

Scan လုပ်ထားသော PDF ရှိ စာသားကို ရွေးချယ်၍မရနိုင်ခြင်း - OCR ဖြင့် ပြင်ဆင်နည်း

Scan လုပ်ထားသော PDF တွင် စာသားကို ဘာကြောင့် ရွေးချယ်၍မရနိုင်သနည်း?

စာရွက်စာတမ်းကို ကိုယ်တိုင်ဖတ်ပြီး Scan လုပ်ကာ PDF အနေဖြင့် သိမ်းဆည်းသောအခါ Scanner သည် စာမျက်နှာ၏ ပြားချပ်သောပုံ ကို ဓာတ်ပုံရိုက်သကဲ့သို့ ဖမ်းဆုပ်သည်။ ထွက်လာသော ဖိုင်တွင် တကယ့်စာလုံးများ မပါဝင်ဘဲ အက္ခရာပုံသဏ္ဍာန် ဖြစ်အောင် စီစဉ်ထားသော pixels များသာ ပါဝင်သည်။ ထို့ကြောင့် စာရွက်တွင် မည်သည့်နေရာကို နှိပ်သော်လည်း ဘာမျှ ရွေးချယ်မရသည်မှာ cursor ကိုင်ကိုင်ရန် စာသားအလွှာ မရှိသောကြောင့် ဖြစ်သည်။

ဤသည်မှာ PDF နှင့်ဆက်နွှယ်သော အဖြစ်အများဆုံး ပြဿနာများထဲမှ တစ်ခုဖြစ်သည်။ ဖတ်မှ ကောင်းမွန်ပုံ ဖေါ်ပြနေသော်လည်း PDF wrapper အတွင်း ထည့်သွင်းထားသော ဓာတ်ပုံ တစ်ပုံသာ ဖြစ်သည်။ ရှာဖွေ၍ မရ၊ ကူးယူ၍ မရ၊ screen reader ဖြင့် ဖတ်ရှုနိုင်ပြေလည်မှု မရှိ။

OCR ဆိုသည်မှာ အဘယ်နည်း? ဤပြဿနာကို မည်သို့ ဖြေရှင်းသနည်း?

OCR (Optical Character Recognition - အလင်းသုံး အက္ခရာမှတ်သားမှု) သည် စာသားပုံရိပ်ကို စစ်ဆေးပြီး စက်ဖတ်နိုင်သော အစစ်အမှန် အက္ခရာများအဖြစ် ပြောင်းလဲပေးသည့် နည်းပညာဖြစ်သည်။ ဆော့ဖ်ဝဲသည် အက္ခရာပုံသဏ္ဍာန်များကို ကြည့်ကာ သိရှိပြီးသော ပုံစံများနှင့် နှိုင်းယှဉ်ပြီး PDF ထဲတွင် ပြန်ထည့်သွင်းမည့် စာသားအလွှာ ထုတ်ပေးသည်။

OCR လုပ်ဆောင်ပြီးနောက် ရှာဖွေ နှင့် ရွေးချယ်နိုင်သော PDF တစ်ခုရရှိမည် - မူလနှင့် မျက်မြင်အတိုင်း တူညီသော်လည်း ယခု cursor ဖြင့် စကားလုံးများ မီးမောင်းထိုးနိုင်ပြီး Ctrl+F ဖြင့် ဝေါဟာရ ရှာနိုင်ကာ ကူးကပ်ခြင်း ပုံမှန်လုပ်ဆောင်နိုင်သည်။ Screen reader နှင့် accessibility ကိရိယာများလည်း ဖတ်ရှုနိုင်သည်။

Scan လုပ်ထားသော PDF တွင် OCR ကို ဘယ်လို အသုံးပြုမည်နည်း

Scan လုပ်ထားသော PDF တွင် OCR ထည့်သွင်းရန် နည်းလမ်းများစွာ ရှိသည်၊ အခမဲ့ browser ကိရိယာများ မှ desktop software အထိ:

Word ဖိုင်သို့ ပြောင်းပြီး PDF အနေဖြင့် သိမ်းဆည်းပါ: ကျွန်ုပ်တို့၏ PDF မှ Word ပြောင်းစနစ် သည် မျက်မြင်အကြောင်းအရာကို ဆွဲထုတ်ပြီး တည်းဖြတ်နိုင်သော Word စာရွက်စာတမ်းအဖြစ် ပြောင်းလဲပေးသည်။ Word တွင် ဖတ်လျင် စာသားကို လုံးဝ ရွေးချယ်နိုင်သည်။ ထို့နောက် သင့်လျော်သော စာသားအလွှာပါသော PDF အဖြစ် ပြန် export ပြုလုပ်နိုင်သည်။
Adobe Acrobat (ကြေးပေးရသည်): လုပ်ငန်းနယ်ပယ်၏ စံနှုန်းကိရိယာ။ PDF ကိုဖွင့်ပြီး Tools → Scan & OCR → Recognize Text သို့သွားပါ၊ Acrobat သည် စာသားအလွှာကို တိုက်ရိုက် ထည့်သွင်းပေးသည်။ ဈေးကြီးသော်လည်း တိကျမှုမြင့်မားသည်။
Google Drive (အခမဲ့): Scan လုပ်ထားသော PDF ကို Google Drive သို့ upload တင်ပြီး ညာဖက်နှိပ်ကာ "Google Docs ဖြင့် ဖွင့်ပါ" ကို ရွေးချယ်ပါ။ Google သည် OCR ကို အလိုအလျောက် run ပြီး Docs စာရွက်တွင် စာသားကို ဖွင့်ပေးသည်။ ရှင်းလင်းသော scan များအတွက် အံ့ဩဖွယ်ကောင်းအောင် ကောင်းမွန်စွာ အလုပ်လုပ်သည်။
Tesseract OCR (အခမဲ့၊ open-source): အပလီကေးရှင်းများစွာ သုံးသော စွမ်းအားမြင့် command-line OCR engine တစ်ခု။ အခမဲ့ self-hosted ဖြေရှင်းချက် လိုချင်သော developer များ သို့မဟုတ် နည်းပညာအသုံးပြုသူများအတွက် အကောင်းဆုံး။
Adobe Acrobat online (ကန့်သတ်ချက်ပါ အခမဲ့): Adobe သည် စာရင်းသွင်းမှုမပါသော အသုံးပြုသူများအတွက် ၎င်းတို့၏ online ကိရိယာများ မှတစ်ဆင့် ကန့်သတ်ချက်ပါ အခမဲ့ OCR လုပ်ဆောင်မှု ပေးဆောင်သည်။

OCR တိကျမှု ပိုကောင်းသေချာရေးနည်းများ

OCR အရည်အသွေးသည် မူလ scan ၏ အရည်အသွေးပေါ် များစွာ မူတည်သည်။ တိကျမှုကို အများဆုံး ရရှိစေရန် ဤနည်းများကို လိုက်နာပါ:

300 DPI သို့မဟုတ် ပိုမြင့်ပြီး Scan လုပ်ပါ: ကြည်လင်ပြတ်သားမှု နိမ့်သော scan များသည် OCR engine မှ မှားဖတ်သော မည်ကဲ့သို့ အက္ခရာများ ထုတ်ပေးသည်။ 300 DPI သည် အနည်းဆုံး; 600 DPI သည် သေးငယ်သော စာလုံးများ သို့မဟုတ် အသေးစိတ်ပါသော စာရွက်စာတမ်းများအတွက် အကောင်းဆုံးဖြစ်သည်။
စာသားစာရွက်စာတမ်းများအတွက် အနက်-အဖြူ သုံးပါ: အရောင်ရိုက်ကူးမှုသည် ရိုးရှင်းသော စာသား OCR တိကျမှုကို မတိုးတက်ဘဲ ဖိုင်ဆိုဒ်ကို တိုးစေသည်။ ဆာရွက်စာတမ်းအများစုအတွက် အနက်-အဖြူ သို့မဟုတ် grayscale ဆိုလုံလောက်သည်။
စာမျက်နှာများကို တည့်မတ်အောင် ထားပါ: ယောင်းယမ်းနေသော သို့မဟုတ် ကောက်ငင်နေသော စာမျက်နှာများသည် OCR software ကို ရှုပ်ထွေးစေသည်။ ခေတ်မီ ကိရိယာအများစုသည် auto-deskew လုပ် နိုင်သော်လည်း စတင်တည့်မတ်ခြင်းသည် ကူညီသည်။
ကော်ဖီကွက်ပြောင်များနှင့် ညစ်ညမ်းမှုများကို ရှောင်ပါ: စာရွက်တွင်ရှိသော ရုပ်ပိုင်းနိမိတ်များကို အက္ခရာများအဖြစ် မှားဖတ်သည်။ ဖြစ်နိုင်လျင် မူလ စာရွက်ကို သန့်ရှင်းပါ။
ထွက်လာသောရလဒ်ကို စစ်ဆေးပါ: OCR သည် 100% တိကျမှု မရှိ။ ရလဒ်ကို အမြဲ ပြန်ဖတ်စစ်ဆေးပါ၊ အထူးသဖြင့် ဂဏန်းများ၊ အစပ်ပြုမှုနိမိတ်များ နှင့် လက်ရေးနှင့်ဆိုင်သော အပိုင်းများကို။

OCR ပြီးနောက်: လိုအပ်ပါက ဖိုင်ဆိုဒ် လျှော့ချပါ

OCR လုပ်ဆောင်မှုသည် ရှိပြီးသား ရုပ်ပုံအလွှာ၏ ထိပ်ပိုင်းတွင် ဝှက်ထားသော စာသားအလွှာ ထပ်ထည့်သောကြောင့် PDF ဖိုင်ဆိုဒ်ကို တစ်ခါတစ်ရံ တိုးစေနိုင်သည်။ ထွက်လာသော ဖိုင် ကြီးနေလျင် မျက်မြင်အရည်အသွေး မဆုံးရှုံးဘဲ ဆိုဒ်လျှော့ချရန် ကျွန်ုပ်တို့၏ PDF compression ကိရိယာ ကို အသုံးပြုပါ။

OCR မှ စာသားကို မှန်ကန်စွာ မမှတ်သားနိုင်ပါက မည်ကဲ့သို့ ပြုလုပ်မည်နည်း?

OCR တိကျမှုသည် မူလ scan အရည်အသွေးပေါ် မူတည်သည်။ အောက်ပါအခြေအနေများတွင် ရလဒ်ညံ့ဖျင်းမှုများ ဖြစ်တတ်သည်: အလွန်သေးငယ်သော font များ (8pt အောက်)၊ လက်ရေးသားများ၊ အလှဆင်ထားသော သို့မဟုတ် ပုံမမှန်သော font များ၊ ရောင်ဖျောင်ပြားသော မင်၊ သို့မဟုတ် 200 DPI အောက်ရှိသော အရည်အသွေးနိမ့်သော scan များ။ ဤကဲ့သို့ ကိစ္စများတွင် လက်ဖြင့် ပြန်ရိုက်ရန် လိုအပ်နိုင်သည် - သို့မဟုတ် OCR ကို ထပ်မံ run မပြုမီ မူလ စာရွက်ကို ပိုမြင့်သောအရည်အသွေးဖြင့် ထပ်မံ scan လုပ်ရန် လိုအပ်နိုင်သည်။

PDFViz·စစ်ဆေးပြီး ၂၀၂၆ ဧပြီ ၈

မကြာခဏ မေးလေ့ရှိသောမေးခွန်းများNo. 05

No. 01ကျွန်ုပ်၏ PDF ထဲတွင် ဘာကြောင့် စာသားကို ရွေးချယ်၍မရသနည်း?

သင့် PDF သည် Scan လုပ်ထားသော ရုပ်ပုံဖြစ်ပြီး ဝှက်ထားသော စာသားအလွှာပါသော စာရွက်စာတမ်း မဟုတ်ပါ။ ကဒ္ဒပတမ်းကို Scan လုပ်ပြီး PDF အနေဖြင့် သိမ်းဆည်းသောအခါ ရလဒ်မှာ ပင်မ စာမျက်နှာ၏ ဓာတ်ပုံ ဖြစ်သည် - အက္ခရာပုံသဏ္ဍာန်ရှိသော pixels များ ဖြစ်သော်လည်း တကယ့်စာသား မဟုတ်ပါ။ ရွေးချယ်နိုင်ရန် OCR (Optical Character Recognition) ကို run ပြီး စာသားအလွှာ ထည့်သွင်းရမည်။

No. 02Scan လုပ်ထားသော PDF စာသားကို ရွေးချယ်နိုင်ရန် အခမဲ့ နည်းလမ်းရှိပါသလား?

ဟုတ်ပါသည် - Google Drive တွင် အခမဲ့ OCR ပေးဆောင်သည်: PDF ကို upload တင်ပြီး ညာဖက်နှိပ်ကာ Google Docs ဖြင့် ဖွင့်ပါ။ Google သည် စာသားကို အလိုအလျောက် မှတ်သားသည်။ ထို့အပြင် ကျွန်ုပ်တို့၏ PDF မှ Word ပြောင်းစနစ်သည် အကြောင်းအရာကို တည်းဖြတ်နိုင်သော စာရွက်စာတမ်းအဖြစ် ဆွဲထုတ်သည်။ လုံးဝ အခမဲ့ desktop ဖြေရှင်းချက်အတွက် Tesseract OCR သည် open-source ဖြစ်ပြီး အလွန်စွမ်းအားမြင့်သည်။

No. 03OCR သည် PDF ၏ မျက်မြင်ပုံသဏ္ဍာန်ကို ပြောင်းလဲပါသလား?

မပြောင်းလဲပါ - OCR သည် ရှိပြီးသား ရုပ်ပုံ နောက်ဘက်တွင် မမြင်နိုင်သော စာသားအလွှာ ထည့်သွင်းသည်။ PDF ၏ မျက်မြင်ပုံသဏ္ဍာန် အတိအကျ တူညီနေသည်။ စာသားကို ရွေးချယ်၊ ကူးယူ နှင့် ရှာဖွေနိုင်သော စွမ်းရည်သာ ရရှိသည်။ ခြွင်းချက်တစ်ခုတည်းမှာ Word သို့ ပြောင်းပြီး ပြန် export ပြုလုပ်ရာတွင် format ပြောင်းလဲမှုများ ကြေးဖွင့်နိုင်သည်။

No. 04Scan လုပ်ထားသော စာရွက်စာတမ်းများတွင် OCR မည်မျှ တိကျသနည်း?

ခေတ်မီ OCR သည် 300 DPI သို့မဟုတ် ပိုမြင့်ပြီး သန့်ရှင်းကောင်းမွန်စွာ Scan လုပ်ထားသော စာရွက်စာတမ်းများတွင် 95-99% တိကျမှုရှိသည်။ ကြည်လင်ပြတ်သားမှုနည်းသော scan များ၊ လက်ရေးများ၊ ပုံမမှန်သော font များ သို့မဟုတ် ရုပ်ပိုင်းဆိုင်ရာ ပျက်စီးနေသော စာမျက်နှာများအတွက် တိကျမှု သိသိသာသာ ကျဆင်းသည်။ အရေးကြီးသော စာရွက်စာတမ်းများတွင် မသုံးမီ ရလဒ်ကို အမြဲ စစ်ဆေးပါ။

No. 05OCR ဖြင့် PDF ထဲတွင် လက်ရေးသားများကို ရွေးချယ်နိုင်အောင် ပြုလုပ်နိုင်ပါသလား?

စံ OCR သည် လက်ရေးသားများတွင် ညံ့ဖျင်းစွာ ဆောင်ရွက်သည် - ၎င်းသည် နှိပ်ရိုက်ထားသော၊ ကိုယ်ကာ ရိုက်ထားသော စာသားအတွက် ဒီဇိုင်းထုတ်ထားသည်။ အထူးပြုလက်ရေးသားမှတ်သားမှု ကိရိယာများ ရှိသော်လည်း ရိုက်နှိပ်ထားသောနှင့် OCR ထက် တိကျမှုများစွာ နည်းသည်။ စာရွက်တွင် ရိုက်နှိပ်ထားသောနှင့် လက်ရေးများ ရောနှောပါနေပါက OCR သည် ရိုက်နှိပ်ထားသောအပိုင်းကို မှန်ကန်စွာ မှတ်သားနိုင်သော်လည်း လက်ရေးသားအပိုင်းကို မှားဖတ်ဖွယ်ရှိသည်။

ဆက်စပ်ဆောင်းပါးများNo. 03

No. 01