Scan လုပ်ထားသော PDF တွင် စာသားကို ဘာကြောင့် ရွေးချယ်၍မရနိုင်သနည်း?
စာရွက်စာတမ်းကို ကိုယ်တိုင်ဖတ်ပြီး Scan လုပ်ကာ PDF အနေဖြင့် သိမ်းဆည်းသောအခါ Scanner သည် စာမျက်နှာ၏ ပြားချပ်သောပုံ ကို ဓာတ်ပုံရိုက်သကဲ့သို့ ဖမ်းဆုပ်သည်။ ထွက်လာသော ဖိုင်တွင် တကယ့်စာလုံးများ မပါဝင်ဘဲ အက္ခရာပုံသဏ္ဍာန် ဖြစ်အောင် စီစဉ်ထားသော pixels များသာ ပါဝင်သည်။ ထို့ကြောင့် စာရွက်တွင် မည်သည့်နေရာကို နှိပ်သော်လည်း ဘာမျှ ရွေးချယ်မရသည်မှာ cursor ကိုင်ကိုင်ရန် စာသားအလွှာ မရှိသောကြောင့် ဖြစ်သည်။
ဤသည်မှာ PDF နှင့်ဆက်နွှယ်သော အဖြစ်အများဆုံး ပြဿနာများထဲမှ တစ်ခုဖြစ်သည်။ ဖတ်မှ ကောင်းမွန်ပုံ ဖေါ်ပြနေသော်လည်း PDF wrapper အတွင်း ထည့်သွင်းထားသော ဓာတ်ပုံ တစ်ပုံသာ ဖြစ်သည်။ ရှာဖွေ၍ မရ၊ ကူးယူ၍ မရ၊ screen reader ဖြင့် ဖတ်ရှုနိုင်ပြေလည်မှု မရှိ။
OCR ဆိုသည်မှာ အဘယ်နည်း? ဤပြဿနာကို မည်သို့ ဖြေရှင်းသနည်း?
OCR (Optical Character Recognition - အလင်းသုံး အက္ခရာမှတ်သားမှု) သည် စာသားပုံရိပ်ကို စစ်ဆေးပြီး စက်ဖတ်နိုင်သော အစစ်အမှန် အက္ခရာများအဖြစ် ပြောင်းလဲပေးသည့် နည်းပညာဖြစ်သည်။ ဆော့ဖ်ဝဲသည် အက္ခရာပုံသဏ္ဍာန်များကို ကြည့်ကာ သိရှိပြီးသော ပုံစံများနှင့် နှိုင်းယှဉ်ပြီး PDF ထဲတွင် ပြန်ထည့်သွင်းမည့် စာသားအလွှာ ထုတ်ပေးသည်။
OCR လုပ်ဆောင်ပြီးနောက် ရှာဖွေ နှင့် ရွေးချယ်နိုင်သော PDF တစ်ခုရရှိမည် - မူလနှင့် မျက်မြင်အတိုင်း တူညီသော်လည်း ယခု cursor ဖြင့် စကားလုံးများ မီးမောင်းထိုးနိုင်ပြီး Ctrl+F ဖြင့် ဝေါဟာရ ရှာနိုင်ကာ ကူးကပ်ခြင်း ပုံမှန်လုပ်ဆောင်နိုင်သည်။ Screen reader နှင့် accessibility ကိရိယာများလည်း ဖတ်ရှုနိုင်သည်။
Scan လုပ်ထားသော PDF တွင် OCR ကို ဘယ်လို အသုံးပြုမည်နည်း
Scan လုပ်ထားသော PDF တွင် OCR ထည့်သွင်းရန် နည်းလမ်းများစွာ ရှိသည်၊ အခမဲ့ browser ကိရိယာများ မှ desktop software အထိ:
- Word ဖိုင်သို့ ပြောင်းပြီး PDF အနေဖြင့် သိမ်းဆည်းပါ: ကျွန်ုပ်တို့၏ PDF မှ Word ပြောင်းစနစ် သည် မျက်မြင်အကြောင်းအရာကို ဆွဲထုတ်ပြီး တည်းဖြတ်နိုင်သော Word စာရွက်စာတမ်းအဖြစ် ပြောင်းလဲပေးသည်။ Word တွင် ဖတ်လျင် စာသားကို လုံးဝ ရွေးချယ်နိုင်သည်။ ထို့နောက် သင့်လျော်သော စာသားအလွှာပါသော PDF အဖြစ် ပြန် export ပြုလုပ်နိုင်သည်။
- Adobe Acrobat (ကြေးပေးရသည်): လုပ်ငန်းနယ်ပယ်၏ စံနှုန်းကိရိယာ။ PDF ကိုဖွင့်ပြီး Tools → Scan & OCR → Recognize Text သို့သွားပါ၊ Acrobat သည် စာသားအလွှာကို တိုက်ရိုက် ထည့်သွင်းပေးသည်။ ဈေးကြီးသော်လည်း တိကျမှုမြင့်မားသည်။
- Google Drive (အခမဲ့): Scan လုပ်ထားသော PDF ကို Google Drive သို့ upload တင်ပြီး ညာဖက်နှိပ်ကာ "Google Docs ဖြင့် ဖွင့်ပါ" ကို ရွေးချယ်ပါ။ Google သည် OCR ကို အလိုအလျောက် run ပြီး Docs စာရွက်တွင် စာသားကို ဖွင့်ပေးသည်။ ရှင်းလင်းသော scan များအတွက် အံ့ဩဖွယ်ကောင်းအောင် ကောင်းမွန်စွာ အလုပ်လုပ်သည်။
- Tesseract OCR (အခမဲ့၊ open-source): အပလီကေးရှင်းများစွာ သုံးသော စွမ်းအားမြင့် command-line OCR engine တစ်ခု။ အခမဲ့ self-hosted ဖြေရှင်းချက် လိုချင်သော developer များ သို့မဟုတ် နည်းပညာအသုံးပြုသူများအတွက် အကောင်းဆုံး။
- Adobe Acrobat online (ကန့်သတ်ချက်ပါ အခမဲ့): Adobe သည် စာရင်းသွင်းမှုမပါသော အသုံးပြုသူများအတွက် ၎င်းတို့၏ online ကိရိယာများ မှတစ်ဆင့် ကန့်သတ်ချက်ပါ အခမဲ့ OCR လုပ်ဆောင်မှု ပေးဆောင်သည်။
OCR တိကျမှု ပိုကောင်းသေချာရေးနည်းများ
OCR အရည်အသွေးသည် မူလ scan ၏ အရည်အသွေးပေါ် များစွာ မူတည်သည်။ တိကျမှုကို အများဆုံး ရရှိစေရန် ဤနည်းများကို လိုက်နာပါ:
- 300 DPI သို့မဟုတ် ပိုမြင့်ပြီး Scan လုပ်ပါ: ကြည်လင်ပြတ်သားမှု နိမ့်သော scan များသည် OCR engine မှ မှားဖတ်သော မည်ကဲ့သို့ အက္ခရာများ ထုတ်ပေးသည်။ 300 DPI သည် အနည်းဆုံး; 600 DPI သည် သေးငယ်သော စာလုံးများ သို့မဟုတ် အသေးစိတ်ပါသော စာရွက်စာတမ်းများအတွက် အကောင်းဆုံးဖြစ်သည်။
- စာသားစာရွက်စာတမ်းများအတွက် အနက်-အဖြူ သုံးပါ: အရောင်ရိုက်ကူးမှုသည် ရိုးရှင်းသော စာသား OCR တိကျမှုကို မတိုးတက်ဘဲ ဖိုင်ဆိုဒ်ကို တိုးစေသည်။ ဆာရွက်စာတမ်းအများစုအတွက် အနက်-အဖြူ သို့မဟုတ် grayscale ဆိုလုံလောက်သည်။
- စာမျက်နှာများကို တည့်မတ်အောင် ထားပါ: ယောင်းယမ်းနေသော သို့မဟုတ် ကောက်ငင်နေသော စာမျက်နှာများသည် OCR software ကို ရှုပ်ထွေးစေသည်။ ခေတ်မီ ကိရိယာအများစုသည် auto-deskew လုပ် နိုင်သော်လည်း စတင်တည့်မတ်ခြင်းသည် ကူညီသည်။
- ကော်ဖီကွက်ပြောင်များနှင့် ညစ်ညမ်းမှုများကို ရှောင်ပါ: စာရွက်တွင်ရှိသော ရုပ်ပိုင်းနိမိတ်များကို အက္ခရာများအဖြစ် မှားဖတ်သည်။ ဖြစ်နိုင်လျင် မူလ စာရွက်ကို သန့်ရှင်းပါ။
- ထွက်လာသောရလဒ်ကို စစ်ဆေးပါ: OCR သည် 100% တိကျမှု မရှိ။ ရလဒ်ကို အမြဲ ပြန်ဖတ်စစ်ဆေးပါ၊ အထူးသဖြင့် ဂဏန်းများ၊ အစပ်ပြုမှုနိမိတ်များ နှင့် လက်ရေးနှင့်ဆိုင်သော အပိုင်းများကို။
OCR ပြီးနောက်: လိုအပ်ပါက ဖိုင်ဆိုဒ် လျှော့ချပါ
OCR လုပ်ဆောင်မှုသည် ရှိပြီးသား ရုပ်ပုံအလွှာ၏ ထိပ်ပိုင်းတွင် ဝှက်ထားသော စာသားအလွှာ ထပ်ထည့်သောကြောင့် PDF ဖိုင်ဆိုဒ်ကို တစ်ခါတစ်ရံ တိုးစေနိုင်သည်။ ထွက်လာသော ဖိုင် ကြီးနေလျင် မျက်မြင်အရည်အသွေး မဆုံးရှုံးဘဲ ဆိုဒ်လျှော့ချရန် ကျွန်ုပ်တို့၏ PDF compression ကိရိယာ ကို အသုံးပြုပါ။
OCR မှ စာသားကို မှန်ကန်စွာ မမှတ်သားနိုင်ပါက မည်ကဲ့သို့ ပြုလုပ်မည်နည်း?
OCR တိကျမှုသည် မူလ scan အရည်အသွေးပေါ် မူတည်သည်။ အောက်ပါအခြေအနေများတွင် ရလဒ်ညံ့ဖျင်းမှုများ ဖြစ်တတ်သည်: အလွန်သေးငယ်သော font များ (8pt အောက်)၊ လက်ရေးသားများ၊ အလှဆင်ထားသော သို့မဟုတ် ပုံမမှန်သော font များ၊ ရောင်ဖျောင်ပြားသော မင်၊ သို့မဟုတ် 200 DPI အောက်ရှိသော အရည်အသွေးနိမ့်သော scan များ။ ဤကဲ့သို့ ကိစ္စများတွင် လက်ဖြင့် ပြန်ရိုက်ရန် လိုအပ်နိုင်သည် - သို့မဟုတ် OCR ကို ထပ်မံ run မပြုမီ မူလ စာရွက်ကို ပိုမြင့်သောအရည်အသွေးဖြင့် ထပ်မံ scan လုပ်ရန် လိုအပ်နိုင်သည်။
