# স্ক্যান করা PDF-এ টেক্সট সিলেক্ট হচ্ছে না - OCR দিয়ে কীভাবে ঠিক করবেন

> স্ক্যান করা PDF খুলেছেন কিন্তু টেক্সট হাইলাইট বা কপি করতে পারছেন না? এটি একটি image-only PDF যেখানে কোনো text layer নেই। কেন হয় এবং OCR কীভাবে এটি তাৎক্ষণিক ঠিক করে তা জানুন।

- Source: https://pdfviz.com/bn/blog/scanned-pdf-text-not-selectable
- Language: bn
- Published: 2026-04-08
- Updated: 2026-04-08
- Reading time: 6 min
- Publisher: PDFviz (https://pdfviz.com)
- License: All rights reserved. Attribution required for excerpts.

---
## স্ক্যান করা PDF-এ টেক্সট সিলেক্ট করা যায় না কেন?

যখন একটি ডকুমেন্ট **শারীরিকভাবে স্ক্যান** করা হয় এবং PDF হিসেবে সংরক্ষণ করা হয়, স্ক্যানার পৃষ্ঠার একটি flat image ক্যাপচার করে - ঠিক যেন একটি ছবি তোলা হচ্ছে। তৈরি ফাইলে কোনো প্রকৃত টেক্সট character নেই, শুধু pixels আছে যা অক্ষরের মতো দেখায়। সেজন্যই ডকুমেন্টে যেকোনো জায়গায় ক্লিক করলে কিছু সিলেক্ট হয় না: আপনার cursor ধরার জন্য কোনো text layer নেই।

এটি সবচেয়ে সাধারণ PDF সমস্যাগুলির একটি। ডকুমেন্টটি স্ক্রিনে সম্পূর্ণ পাঠযোগ্য দেখায়, কিন্তু এটি মূলত একটি PDF wrapper-এ এমবেড করা একটি ফটোগ্রাফ। আপনি এটি সার্চ করতে পারবেন না, এ থেকে কপি করতে পারবেন না, বা screen reader দিয়ে এটি parse করাতে পারবেন না।

## OCR কী এবং এটি কীভাবে সমস্যা সমাধান করে?

**OCR (Optical Character Recognition)** হল এমন একটি প্রযুক্তি যা টেক্সটের ছবি বিশ্লেষণ করে এবং তা প্রকৃত, machine-readable characters-এ রূপান্তরিত করে। সফটওয়্যার অক্ষরের আকৃতি দেখে, পরিচিত patterns-এর সাথে তুলনা করে, এবং একটি text layer আউটপুট করে যা PDF-এ ফিরে এমবেড হয়।

OCR processing-এর পরে, আপনি একটি **searchable, selectable PDF** পাবেন - দৃশ্যত মূলটির মতো অভিন্ন, কিন্তু এখন আপনার cursor শব্দ হাইলাইট করতে পারবে, Ctrl+F বাক্যাংশ খুঁজতে পারবে, এবং copy-paste স্বাভাবিকভাবে কাজ করবে। Screen reader এবং accessibility tools-ও এটি পড়তে পারবে।

## স্ক্যান করা PDF-এ OCR কীভাবে প্রয়োগ করবেন

স্ক্যান করা PDF-এ OCR যোগ করার বেশ কয়েকটি উপায় আছে, free browser tools থেকে শুরু করে desktop software পর্যন্ত:

- **Word-এ কনভার্ট করুন, তারপর PDF হিসেবে সেভ করুন:** আমাদের [PDF to Word converter](https://pdfviz.com/pdf-to-word) visual content বের করে একটি editable Word document-এ রূপান্তরিত করে। Word-এ আসার পরে টেক্সট সম্পূর্ণ সিলেক্টযোগ্য। তারপর proper text layer সহ PDF-এ re-export করতে পারবেন।
- **Adobe Acrobat (paid):** Industry-standard tool। PDF খুলুন, Tools → Scan &amp; OCR → Recognize Text-এ যান, এবং Acrobat সরাসরি text layer যোগ করে। ব্যয়বহুল কিন্তু অত্যন্ত নির্ভুল।
- **Google Drive (free):** আপনার স্ক্যান করা PDF Google Drive-এ আপলোড করুন, right-click করুন, এবং &quot;Open with Google Docs&quot; বেছে নিন। Google স্বয়ংক্রিয়ভাবে OCR চালায় এবং Docs document-এ টেক্সট খোলে। পরিষ্কার scans-এর জন্য চমৎকার কাজ করে।
- **Tesseract OCR (free, open-source):** অনেক apps দ্বারা ব্যবহৃত একটি শক্তিশালী command-line OCR engine। Developers বা technical users-দের জন্য সেরা যারা free self-hosted solution চান।
- **Adobe Acrobat online (limited free):** Adobe সাবস্ক্রিপশন ছাড়া users-দের জন্য তাদের online tools-এর মাধ্যমে সীমিত free OCR processing অফার করে।

## ভালো OCR accuracy-র জন্য টিপস

OCR-এর মান মূল স্ক্যানের মানের উপর ব্যাপকভাবে নির্ভরশীল। accuracy সর্বাধিক করতে এই টিপসগুলো অনুসরণ করুন:

- **300 DPI বা তার বেশিতে স্ক্যান করুন:** কম resolution-এর scans ঝাপসা characters তৈরি করে যা OCR engines ভুল পড়ে। 300 DPI হল ন্যূনতম; 600 DPI ছোট টেক্সট বা বিস্তারিত ডকুমেন্টের জন্য আদর্শ।
- **টেক্সট ডকুমেন্টের জন্য black-and-white ব্যবহার করুন:** Color scans plain text-এর জন্য OCR accuracy উন্নত না করেই file size বাড়ায়। বেশিরভাগ ডকুমেন্টের জন্য Black-and-white বা grayscale যথেষ্ট।
- **পৃষ্ঠা সোজা রাখুন:** Tilted বা skewed পৃষ্ঠা OCR software-কে বিভ্রান্ত করে। বেশিরভাগ আধুনিক tools auto-deskew করতে পারে, কিন্তু শুরু থেকে সোজা রাখা সাহায্য করে।
- **Coffee stains এবং smudges এড়িয়ে চলুন:** ডকুমেন্টের শারীরিক দাগগুলি characters হিসেবে ভুল পড়া হয়। সম্ভব হলে original পরিষ্কার করুন।
- **Output যাচাই করুন:** OCR ১০০% নির্ভুল নয়। সর্বদা ফলাফল proofread করুন, বিশেষ করে numbers, punctuation এবং handwritten অংশের জন্য।

## OCR-এর পরে: প্রয়োজনে file size কমান

OCR processing কখনো কখনো PDF file size বাড়াতে পারে কারণ এটি বিদ্যমান image layer-এর উপরে একটি hidden text layer যোগ করে। যদি আপনার ফলাফল ফাইল অনেক বড় হয়, visual quality না হারিয়ে size কমাতে আমাদের [PDF compressor](https://pdfviz.com/compress-pdf) ব্যবহার করুন।

## OCR যদি টেক্সট সঠিকভাবে চিনতে না পারে?

OCR accuracy মূল স্ক্যানের মানের উপর নির্ভর করে। **এই ক্ষেত্রে খারাপ ফলাফল সাধারণ:** খুব ছোট fonts (8pt-এর নিচে), handwritten text, decorative বা অস্বাভাবিক fonts, বিবর্ণ ink, বা 200 DPI-এর নিচে low-quality scans। এই ক্ষেত্রে, manual retyping প্রয়োজন হতে পারে - অথবা OCR আবার চালানোর আগে উচ্চ মানে original ডকুমেন্টটি পুনরায় স্ক্যান করুন।

## FAQ

### আমার PDF-এ টেক্সট সিলেক্ট হচ্ছে না কেন?

**আপনার PDF একটি scanned image**, embedded text layer সহ ডকুমেন্ট নয়। যখন কোনো paper ডকুমেন্ট স্ক্যান করা হয় এবং PDF হিসেবে সেভ করা হয়, ফলাফল হল মূলত পৃষ্ঠার একটি photograph - অক্ষরের আকৃতির pixels, কিন্তু প্রকৃত text নয়। এটি সিলেক্টযোগ্য করতে, text layer যোগ করতে OCR (Optical Character Recognition) চালাতে হবে।

### স্ক্যান করা PDF টেক্সট সিলেক্টযোগ্য করার কোনো free উপায় আছে?

হ্যাঁ - **Google Drive free OCR অফার করে**: PDF আপলোড করুন, right-click করুন, এবং Google Docs দিয়ে খুলুন। Google স্বয়ংক্রিয়ভাবে টেক্সট চেনে। বিকল্পভাবে, আমাদের PDF to Word converter বিষয়বস্তু একটি editable ডকুমেন্টে বের করে। সম্পূর্ণ free desktop solution-এর জন্য, Tesseract OCR open-source এবং অত্যন্ত শক্তিশালী।

### OCR কি PDF-এর দেখতে পরিবর্তন করে?

**না - OCR বিদ্যমান image-এর পেছনে একটি invisible text layer যোগ করে**। PDF-এর দৃশ্যমান চেহারা ঠিক একই থাকে। শুধু টেক্সট select, copy এবং search করার ক্ষমতা পাবেন। একমাত্র ব্যতিক্রম হল Word-এ convert করে re-export করা, যেখানে সামান্য formatting পরিবর্তন হতে পারে।

### স্ক্যান করা ডকুমেন্টে OCR কতটা নির্ভুল?

আধুনিক OCR **300 DPI বা তার বেশিতে clean, well-scanned ডকুমেন্টে 95-99% নির্ভুল**। Low-resolution scans, handwriting, unusual fonts, বা শারীরিক ক্ষতিসহ পৃষ্ঠার ক্ষেত্রে accuracy উল্লেখযোগ্যভাবে কমে যায়। গুরুত্বপূর্ণ ডকুমেন্টের জন্য নির্ভর করার আগে সর্বদা output proofread করুন।

### OCR দিয়ে কি handwritten PDF টেক্সট সিলেক্টযোগ্য করা যায়?

**Standard OCR handwriting-এ দুর্বল কাজ করে** - এটি printed, typed টেক্সটের জন্য ডিজাইন করা। Specialized handwriting recognition tools আছে কিন্তু printed-text OCR-এর চেয়ে অনেক কম নির্ভুল। ডকুমেন্টে mixed print এবং handwriting থাকলে, OCR printed অংশ সঠিকভাবে চিনবে কিন্তু সম্ভবত handwritten অংশ ভুল পড়বে।
