המרת PDF ל-Excel מחלצת טקסט מהמסמך, מנתחת את הפריסה המרחבית לזיהוי שורות ועמודות, ויוצרת גיליון אלקטרוני .xlsx מובנה. הכלי מזהה נתונים טבלאיים על ידי בחינת מיקום אלמנטי הטקסט בכל עמוד. אלמנטים על אותו קו אופקי הופכים לשורה, ומרווחים עקביים בין קבוצות מגדירים גבולות עמודות.
צינור החילוץ רץ כולו בדפדפן. PDF.js קורא את המסמך ומחזיר פריטי טקסט עם קואורדינטות x/y. קוד ניתוח הפריסה שלנו מקבץ פריטים אלה לשורות ועמודות על בסיס מיקומם. ספריית xlsx יוצרת גיליון אלקטרוני עם המבנה שזוהה. לטבלאות מעוצבות היטב עם מרווחי עמודות ברורים, דיוק הזיהוי הוא בדרך כלל מעל 90%. טבלאות מורכבות עם תאים ממוזגים או מרווחים לא סדירים עשויות לדרוש התאמה ידנית.
נתונים שאנשים מחלצים באופן קבוע מ-PDF לגיליונות אלקטרוניים:
- דוחות כספיים ודוחות רבעוניים עם טבלאות הכנסות
- פריטי חשבוניות עם שמות מוצרים, כמויות ומחירים
- גליונות ציונים אקדמיים ורשומות סטודנטים מפורטלי אוניברסיטה
- קטלוגי מוצרים עם מפרטים מאורגנים בעמודות
- דוחות סטטיסטיים ממשלתיים עם טבלאות נתונים דמוגרפיים או כלכליים
שירותי חילוץ בענן משתמשים באלגוריתמים מתוחכמים יותר (לפעמים כולל AI) ויכולים להתמודד עם פריסות טבלאיות מבולגנות יותר. המחיר הוא העלאת הדוחות הכספיים או נתוני הלקוח שלך לשרת שאינו בשליטתך. לטבלאות פשוטות עם מרווחי עמודות רגילים, החילוץ מבוסס הדפדפן שלנו משתווה לאיכות ענן. לדוחות מורכבים עם טבלאות מקוננות, ייתכן שתצטרך לתקן את פלט הגיליון ידנית.
אם ה-PDF מכיל בעיקר טקסט ולא טבלאות, PDF ל-Word מתאים יותר. אחרי חילוץ נתונים ל-Excel, אולי תרצה לפצל את ה-PDF המקורי כדי לשמור רק את העמודים הרלוונטיים, או לדחוס אותו לפני ארכיון.
נסו גם PDF ל-Word, דחיסת PDF או פיצול PDF.