PDF를 Excel로 변환하면 문서에서 텍스트를 추출하고 공간 레이아웃을 분석하여 행과 열을 감지하고 구조화된 .xlsx 스프레드시트를 만듭니다. 이 도구는 텍스트 요소가 각 페이지에 배치되는 방식을 검사하여 표 형식 데이터를 식별합니다. 동일한 수평선에 있는 요소는 행이 되며, 그룹 간의 일관된 간격으로 열 경계가 정의됩니다.
추출 파이프라인은 전적으로 브라우저에서 실행됩니다. PDF.js는 문서를 읽고 x/y 좌표가 있는 텍스트 항목을 반환합니다. 레이아웃 분석 코드는 이러한 항목을 위치에 따라 행과 열로 그룹화합니다. 그런 다음 xlsx 라이브러리는 감지된 구조로 스프레드시트를 생성합니다. 열 간격이 명확하고 형식이 잘 지정된 테이블의 경우 감지 정확도는 일반적으로 90% 이상입니다. 셀이 병합되었거나 간격이 불규칙한 복잡한 테이블은 수동 조정이 필요할 수 있습니다.
사람들이 정기적으로 PDF에서 스프레드시트로 추출하는 데이터:
- 수익표가 포함된 재무제표 및 분기별 보고서
- 제품 이름, 수량 및 가격이 포함된 송장 개별 항목
- 대학 포털의 학업 성적표 및 학생 기록
- 사양이 열로 정리된 제품 카탈로그
- 인구 통계 또는 경제 데이터 테이블이 포함된 정부 통계 보고서
클라우드 추출 서비스는 보다 정교한 알고리즘(때때로 AI 포함)을 사용하며 더 복잡한 테이블 레이아웃을 처리할 수 있습니다. 귀하가 통제할 수 없는 서버에 재무제표나 고객 데이터를 업로드하는 데 드는 비용입니다. 열 간격이 규칙적인 간단한 테이블의 경우 브라우저 기반 추출이 클라우드 품질과 일치합니다. 중첩된 테이블이 있는 복잡한 보고서의 경우 스프레드시트 출력을 수동으로 조정해야 할 수도 있습니다.
PDF에 표가 아닌 텍스트가 대부분 포함되어 있는 경우PDF를 워드로더 잘 맞습니다. 데이터를 Excel로 추출한 후 다음을 수행할 수 있습니다.원본 PDF 분할관련 페이지만 유지하거나압축하다보관하기 전에.
PDF를 Word로, PDF 압축, PDF 분할도 사용해 보세요.