Kinukuha ng conversion ng PDF sa Excel ang text mula sa iyong dokumento, sinusuri ang spatial na layout para makita ang mga row at column, at gumagawa ng structured na .xlsx spreadsheet. Tinutukoy ng tool ang tabular na data sa pamamagitan ng pagsusuri kung paano nakaposisyon ang mga elemento ng teksto sa bawat pahina. Ang mga elemento sa parehong pahalang na linya ay nagiging isang row, at ang pare-parehong espasyo sa pagitan ng mga pangkat ay tumutukoy sa mga hangganan ng column.
Ang pipeline ng pagkuha ay ganap na tumatakbo sa iyong browser. Binabasa ng PDF.js ang dokumento at ibinabalik ang mga text item na may mga x/y na coordinate. Pinapangkat ng aming code sa pagsusuri ng layout ang mga item na ito sa mga row at column batay sa kanilang mga posisyon. Ang xlsx library pagkatapos ay gagawa ng spreadsheet na may nakitang istraktura. Para sa mga talahanayang mahusay na na-format na may malinaw na espasyo ng column, ang katumpakan ng pagtuklas ay karaniwang nasa itaas ng 90%. Ang mga kumplikadong talahanayan na may pinagsamang mga cell o hindi regular na espasyo ay maaaring mangailangan ng manu-manong pagsasaayos.
Data na regular na kinukuha ng mga tao mula sa mga PDF patungo sa mga spreadsheet:
- Mga financial statement at quarterly na ulat na may mga talahanayan ng kita
- Invoice line item na may mga pangalan ng produkto, dami, at presyo
- Mga sheet ng akademikong grado at mga tala ng mag-aaral mula sa mga portal ng unibersidad
- Mga katalogo ng produkto na may mga pagtutukoy na nakaayos sa mga column
- Mga istatistikal na ulat ng pamahalaan na may mga talahanayan ng demograpiko o pang-ekonomiyang data
Gumagamit ang mga serbisyo ng cloud extraction ng mas sopistikadong mga algorithm (minsan kasama ang AI) at kayang pangasiwaan ang mas magulo na mga layout ng talahanayan. Ang gastos ay ang pag-upload ng iyong mga financial statement o data ng kliyente sa isang server na hindi mo kontrolado. Para sa mga diretsong talahanayan na may regular na espasyo ng column, tumutugma ang aming pag-extract na nakabatay sa browser sa kalidad ng ulap. Para sa mga kumplikadong ulat na may mga nested na talahanayan, maaaring kailanganin mong ayusin nang manu-mano ang output ng spreadsheet.
Kung ang iyong PDF ay naglalaman ng halos lahat ng teksto sa halip na mga talahanayan, PDF sa Word ay mas angkop. Pagkatapos mag-extract ng data sa Excel, maaaring gusto mo hatiin ang orihinal na PDF upang panatilihin lamang ang mga nauugnay na pahina, o i-compress ito bago i-archive.
Subukan din ang PDF tungo sa Word, I-compress ang PDF, o Ibahagi ang PDF.