Die PDF-zu-Excel-Konvertierung extrahiert Text aus Ihrem Dokument, analysiert das räumliche Layout zur Erkennung von Zeilen und Spalten und erstellt eine strukturierte .xlsx-Tabelle. Das Werkzeug identifiziert tabellarische Daten, indem es untersucht, wie Textelemente auf jeder Seite positioniert sind. Elemente auf derselben horizontalen Linie werden zu einer Zeile, und gleichmäßige Abstände zwischen Gruppen definieren Spaltengrenzen.
Die Extraktionspipeline läuft vollständig in Ihrem Browser. PDF.js liest das Dokument und liefert Textelemente mit x/y-Koordinaten. Unser Layout-Analysecode gruppiert diese Elemente basierend auf ihren Positionen in Zeilen und Spalten. Die xlsx-Bibliothek erstellt dann eine Tabelle mit der erkannten Struktur. Bei gut formatierten Tabellen mit klarer Spaltenanordnung liegt die Erkennungsgenauigkeit typischerweise über 90 %. Komplexe Tabellen mit verbundenen Zellen oder unregelmäßigen Abständen können manuelle Anpassung erfordern.
Daten, die regelmäßig aus PDFs in Tabellen extrahiert werden:
- Finanzberichte und Quartalsberichte mit Umsatztabellen
- Rechnungspositionen mit Produktnamen, Mengen und Preisen
- Akademische Notenblätter und Studierendendaten von Universitätsportalen
- Produktkataloge mit Spezifikationen in Spalten
- Behördliche Statistikberichte mit demografischen oder wirtschaftlichen Datentabellen
Cloud-Extraktionsdienste verwenden ausgefeiltere Algorithmen (manchmal einschließlich KI) und können unordentlichere Tabellenlayouts verarbeiten. Der Preis dafür ist das Hochladen Ihrer Finanzberichte oder Kundendaten auf einen Server, den Sie nicht kontrollieren. Für einfache Tabellen mit regelmäßiger Spaltenanordnung erreicht unsere browserbasierte Extraktion Cloud-Qualität. Für komplexe Berichte mit verschachtelten Tabellen müssen Sie die Tabellenausgabe möglicherweise manuell anpassen.
Wenn Ihr PDF hauptsächlich Text statt Tabellen enthält, ist PDF zu Word die bessere Wahl. Nach dem Extrahieren der Daten in Excel möchten Sie vielleicht das Original-PDF aufteilen, um nur die relevanten Seiten zu behalten, oder es vor der Archivierung komprimieren.
Probieren Sie auch PDF zu Word, PDF komprimieren oder PDF aufteilen.