Funktion

XML aus E-Rechnungen extrahieren

Hybrid-PDFs enthalten neben dem lesbaren PDF-Dokument eine eingebettete XML-Rechnung — maschinenlesbar und normkonform. Die Extraktion isoliert diese XML-Datei für die Weiterverarbeitung, ohne eine vollständige Regelprüfung durchzuführen.

📤

Nur extrahieren

Isoliert die XML aus einem PDF/A-3-Dokument (ZUGFeRD, Factur-X). Gibt den Rechnungsinhalt als strukturierte XML-Datei zurück — ohne KoSIT-Regelprüfung. Geeignet für Vorprüfung, Archivierung oder den Import in ERP-Systeme.

  • Kein Validierungstool nötig
  • Schneller als vollständige Validierung
  • Ergebnis: extrahierte XML zum Download

Validieren (mit Extraktion)

Führt zuerst die Extraktion durch, dann eine vollständige Regelprüfung nach KoSIT-Vorgaben. Erzeugt zusätzlich eine lesbare PDF-Vorschau und einen JSON-Validierungsbericht. Geeignet für Qualitätssicherung und Compliance.

  • Extraktion + Regelprüfung (EN 16931 / XRechnung)
  • PDF-Vorschau mit allen Feldern
  • Ergebnis: valide / invalide mit Fehlermeldungen

Wie die Extraktion funktioniert

1

Datei-Erkennung

Die Plattform erkennt automatisch, ob es sich um eine reine XML-Datei oder ein Hybrid-PDF handelt — anhand der Magic Bytes, nicht der Dateiendung.

2

PDF-Parsing & Anhangsuche

Bei PDFs werden alle eingebetteten Dateien untersucht. Bevorzugt werden Dateien mit bekannten Namen (factur-x.xml, zugferd-invoice.xml, xrechnung.xml). Mehrere XML-Anhänge? Die erste passende wird gewählt.

3

Format-Erkennung

Das Root-Element der XML bestimmt die Syntax: Invoice / CreditNote → UBL 2.1; CrossIndustryInvoice → CII D16B. Das Profil (XRechnung, Factur-X/ZUGFeRD, Peppol) wird aus der CustomizationID bzw. GuidelineID gelesen.

4

Ergebnis

Die isolierte XML-Datei steht zum Download bereit. Zusätzlich wird ein strukturiertes Rechnungsmodell (Aussteller, Empfänger, Beträge, Positionen) aus der XML geparst und auf der Ergebnisseite angezeigt.

Unterstützte Eingabeformate

XML-Upload Direkt

UBL 2.1 oder CII D16B als .xml-Datei — wird ohne Extraktion direkt verarbeitet.

ZUGFeRD PDF Extraktion

PDF/A-3 mit eingebettetem CII-XML (alle ZUGFeRD-Profile ab 1.0).

Factur-X PDF Extraktion

Identisch zu ZUGFeRD 2.x — gleiche Struktur, gleiche Extraktion.

PDF ohne XML Nicht unterstützt

Reine PDF-Rechnungen ohne eingebettetes XML können nicht verarbeitet werden.

API-Integration

Der Extraktions-Endpunkt ist für die direkte Integration in eigene Systeme ausgelegt.

POST /api/extract multipart/form-data
# Beispiel mit curl
curl -X POST https://mmss1.space/api/extract \
  -F "file=@rechnung.pdf"
GET /api/jobs/{job_id} Job-Status & Artefakt-Links
# Antwort (Auszug)
{
  "status": "succeeded",
  "detected_format": "CrossIndustryInvoice",
  "detected_profile": "factur-x/zugferd",
  "artifacts": {
    "xml": "/jobs/{id}/download/xml"
  }
}

Die vollständige API-Spezifikation ist als OpenAPI JSON verfügbar.

Jetzt ausprobieren Formate erklärt