Funktion
XML aus E-Rechnungen extrahieren
Hybrid-PDFs enthalten neben dem lesbaren PDF-Dokument eine eingebettete XML-Rechnung — maschinenlesbar und normkonform. Die Extraktion isoliert diese XML-Datei für die Weiterverarbeitung, ohne eine vollständige Regelprüfung durchzuführen.
Nur extrahieren
Isoliert die XML aus einem PDF/A-3-Dokument (ZUGFeRD, Factur-X). Gibt den Rechnungsinhalt als strukturierte XML-Datei zurück — ohne KoSIT-Regelprüfung. Geeignet für Vorprüfung, Archivierung oder den Import in ERP-Systeme.
- Kein Validierungstool nötig
- Schneller als vollständige Validierung
- Ergebnis: extrahierte XML zum Download
Validieren (mit Extraktion)
Führt zuerst die Extraktion durch, dann eine vollständige Regelprüfung nach KoSIT-Vorgaben. Erzeugt zusätzlich eine lesbare PDF-Vorschau und einen JSON-Validierungsbericht. Geeignet für Qualitätssicherung und Compliance.
- Extraktion + Regelprüfung (EN 16931 / XRechnung)
- PDF-Vorschau mit allen Feldern
- Ergebnis: valide / invalide mit Fehlermeldungen
Wie die Extraktion funktioniert
Datei-Erkennung
Die Plattform erkennt automatisch, ob es sich um eine reine XML-Datei oder ein Hybrid-PDF handelt — anhand der Magic Bytes, nicht der Dateiendung.
PDF-Parsing & Anhangsuche
Bei PDFs werden alle eingebetteten Dateien untersucht. Bevorzugt werden Dateien
mit bekannten Namen (factur-x.xml, zugferd-invoice.xml,
xrechnung.xml). Mehrere XML-Anhänge? Die erste passende wird gewählt.
Format-Erkennung
Das Root-Element der XML bestimmt die Syntax: Invoice / CreditNote
→ UBL 2.1; CrossIndustryInvoice → CII D16B. Das Profil
(XRechnung, Factur-X/ZUGFeRD, Peppol) wird aus der CustomizationID bzw. GuidelineID gelesen.
Ergebnis
Die isolierte XML-Datei steht zum Download bereit. Zusätzlich wird ein strukturiertes Rechnungsmodell (Aussteller, Empfänger, Beträge, Positionen) aus der XML geparst und auf der Ergebnisseite angezeigt.
Unterstützte Eingabeformate
UBL 2.1 oder CII D16B als .xml-Datei — wird ohne Extraktion direkt verarbeitet.
PDF/A-3 mit eingebettetem CII-XML (alle ZUGFeRD-Profile ab 1.0).
Identisch zu ZUGFeRD 2.x — gleiche Struktur, gleiche Extraktion.
Reine PDF-Rechnungen ohne eingebettetes XML können nicht verarbeitet werden.
API-Integration
Der Extraktions-Endpunkt ist für die direkte Integration in eigene Systeme ausgelegt.
# Beispiel mit curl
curl -X POST https://mmss1.space/api/extract \
-F "file=@rechnung.pdf"
# Antwort (Auszug)
{
"status": "succeeded",
"detected_format": "CrossIndustryInvoice",
"detected_profile": "factur-x/zugferd",
"artifacts": {
"xml": "/jobs/{id}/download/xml"
}
}
Die vollständige API-Spezifikation ist als OpenAPI JSON verfügbar.