Was leistet die Dokumenten-Automatisierung?

Die Dokumenten-Automatisierung verarbeitet unstrukturierte Dokumente — Rechnungen, Verträge, Protokolle, Bescheide — und gibt strukturierte Felder zurück: nicht nur „1.234,56" als Text, sondern „Bruttobetrag = 1.234,56 €". Im Hintergrund läuft eine OCR-Pipeline mit dem Vision-Modell Mistral pixtral-large-latest für Multi-Field-Extraktion mit Konfidenz-Scores pro Feld.

Wo liegt der Unterschied zur Belegerfassung per Foto?

Die Belegerfassung per Foto ist auf Eingangsrechnungen spezialisiert — Lieferant, Betrag, IBAN, Steuersatz. Die Dokumenten-Automatisierung ist der Oberbegriff für die Extraktions-Pipeline über alle Dokumenten-Ablagen: Mietverträge, Übergabeprotokolle, Beschluss-Protokolle, Mahnschreiben, Versicherungs-Dokumente. Die Belegerfassung ist also ein Spezial-Use-Case derselben Pipeline. Workflows können tenant-spezifisch konfiguriert werden — andere Felder, andere Validierungen, anderer Zielort.

Was sind Konfidenz-Scores und wann greift die manuelle Prüfung?

Pro extrahiertes Feld liefert das Modell einen Konfidenz-Score zwischen 0 und 1. Bei IBANs liegt der Default-Schwellwert bei 0,95, bei Mieten bei 0,9, bei Lieferanten bei 0,85 — Sie können diese Schwellwerte pro Tenant anpassen. Liegt ein Feld unterhalb des Schwellwerts, wird der Beleg in eine Prüf-Queue gestellt — der Verwalter prüft das unsichere Feld und korrigiert. Diese Korrektur fließt als Trainingsmaterial zurück, das Modell wird für ähnliche Folge-Belege treffsicherer.

Wie funktioniert das Lernen aus wenigen Beispielen?

Klassische ML-Modelle brauchen tausende Trainingsbeispiele. Die Pipeline kommt mit drei bis fünf Beispielen pro Dokument-Typ aus — sie wird pro Tenant mit wenigen Beispiel-Korrekturen kalibriert. Wenn der erste Mietvertrag eines Mandanten eingeht, sind die Konfidenz-Scores zunächst niedrig — der Verwalter korrigiert die ersten zehn Verträge, danach läuft die Extraktion zuverlässig auch bei strukturell ähnlichen Verträgen anderer Mieter. Diese Lerndaten bleiben tenant-spezifisch und werden nicht zwischen Mandanten geteilt.

Welche Validierungen laufen automatisch?

Whitelist-basierte Validierung gegen die Stammdaten: Lieferanten-IBANs werden gegen die hinterlegten Zahlungsbeziehungen abgeglichen — eine extrahierte IBAN, die nicht zum bekannten Lieferanten passt, wird markiert (möglicher Phishing-Versuch oder Fehlerkennung). Mieter-Namen werden gegen die laufenden Mietverträge abgeglichen. Objekt-Adressen werden gegen die Objekt-Stammdaten geprüft. Bei Beträgen wird gegen plausibel erwartbare Spannweiten validiert (z. B. Heizöl-Rechnung normal 800–4.000 €, außerhalb dieses Bands wird gewarnt).

Dokumenten-Automatisierung für Hausverwaltungen

Dokumenten-Automatisierung — extrahiert Daten aus Verträgen, Protokollen und Versicherungen.

Hausverwaltung lebt von Dokumenten — Mietverträgen, Übergabeprotokollen, Beschluss-Protokollen, Versicherungs-Dokumenten, Lieferanten-Rechnungen, Bescheiden. Klassisch werden diese Dokumente abgeheftet und manuell ausgewertet. Die Dokumenten-Automatisierung extrahiert strukturierte Felder direkt aus dem Dokument — mit Konfidenz-Scores, Whitelist-Validierung gegen Stammdaten und manueller Prüfung bei unsicheren Feldern.

20 Min Mietvertrag manuell anlegen3 Min mit Vorbelegung

So einfach funktioniert es

Upload und Typ-Erkennung

PDF oder Foto über Upload, E-Mail-Posteingang oder Mobile-PWA — die Pipeline erkennt automatisch den Dokumenten-Typ.

Extraktion mit Konfidenz

Mistral Vision extrahiert die Felder mit Score. Unsichere Felder landen in der Prüf-Queue.

Validierung und Daten-Routing

Whitelist-Validierung gegen Stammdaten, dann Routing in die Buchhaltung, Vertragsverwaltung oder Beschluss-Sammlung.

Warum Vision-Modelle klassisches OCR ablösen

Klassisches OCR (Optical Character Recognition) liest Pixel-Muster und gibt Text zurück. Was OCR nicht versteht: die Bedeutung der Texte. Aus „IBAN: DE12345..." wird zwar korrekt der Text extrahiert, aber die Zuordnung „dies ist die IBAN des Lieferanten" muss in nachgelagerter Logik geleistet werden — typisch über reguläre Ausdrücke und Heuristiken, die bei Layout-Varianten oft scheitern. Wer mit klassischem OCR Mietverträge auswertet, bekommt 80 % der Felder zuverlässig — die restlichen 20 % erfordern manuelle Korrektur.

Vision-Modelle wie Mistrals pixtral-large-latest verbinden Bilderkennung mit semantischem Sprachverständnis. Das Modell sieht die Pixel und ordnet sie ihrem Kontext zu: Es erkennt, dass „IBAN: DE12..." in einem Mietvertrag die IBAN des Vermieters meint, in einer Lieferantenrechnung die IBAN des Lieferanten. Konfidenz-Scores werden pro Feld zurückgegeben — Sie sehen, ob das Modell sicher ist oder ob menschliche Prüfung sinnvoll ist. ImmoGenio kalibriert diese Schwellwerte tenant-spezifisch: Eine Verwaltung mit kritischen Beträgen kann den IBAN-Schwellwert auf 0,98 setzen, eine andere bei 0,9 mehr Automation tolerieren.

Lernen aus wenigen Beispielen

Klassische ML-Modelle brauchen tausende Beispiele, um zuverlässig zu funktionieren — eine Hürde, die kleinere Verwaltungen ohne Daten-Bestand nicht überwinden können. Die Dokumenten-Automatisierung kehrt diesen Ansatz um: Das vortrainierte Vision-Modell kennt allgemeine Dokumentenstrukturen, mit drei bis fünf domänenspezifischen Beispielen wird es auf den konkreten Mandanten kalibriert. Wenn der erste Mietvertrag des neuen Mandanten ankommt, sind die Konfidenz-Werte zunächst mittel — der Verwalter korrigiert eventuelle Abweichungen.

Diese Korrekturen werden als Trainingsmaterial pro Tenant gespeichert — ImmoGenio teilt diese Lerndaten nicht zwischen Mandanten, weil dies datenschutzrechtlich heikel wäre und weil tenant-spezifische Vertrags-Layouts Spezifika haben. Nach typisch zehn Korrekturen erreicht die Pipeline für die meisten Dokumenten-Typen eine Trefferquote von 95 % oder mehr — der manuelle Aufwand entfällt fast vollständig.

Whitelist-Validierung statt blindem Vertrauen

Automatische Extraktion allein hat ein Problem: Was das Modell nicht weiß, kann es nicht prüfen. Beispiel: Ein Phishing-Versuch verschickt eine Rechnung im Namen eines Lieferanten, aber mit fremder IBAN. Die Erkennung liefert die IBAN korrekt — und das Geld geht an den falschen Empfänger, wenn niemand prüft. ImmoGenio kombiniert deshalb die automatische Extraktion mit klassischer Logik: extrahierte IBANs werden gegen die hinterlegten Zahlungsbeziehungen des Lieferanten abgeglichen. Eine abweichende IBAN wird markiert — der Verwalter prüft, ob es sich um eine echte Änderung (mit Lieferanten-Anschreiben) oder um einen Betrugsversuch handelt.

Analoge Validierungen für Mieter-Namen (Abgleich gegen aktive Mietverträge), Objekt-Adressen (gegen Objekt-Stammdaten) und Beträge (Plausibilitäts-Spannweiten basierend auf historischen Werten). Die Validierungs-Schwellwerte sind tenant-spezifisch konfigurierbar — eine Verwaltung mit hohem Sicherheitsanspruch kann strengere Regeln setzen, eine andere mehr Automation zulassen.

Dokumenten-Automatisierung — extrahiert Daten aus Verträgen, Protokollen und Versicherungen.

So einfach funktioniert es

Upload und Typ-Erkennung

Extraktion mit Konfidenz

Validierung und Daten-Routing

Warum Vision-Modelle klassisches OCR ablösen

Lernen aus wenigen Beispielen

Whitelist-Validierung statt blindem Vertrauen

Häufige Fragen

Bereit, Ihre Verwaltung zu digitalisieren?

Dokumenten-Automatisierung — extrahiert Daten aus Verträgen, Protokollen und Versicherungen.

So einfach funktioniert es

Upload und Typ-Erkennung

Extraktion mit Konfidenz

Validierung und Daten-Routing

Warum Vision-Modelle klassisches OCR ablösen

Lernen aus wenigen Beispielen

Whitelist-Validierung statt blindem Vertrauen

Belegerfassung per Foto

Dokumenten-Cloud

Zentrales Archiv mit Aufbewahrungsfristen

Bereit, Ihre Verwaltung zu digitalisieren?