Warum Vision-Modelle klassisches OCR ablösen
Klassisches OCR (Optical Character Recognition) liest Pixel-Muster und gibt Text zurück. Was OCR nicht versteht: die Bedeutung der Texte. Aus „IBAN: DE12345..." wird zwar korrekt der Text extrahiert, aber die Zuordnung „dies ist die IBAN des Lieferanten" muss in nachgelagerter Logik geleistet werden — typisch über reguläre Ausdrücke und Heuristiken, die bei Layout-Varianten oft scheitern. Wer mit klassischem OCR Mietverträge auswertet, bekommt 80 % der Felder zuverlässig — die restlichen 20 % erfordern manuelle Korrektur.
Vision-Modelle wie Mistrals pixtral-large-latest verbinden Bilderkennung mit semantischem Sprachverständnis. Das Modell sieht die Pixel und ordnet sie ihrem Kontext zu: Es erkennt, dass „IBAN: DE12..." in einem Mietvertrag die IBAN des Vermieters meint, in einer Lieferantenrechnung die IBAN des Lieferanten. Konfidenz-Scores werden pro Feld zurückgegeben — Sie sehen, ob das Modell sicher ist oder ob menschliche Prüfung sinnvoll ist. ImmoGenio kalibriert diese Schwellwerte tenant-spezifisch: Eine Verwaltung mit kritischen Beträgen kann den IBAN-Schwellwert auf 0,98 setzen, eine andere bei 0,9 mehr Automation tolerieren.
Lernen aus wenigen Beispielen
Klassische ML-Modelle brauchen tausende Beispiele, um zuverlässig zu funktionieren — eine Hürde, die kleinere Verwaltungen ohne Daten-Bestand nicht überwinden können. Die Dokumenten-Automatisierung kehrt diesen Ansatz um: Das vortrainierte Vision-Modell kennt allgemeine Dokumentenstrukturen, mit drei bis fünf domänenspezifischen Beispielen wird es auf den konkreten Mandanten kalibriert. Wenn der erste Mietvertrag des neuen Mandanten ankommt, sind die Konfidenz-Werte zunächst mittel — der Verwalter korrigiert eventuelle Abweichungen.
Diese Korrekturen werden als Trainingsmaterial pro Tenant gespeichert — ImmoGenio teilt diese Lerndaten nicht zwischen Mandanten, weil dies datenschutzrechtlich heikel wäre und weil tenant-spezifische Vertrags-Layouts Spezifika haben. Nach typisch zehn Korrekturen erreicht die Pipeline für die meisten Dokumenten-Typen eine Trefferquote von 95 % oder mehr — der manuelle Aufwand entfällt fast vollständig.
Whitelist-Validierung statt blindem Vertrauen
Automatische Extraktion allein hat ein Problem: Was das Modell nicht weiß, kann es nicht prüfen. Beispiel: Ein Phishing-Versuch verschickt eine Rechnung im Namen eines Lieferanten, aber mit fremder IBAN. Die Erkennung liefert die IBAN korrekt — und das Geld geht an den falschen Empfänger, wenn niemand prüft. ImmoGenio kombiniert deshalb die automatische Extraktion mit klassischer Logik: extrahierte IBANs werden gegen die hinterlegten Zahlungsbeziehungen des Lieferanten abgeglichen. Eine abweichende IBAN wird markiert — der Verwalter prüft, ob es sich um eine echte Änderung (mit Lieferanten-Anschreiben) oder um einen Betrugsversuch handelt.
Analoge Validierungen für Mieter-Namen (Abgleich gegen aktive Mietverträge), Objekt-Adressen (gegen Objekt-Stammdaten) und Beträge (Plausibilitäts-Spannweiten basierend auf historischen Werten). Die Validierungs-Schwellwerte sind tenant-spezifisch konfigurierbar — eine Verwaltung mit hohem Sicherheitsanspruch kann strengere Regeln setzen, eine andere mehr Automation zulassen.