KI in der Finanzfunktion — Mittelstands-Leitfaden für Geschäftsführung und Finanzteam
Ein Leitfaden von Orcha · Mai 2026

KI in der
Finanzfunktion.

Wo Sie anfangen, wo nicht, wann Sie kaufen, wann Sie selbst bauen.

Für Geschäftsführung & Finanzteam im Mittelstand · Ausgabe 1 · DE
Inhalt

Was in diesem
Leitfaden steht.

  1. 01KI als Kollege — der Denkfehler, der Geld kostet4
  2. 02Wo anfangen? Eine Matrix und sieben Fragen5
  3. ·Notiz: Müssen die Daten erst sauber sein?7
  4. 03Selbst bauen oder kaufen? Die unbequeme Mathematik8
  5. 04Wenn kaufen: KI-nativ oder KI-aufgesetzt?11
  6. 05Wenn selbst machen: Claude direkt, No-Code oder Claude Code?13
  7. 06Was kostet das eigentlich?15
  8. 07Bevor es live geht: Governance & Datenschutz16
  9. 08Wohin es geht: von reaktiv zu proaktiv17
  10. 09Erste 90 Tage — vom Mandat zum Programm18

Destilliert aus 35 Beiträgen der Orcha-Community. Sie können diesen Leitfaden in beliebiger Reihenfolge lesen — die Kapitel bauen aufeinander auf, sind aber auch einzeln nutzbar.

Vorwort

KI ist keine Frage
der Technologie mehr.

Die meisten KI-Initiativen in Finanzteams scheitern nicht an der Qualität der Modelle. Sie scheitern an Entscheidungen, die niemand bewusst getroffen hat: welcher Prozess zuerst, selbst bauen oder kaufen, welcher Anbieter, ab wann sich Eigenentwicklung lohnt, was das in zwölf Monaten kostet. Und wer "ja" sagt, bevor es live geht.

Dieser Leitfaden verdichtet 35 Beiträge, die wir in der Orcha-Community zu diesen Fragen veröffentlicht haben. Er ersetzt kein Beratungsgespräch — er ordnet die Fragen, die Sie ohnehin beantworten müssen. Egal, ob Sie sich am Ende für Orcha, einen Wettbewerber oder Eigenentwicklung entscheiden.

Neun Kapitel. Vom Denkmodell bis zur Einführung. Am Ende jedes Kapitels eine Frage, mit der Sie Ihre Position prüfen — oder die Sie an Ihr Team weitergeben.

— Das Orcha-Team

Kapitel 01 — Denkmodell

KI ist keine Suchmaschine.
KI ist ein Kollege.

Wer KI wie Google benutzt, bekommt Google-Ergebnisse. Wer sie wie eine neue Mitarbeiterin am ersten Tag behandelt — fähig, aber ohne Hauskontext — bekommt Text, der in die nächste Vorlage passt.

Moderne KI ist keine Suchmaschine und kein Roboter. Sie ist eine sehr fähige neue Mitarbeiterin am ersten Tag. Sie hat viel gelesen, denkt schnell, arbeitet rund um die Uhr. Aber sie kennt Ihren Kontenrahmen nicht, Ihre Mandanten nicht, Ihre internen Begriffe nicht. Ohne Kontext kein brauchbares Ergebnis.

Eine knappe Anfrage liefert generischen Text. Ein Absatz Kontext liefert einen Entwurf, der in die nächste Vorlage passt. Nicht das Modell entscheidet, sondern wie gut Sie die Aufgabe erklären.

Die Gewohnheit, die alles verändert

Der grösste Hebel ist nicht das "richtige Tool". Es ist die Reihenfolge im Kopf: vor jeder Aufgabe einmal fragen, ob KI dabei helfen kann — nicht erst, wenn man feststeckt. Wer das umdreht, holt den grössten Teil der Produktivitätsgewinne, die andere mit aufwendigen Lösungen vergeblich suchen.

Beispiel · zwei Anläufe, derselbe Prompt

Ein Controller fragt: "Schreib mir eine Abweichungsanalyse für Q2." Output: generisch. Zweiter Versuch, derselbe Prompt, davor 30 Sekunden Kontext: Rolle, Daten, Adressat. Das Ergebnis passt direkt in die Vorstandsvorlage.

Selbst-Check
Drei Indikatoren für "KI als Default"

→ Sie öffnen Claude oder ChatGPT, bevor Sie Excel öffnen.

→ Sie lassen E-Mails von der KI vorformulieren, statt sie selbst zu tippen.

→ Wenn die KI mal nicht erreichbar ist, warten Sie kurz — statt wieder manuell anzufangen.

Kapitel 02 — Auswahl

Der teuerste Fehler ist
der falsche Prozess.

Bevor Sie Tools vergleichen, klären Sie eine andere Frage: Welcher Prozess in Ihrem Finanzteam verdient die Automatisierung überhaupt? Dafür reichen eine 2×2-Matrix und ein 15-Minuten-Test.

Auswahl schlägt Technik. Wer sich die spannendste Aufgabe vornimmt — komplex, viele Sonderfälle, viel Bauchgefühl — scheitert fast immer. Den repetitiven, strukturierten Prozess, der jeden Monat wiederkehrt, gewinnt fast jeder.

Drei Bedingungen müssen gleichzeitig erfüllt sein, damit ein Prozess für KI taugt:

  • Zeitvolumen: Mehr als rund 5 Stunden pro Woche im Team — darunter trägt sich der Einstieg nicht.
  • KI-Qualität: Ein 15-Minuten-Test mit echten Dokumenten zeigt, ob die KI das heute schon kann.
  • Entwicklungsaufwand: Tage oder Wochen — nicht Monate. Sonst ist es ein IT-Projekt, kein schneller Einstieg.
Die Auswahl-Matrix
KI-Qualität niedrig
KI-Qualität hoch
Zeit hoch
Beobachten.
Grosser Schmerz, aber KI noch nicht reif. Halbjährlich erneut testen.
Sofort starten.
Hoher Schmerz, KI bereit. Hier liegt der grösste Hebel.
Zeit niedrig
Nicht priorisieren.
Kein Hebel, keine Reife. Ignorieren.
Quick Win.
Klein, aber verlässlich. Hilft dem Team, Vertrauen aufzubauen.
Kapitel 02 — Auswahl (Fortsetzung)

Sieben Fragen, die zeigen,
ob ein Prozess KI-tauglich ist.

Stellen Sie diese sieben Fragen für jeden Prozess, den Sie in der Matrix oben rechts einsortiert haben. Sechs oder mehr "Ja": klarer Kandidat. Vier bis fünf: Quick Win möglich. Weniger als vier: lassen Sie ihn manuell.

  1. Zeitvolumen: Beansprucht der Prozess im Team mehr als 5 Stunden pro Woche?
  2. Wiederholbarkeit: Läuft er regelmässig in ähnlicher Form ab (täglich, wöchentlich, monatlich)?
  3. Praxistest bestanden: Liefert die KI bei echten Dokumenten in 15 Minuten ein brauchbares Ergebnis?
  4. Fehlertoleranz: Können Sie ein paar Fehler tolerieren — oder gibt es Stichproben-Kontrollen?
  5. Entwicklungsaufwand: Schätzen Sie Tage oder Wochen Aufwand — nicht Monate?
  6. Datenverfügbarkeit: Liegen die nötigen Daten in einem zugänglichen Format vor?
  7. Datenschutz geklärt: Ist klar, welche Daten die KI sehen darf und welche nicht?
Beispiel · AP-Automatisierung

Rechnungseingang bei einem Mittelständler mit 500 Mitarbeitenden: 500 Rechnungen im Monat, je 12 bis 15 Minuten manuell — über 100 Stunden im Team. Alle sieben Fragen mit "Ja". Das gehört in die obere rechte Ecke.

Frage an Ihr Team
Welche drei Prozesse würden Sie heute in die obere rechte Ecke einordnen?

Wenn Ihr Team diese Frage nicht in 15 Minuten beantworten kann, fehlt der erste Schritt: eine einwöchige Bestandsaufnahme, in der 3–4 Mitarbeiterinnen ihre wiederkehrenden Aufgaben mit Zeitaufwand protokollieren.

Notiz · zwischen Auswahl und Make-or-Buy

Bevor Sie KI einführen:
müssen Ihre Daten erst sauber sein?

Nein. Diese Reihenfolge stammt aus der ERP-Welt der 2010er — heute bremst sie Projekte, die längst laufen müssten.

Die alte Logik lautet: erst Datenqualität, dann Automatisierung. Bei klassischen Systemen mit starren Schemata stimmte das. Bei KI-basierten Systemen stimmt es nicht mehr — und es ist die teuerste Ausrede gegen den ersten Schritt.

Moderne LLMs lesen "Reisek.", "Reisekosten" und "Travel Expenses" als dieselbe Kategorie. Sie kommen mit gemischten Sprachen, unterschiedlichen Formaten und unsystematisch gepflegten Stammdaten zurecht. Datenqualität bleibt relevant. Aber sie wird in der KI-Schicht erzeugt — nicht vorab im ERP saubergeputzt.

KI als Strukturschicht über bestehender Infrastruktur

  1. Datenquellen anbinden — ERP, Excel, E-Mail, Bank-Portale. Keine Migration nötig.
  2. KI liest, interpretiert, strukturiert — format- und sprachunabhängig, mit einem Vertrauenswert je Extraktion.
  3. Saubere Daten landen in einer Datenbank — abfragbar über SQL, BI-Tools oder weitere KI.
  4. Bestehende Systeme bleiben — DATEV, SAP, Ihr Kontenrahmen. Nichts wird ersetzt.
Beispiel · ein 780-Mio.-USD-Lehrstück

Ein US-Einzelhändler aus der Fortune 500 stoppte 2024 eine geplante 780-Mio.-USD-ERP-Migration. Stattdessen legte das Unternehmen eine KI-Schicht über die bestehenden Systeme (Quelle: McKinsey 2025). Das funktioniert nicht nur bei Fortune-500-Budgets. Auch ein Mittelständler mit DATEV und Excel-Historien kann eine KI-Schicht über seine Altsysteme legen — ohne eines davon anzufassen.

Eine Frage zur alten Reihenfolge
Welcher KI-Pilot wartet bei Ihnen auf eine Datenmigration, die kein KI-Pilot mehr braucht?

Wenn die Antwort einen Namen hat, starten Sie ihn diese Woche.

Kapitel 03 — Make or Buy

Bauen Sie nur, was Sie
vom Wettbewerb unterscheidet.

31 % der internen Software-Projekte sind pünktlich, im Budget und im vereinbarten Umfang fertig. Auf jeden Euro Entwicklungskosten kommen vier bis fünf Euro Wartung über fünf Jahre (Gartner).

Eigenentwicklungen für Standardprozesse sind kein strategischer Vorteil — sie sind Routinearbeit ohne Wettbewerbsvorteil. Werner Vogels (Amazon) nennt das "undifferentiated heavy lifting": Geld, das im Budget besser aufgehoben ist. Für ein Finanzteam heisst das: Kaufen Sie das Rechnungseingangs-System. Bauen Sie nur, was Sie vom Wettbewerb unterscheidet.

Gartner-Regel
Selbst bauen nur, wenn beide Bedingungen zutreffen

① Es ist Kern Ihres Wettbewerbsvorteils.
② Es gibt keine passende Lösung am Markt.

Trifft nur eine zu — kaufen. Trifft keine zu — erst recht kaufen.

Selbst bauenKaufen
Time-to-Value9–18 MonateWochen
Erfolgsquote31 %Bewährtes Produkt am Markt
Wartung pro Jahr15–20 % der Initialkostenim Abo
Regulatorik (GoBD, DSGVO)SieAnbieter
5-Jahres-TCO4–5× InitialkostenLinear, planbar
Kapitel 03 — Make or Buy (Fortsetzung)

Drei Fragen, die jeder
Eigenbau-Plan beantworten muss.

  1. Echter Wettbewerbsvorteil — oder undifferenzierte Arbeit?
    Wenn drei Wettbewerber dasselbe Problem lösen, ist das kein Vorteil. Sondern Betriebsaufwand.
  2. Haben wir die Kapazität, das System über Jahre zu warten — und regulatorische Änderungen selbst umzusetzen?
    Eine GoBD-Anpassung pro Jahr, eine DSGVO-Auditierung, eine API-Migration alle 18 Monate. Wer macht das?
  3. Was könnten unsere Entwicklerinnen sonst bauen — etwas, das Umsatz bringt?
    Opportunitätskosten sind unsichtbar, aber real. Jede Entwicklerstunde an einem AP-System ist eine Stunde, die nicht in ein Produkt geht, das Kunden zahlen.

Die versteckten Kosten, die Kalkulationen sprengen

Wartung: 15–20 % der Entwicklungskosten, jedes Jahr. Personalrisiko: Geht die Schlüsselperson, fängt der Wissensaufbau bei null an. Opportunitätskosten: Was hätte das Team sonst gebaut? Regulatorisches Risiko: Wer haftet bei GoBD-Verstössen — der Anbieter oder Sie?

Wenn es schiefgeht

Lidl stoppte 2018 ein eigenes SAP-Ersatzprojekt nach rund 500 Mio. € ohne produktives Ergebnis. Nike verlor 2001 100 Mio. USD Umsatz, nachdem ein hausgebautes Forecast-System Lagerbestände falsch berechnet hatte. Das sind keine Mittelstandszahlen. Das Muster wiederholt sich aber im Kleinen — quartalsweise, in jedem mittelständischen IT-Lenkungskreis.

Schriftlicher Belegtest
Können Sie beide Gartner-Bedingungen für jeden geplanten Eigenbau schriftlich belegen?

Wenn nicht — kaufen Sie. Wenn doch — schreiben Sie es auf und legen Sie es zur Halbjahresreview neben das Projekt.

Kapitel 03 — Make or Buy (Fortsetzung)

Drei Fragen, die jeder
Einkaufs-Plan beantworten muss.

Die andere Hälfte der Make-or-Buy-Entscheidung wird oft übersehen: auch "kaufen" verlangt eine eigene Due Diligence. Die Lizenzgebühr sagt wenig über die Folgekosten. Und das Demo zeigt nicht, was nach drei Jahren übrig bleibt.

  1. Passt sich der Anbieter an Ihre Welt an — oder umgekehrt?
    DATEV-Belegtransfer und Buchungsdatenservice im Standard (DATEVconnect für tiefere Integration), offene API zu Ihrem ERP (SAP, proALPHA, abas, Sage, Microsoft Dynamics), Anbindung an Ihren Kontenrahmen, Zusammenarbeit mit Ihrem Steuerberater. Wenn die Antwort "wir machen Workshops und passen unsere Prozesse an" lautet, sind die Folgekosten höher als der Lizenzpreis.
  2. Gehören die Daten Ihnen — auch nach einem Wechsel?
    Wo liegen die Daten (EU vs. USA), wer sind die Sub-Prozessoren, gibt es einen dokumentierten Exportpfad in einem nutzbaren Format? "Wir machen das schon" ist keine Antwort — ein schriftlich zugesicherter Exit-Prozess ist eine.
  3. Ist das System auditierbar — und der Anbieter belastbar?
    Zertifikate (ISO 27001, SOC 2 Typ II, BSI C5, TISAX), nachvollziehbare Entscheidungen mit Audit-Log und Konfidenz-Score, Verfahrensdokumentation für die Betriebsprüfung, AVV nach DSGVO, EU-AI-Act-konforme Risikoeinstufung. Ohne diese Liste haftet am Ende Ihr Team.

Die versteckten Kosten, die in der Lizenzgebühr nicht stehen

Vier Posten fehlen meist in der Lizenzgebühr: die ERP-Anbindung (zahlt Ihr IT-Dienstleister oder der Anbieter?), Schulung im Team, Umbau interner Prozesse, Anbieter-Risiko (Übernahme, Insolvenz, Produkteinstellung). Der teuerste Posten ist immer der letzte: Lock-in. Was kostet ein Wechsel in fünf Jahren, falls Sie ihn wollen?

Beispiel · zwei Anbieter, gleicher Preis

Anbieter A: Lizenz 24 000 € p.a., DATEV-Export im Standard, dokumentierter CSV/Excel-Export aller Daten, ISO 27001. Anbieter B: Lizenz 18 000 € p.a., DATEV nur über Drittanbieter-Konnektor (8 000 € einmalig + 3 000 € p.a.), Export "auf Anfrage", keine Zertifikate. Auf dem Papier ist B billiger. Über fünf Jahre kostet B mindestens das Doppelte — und einen Ausweg haben Sie nicht.

Frage an die Anbieter auf Ihrer Shortlist
"Was passiert mit unseren Daten und unserer Integration, wenn wir in fünf Jahren wechseln?"

Eine konkrete schriftliche Antwort ist die einzige, die zählt. Alles andere — "gute Frage", Verzögerung, Schweigen — ist auch eine Antwort.

Kapitel 04 — Anbieterauswahl

Zwei Sorten KI-Software.
Eine läuft auch ohne KI weiter.

Hinter dem "KI-powered"-Label stehen zwei Welten: Systeme, die ohne KI weiter laufen würden, und Systeme, die ohne KI gar nicht existieren. Der Unterschied fällt erst im dritten Jahr auf. Dann teuer.

Etablierte Anbieter (ABBYY, Kofax, Basware) haben 20 Jahre eine Template-Plattform verfeinert und in den letzten zwei Jahren KI nachgerüstet. KI-native Anbieter starten mit dem LLM als Fundament. Beide kommen am Ende beim selben Demo an — und gehen auseinander, sobald die Lieferanten-Templates fehlen.

Der eine Test
Entfernen Sie alle KI-Funktionen — funktioniert das System noch?

Ja = KI ist aufgeschraubt. Darunter arbeitet die alte Template-Logik weiter.
Nein = KI trägt das System. Templates sind weg.

Template-basiert (klassisch)KI-nativ (LLM-zentriert)
Neuer LieferantNeues Template anlegen (2–8 h)Funktioniert sofort
Layout-ÄnderungTemplate anpassenModell erkennt es
FremdspracheEigenes Template pro SpracheModell versteht es
Freitext-FelderMühsam, fehleranfälligStärke des Modells
KontierungRegelwerke pflegenModell schlägt vor
Wartung über ZeitSteigt mit LieferantenSinkt mit Volumen
Kapitel 04 — Anbieterauswahl (Fortsetzung)

40 % erkannt heisst nicht
40 % weniger Arbeit.

Der Unterschied zwischen alter OCR und moderner KI ist nicht die Erkennungsrate — es ist die Konfidenz. Klassisches OCR sagt Ihnen, was es gelesen hat — aber nicht, ob es sich dabei sicher ist. Also müssen Sie alle 200 Belege im Monatsabschluss prüfen. Bei 40 % korrekter Erkennung sparen Sie real vielleicht 20 % Zeit.

KI-native Systeme liefern zu jeder Extraktion einen Konfidenz-Score. Sie prüfen nicht 200 Belege, sondern die 20, bei denen das System unsicher ist. Bei gleichen Erkennungsraten kommen Sie so auf ~90 % echte Arbeitsersparnis. Statt 20 %.

Warum etablierte Anbieter nicht einfach umsteigen

Das ist keine Marketing-Frage, sondern eine architektonische. Wer zwanzig Jahre auf Templates aufgebaut hat, kann KI obendraufsetzen — das Fundament tauscht das nicht aus. Das Geschäftsmodell trägt den Umbau nicht. Die Architektur auch nicht. Und die Bestandskunden wollen genau das, was ihn blockiert.

Beispiel · ein KI-natives AP-System

Orcha besteht den Test mit "Nein": ohne LLM-Schicht gäbe es das Produkt nicht. Nicht der einzige KI-native Anbieter am Markt, aber einer, an dem sich das Prinzip ablesen lässt. 80–90 % der Rechnungen laufen vollkontiert und gebucht durch — ohne menschliche Nachbearbeitung. Der Branchenschnitt liegt bei rund 33 % (Ardent Partners 2025).

Frage an die Anbieter auf Ihrer Shortlist
"Wie viele Template-Regeln pflegt Ihr System pro Kunde im Schnitt?"

Eine niedrige Zahl ist gut. Eine hohe Zahl ist kein Urteil — aber ein Hinweis.

Kapitel 05 — Eigenentwicklung

Drei Werkzeuge, drei Anlässe.
Code ist meistens nicht nötig.

Müssen Geschäftsführer oder kaufmännische Leiter programmieren? Nein. Sollten sie verstehen, wann ein Prozess mit Claude direkt erledigt ist, wann ein No-Code-Skill reicht und wann sich Claude Code lohnt? Ja. Das ist der Entscheidungsbaum dazu.

"Selbst machen" heisst 2026 selten noch "Software bauen". Die drei realistischen Stufen sind: (1) Claude direkt fragen, (2) einen Skill bauen, der den Prozess wiederholbar macht, oder (3) Claude Code einsetzen, um etwas zu generieren, das eigenständig läuft. Code ist die seltenste der drei Stufen — und die mit den meisten Missverständnissen.

StufeWann sinnvollBeispiel
Claude direkt
Chat oder Excel-Add-in
Einmalige oder seltene Aufgaben, Ad-hoc-Analysen, Briefings, Dokumentenprüfung.Vertragsanalyse mit IFRS-16-Check, Abweichungskommentar im Quartalsbericht.
Skill / Projekt
No-Code SOP
Wiederkehrende Aufgaben, die das ganze Team identisch erledigen soll.Rechnungsprüfung nach Vier-Augen-Prinzip, monatliches Reporting an den Vorstand.
Claude Code
"Vibe Coding"
Wenn ein eigenständiges Artefakt entstehen soll: Dashboard, Skript, kleines Tool.Budget-Ist-Dashboard mit Filter, Abgleichsskript für 200 Buchungen.
Entscheidungs-Regel
Steigen Sie eine Stufe höher, wenn die untere Stufe drei Mal denselben Prompt erfordert.

Wer dreimal denselben Prompt tippt, sollte einen Skill bauen. Sobald derselbe Skill für ein zweites Reporting taugt, ist Code dran.

Kapitel 05 — Eigenentwicklung (Fortsetzung)

Programmieren heisst
heute beschreiben.

Claude Code, Lovable, Cursor: Sie beschreiben, was entstehen soll, und das Werkzeug baut es. Für ein Finanzteam bedeutet das nicht, dass jeder Controller jetzt zum Software-Ingenieur wird. Es heisst: Das Team löst manche Probleme schneller selbst, als die IT die Anfrage überhaupt öffnet.

Wann sich der Aufwand wirklich lohnt

Drei Indikatoren: (a) Sie wollen ein eigenständiges Artefakt (HTML-Dashboard, Skript, kleine App) — kein Chat-Output. (b) Sie können nicht warten, bis ein etablierter Anbieter es im Standard hat. (c) Es ist klein genug, dass die Wartungslast überschaubar bleibt.

Was Finanzverantwortliche daraus mitnehmen

Der Code am Ende ist nicht der Gewinn. Wer einmal selbst hineingegriffen hat, liest Datenmodelle, sieht Fehlerquellen früher und führt IT-Gespräche auf Augenhöhe. Wer einmal selbst ein kleines Tool gebaut hat, stellt danach bessere Fragen — und kauft bessere Software.

Beispiel · Dashboard in 60 Minuten

Aus einer Excel-Datei mit Budget- und Ist-Werten lässt sich mit Claude Code in weniger als einer Stunde ein interaktives HTML-Dashboard bauen: Ampel-Logik (<5 % grün, 5–10 % gelb, >10 % rot), Kostenstellen-Filter, KPI-Karten. Eine einzelne Datei, per E-Mail teilbar, ohne Server. So sieht der typische Fall aus. Eine BI-Plattform wird daraus nicht.

Anwendungsfrage
Welche drei wiederkehrenden Aufgaben würden Sie heute mit Claude Code angehen — wenn es Sie nur zwei Stunden kostet?

Wenn die Antwort "keine" lautet, beginnen Sie eine Stufe tiefer: bei Skills. Wenn die Antwort drei oder mehr ist, beginnen Sie mit einer.

Kapitel 06 — Kosten

KI-Kosten verhalten sich
wie Strom, nicht wie eine Lizenz.

Zwanzig Jahre SaaS haben uns an feste Lizenzgebühren gewöhnt. KI bricht damit. Wer das übersieht, sieht es spätestens auf der nächsten Rechnung.

Klassische SaaS-Anbieter erreichen 80–90 % Bruttomarge. KI-first-Anbieter liegen bei 50–60 %. Der Grund: Inferenz skaliert mit Tokens, nicht mit Sitzen. Ein Power-User kostet schnell das Zehnfache eines Light-Users. Flatrate-Mischkalkulationen tragen das nicht mehr. Drei Marktbewegungen folgen daraus:

  1. Flatrates verschwinden oder bekommen einen Deckel. "Unlimited" steht 2026 nur noch auf dem Deckblatt.
  2. Hybrid-Modelle werden Standard — Basisgebühr plus verbrauchsabhängiger Anteil.
  3. Verbrauchstransparenz wird zur Verhandlungssache — was früher selbstverständlich war, muss heute schwarz auf weiss im Vertrag stehen.

Das neue KPI: Kosten je Transaktion

Monatssummen sagen wenig aus, sobald die Kostenbasis variabel wird. Die neue Frage: Was kostet die einzelne KI-Aktion — ein Beleg, eine Analyse, ein Dokument? Forecasts werden treiber-basiert: "Belege pro Monat × Tokens pro Beleg × Preis pro Token". Nicht mehr "Vorjahr + X %".

Beispiel · Power-User vs. Light-User

Ein Controller mit 30 Belegen pro Tag kostet rund 60 € im Monat. Ein Reporting-Analyst lädt drei Quartalsberichte in eine Session, fragt nach, vergleicht — und steht bei 400 €. Dasselbe Tool, dieselbe Lizenz, siebenfacher Verbrauch.

Drei Punkte für jeden KI-Vertrag
Was Sie in der nächsten Verhandlung einfordern sollten

Klare Preismetrik: Pro Sitz, pro Token, pro Request oder pro Outcome?
Kostenbremsen und Alarmschwellen: Ab wann werden Sie benachrichtigt? Ab wann greift eine automatische Sperre?
Verbrauchseinblick in Echtzeit: Tages- oder Stundenauflösung — keine Monatsrechnung.

Kapitel 07 — Governance

Risiko liegt in der Umsetzung,
nicht in der Technologie.

Mit dem richtigen Business-Tarif, signiertem AVV, EU-Datenresidenz und einer internen Policy ist DSGVO-konformer KI-Einsatz ein Tagesprojekt — kein Quartalsthema.

Kostenlose und Consumer-KI-Tarife haben in einem Finanzteam nichts zu suchen.

Free- und Consumer-Tarife (OpenAI Free, ChatGPT Plus, Claude Free) trainieren standardmässig auf Ihren Eingaben. Business-Tarife (OpenAI Enterprise, Claude Team/Enterprise, Microsoft 365 Copilot) sind vertraglich davon ausgenommen. Der Wechsel ist Pflicht, keine Kür — und keine Kostenfrage, die eine Diskussion verdient.

Vier Datenklassen, ein Workflow

Sortieren Sie Ihre Daten in vier Stufen. Pro Stufe ein Tarif, der sie sehen darf: öffentlich (alle Tarife), intern (Business-Tarife mit AVV), vertraulich (Business-Tarife mit EU-Residenz), streng vertraulich (gar nicht ohne Bring-Your-Own-Key oder Self-Hosting).

8-Punkte-Check für Go-Live
Bevor das erste produktive Dokument durch die KI läuft

☐ Signierter Auftragsverarbeitungsvertrag (AVV)
☐ Schriftliche Bestätigung: kein Training auf Ihren Daten
☐ EU-Datenresidenz aktiviert (wo verfügbar)
☐ Datenschutz-Folgenabschätzung dokumentiert (DSFA)
☐ Interne KI-Policy verabschiedet
☐ Subprozessoren-Liste regelmässig geprüft
☐ KI-Kompetenzschulung durchgeführt (EU AI Act, seit Feb. 2025 Pflicht)
☐ Betriebsrat informiert (Mitbestimmung nach §87 BetrVG / ArbVG bei Leistungsbewertung)
☐ GoBD-Verfahrensdokumentation aktualisiert (für Betriebsprüfung)
☐ AT: DSB-Meldung geprüft, BAO §§131/132 abgedeckt

Shadow AI · das Post-it-Problem der KI

Ist der offizielle Weg zu restriktiv oder zu umständlich, greifen Mitarbeiterinnen zum privaten Account. Verbote helfen hier nicht. Was hilft: ein offizieller Weg, der mindestens so gut funktioniert wie der inoffizielle.

Kapitel 08 — Reifegrade

Von "wir fragen die KI" zu
"die KI sagt uns Bescheid".

Reaktive KI wartet auf Prompts. Proaktive KI beobachtet Datenströme und meldet sich von selbst, bevor jemand danach fragt. Entscheidend ist nicht das Modell, sondern wohin es schaut.

In Private-Credit-Studien meldet proaktive KI Bonitätssignale 6–8 Wochen früher als der klassische Reporting-Zyklus. Für ein Finanzteam heisst das: Cashflow-Abweichungen, Auffälligkeiten im AR-Aging und Gehaltsvarianzen werden sichtbar, solange noch Handlungsspielraum besteht — nicht erst im Quartalsbericht, wo das Team sie nur noch erklärt.

Die 5 Reifegrade · vom Chat zum Autopilot · Bandbreiten je nach Prozessreife
STUFE 01
Session
Einzelne Chats. Output: ~2-3× schneller.
STUFE 02
Skill
Abläufe wiederholbar. ~3-5×.
STUFE 03
Workflow
Schritte verkettet. ~5-10×.
STUFE 04
Agent
Läuft eigenständig. ~10-25×.
STUFE 05
Agent-Swarm
Agents parallel. langfristig 25× und mehr.
Beispiel · was wir bei Orcha bauen

Bei Orcha laufen Agenten rund um die Uhr: Belege erfassen, Abweichungen melden, Cashflow-Signale früh anzeigen. Stufe 4, teilweise Stufe 5. Eines von mehreren am Markt. Aber eines, das produktiv läuft.

Letzte Frage
Auf welcher Stufe steht Ihr Team heute — und was ist der nächste konkrete Schritt?

Der häufigste Fehler: Stufe 5 am ersten Tag erzwingen. Der zweithäufigste: auf Stufe 1 verharren, obwohl Stufe 2 einen Skill entfernt liegt.

Kapitel 09 — Umsetzung

Die ersten 90 Tage
nach der Entscheidung.

Acht Kapitel Theorie sind kein Programm. Hier ist der Fahrplan, mit dem aus dem Mandat eine messbare Lieferzusage an die Geschäftsführung wird.

Woche 1 — Das Mandat einrahmen

Ein einseitiges Mandatspapier: Welcher Prozess (genau einer) ist der Kandidat? Was wird in 90 Tagen gemessen? Wer ist Pate aus Ihrem Team, wer aus IT, wer aus Audit/Recht? Was ist explizit nicht im Scope? Aus dieser Seite wird später die Zwischenstandsmeldung an die Geschäftsführung.

Wochen 2–4 — Pilot aufsetzen

Testen Sie zwei Anbieter parallel am selben Prozess: 30 Beispielbelege, identische Kennzahlen, Datenschutz-Check signiert vor dem ersten Datensatz. Erfolgsmetrik vor dem ersten Beleg festlegen: Wie viele Belege laufen ohne Hand durch, wie lange dauert Nachbearbeitung. Demos zählen nicht. Nur Ihre Daten.

Wochen 5–8 — Entscheiden, anbinden, schulen

Anbieter wählen — die Pilot-Zahlen entscheiden, nicht der Pitch. Parallel: AVV unterschreiben, EU-Datenresidenz aktivieren, Team schulen, interne Policy verabschieden, Verfahrensdokumentation an den Steuerberater versenden. Den Go-Live-Check aus Kapitel 7 abarbeiten — vor dem ersten produktiven Beleg, nicht danach.

Wochen 9–13 — Produktiv, messen, ausweiten

Erster Prozess produktiv, mit Human-in-the-Loop bei niedriger Konfidenz. Wöchentliches Review: Welche Ausnahmen tauchen auf? Welche Skill-Kandidaten lassen sich daraus ableiten? Nach 90 Tagen folgt der Zwischenbericht — Kosten je Transaktion, gewonnene Zeit im Team, der nächste priorisierte Prozess.

Beispiel · 90 Tage in einem Mittelstandsbetrieb

Ein Automatisierer mit 80 Mitarbeitenden startete im Februar mit AP. Tag 14: Mandatspapier unterschrieben. Tag 30: zwei Anbieter im Test. Tag 60: produktiv mit Human-in-the-Loop. Tag 90: erster Zwischenbericht. 78 % der Rechnungen laufen ohne Nachbearbeitung durch. Der Controller hat zwei Tage pro Monat zurück.

Drei Dinge nach 90 Tagen
Was Sie der Geschäftsführung zeigen sollten

Ein Prozess produktiv, mit konfidenzbasiertem Workflow.
Drei Kennzahlen mit Vergleichswerten — vorher / nachher.
Ein priorisierter Fahrplan für die nächsten drei Prozesse.

Über den Herausgeber

Orcha — KI-native Finanz-Software
für den Mittelstand.

Orcha baut Finanz-Software, die es vor Large Language Models nicht geben konnte. Wir verarbeiten Belege, Rechnungen, Kontenabgleiche und Auswertungen vollautomatisch, über bestehende ERP-Systeme hinweg. Ohne Migration.

Diesen Leitfaden gibt es, weil viele Finanzteams die richtigen Werkzeuge zwar kennen — und bei der Entscheidung allein bleiben. Die Werkzeuge in diesem Leitfaden funktionieren unabhängig davon, ob Sie sich am Ende für Orcha entscheiden.

Mehr erfahren

getorcha.com — Produkt, Demo, Case Studies, weitere Beiträge der Orcha-Community.

Ausgabe 1 · Mai 2026 · Inhalt verdichtet aus 35 Beiträgen der Orcha-Community. Frei verteilbar. Quellen im Anhang.

Über den Herausgeber · Beispielrechnungen

Drei Beispielrechnungen —
was Orcha im Alltag bewegt.

Die folgenden Zahlen sind Beispielrechnungen mit klar genannten Annahmen, keine Werbeversprechen. Übersetzen Sie sie auf Ihre eigenen Mengen und Stundensätze — die Logik bleibt dieselbe.

Beispiel 01 · Kreditoren
Rechnungseingang (AP)

100 Rg/Monat × 12 Min = 20 h; 500 Rg = 100 h.

Mit Orcha (~80 % touchless): ~4 h bzw. ~20 h.

Differenz: ~16 h bzw. ~80 h/Monat.

≈ 7.000 € bzw. 33.000 € p.a.

Annahme: 35 €/h Vollkosten Sachbearbeitung, 12 Monate.

Beispiel 02 · Debitoren
Forderungsmanagement (AR)

DSO −10 Tage durch konsistentes, früheres Mahnen.

Bei 20 Mio. € Umsatz: ~550 000 € freies Working Capital.

Bei 5 % Finanzierungskosten: jährliche Ersparnis...

≈ 27 000 € p.a.

Annahme: B2B-Kundenbasis. Bei öffentlicher Hand oder Privatkunden separat zu rechnen.

Beispiel 03 · Abschluss
Monatsabschluss

Closing aktuell: 5 Tage → mit KI-Vorbereitung: 3 Tage.

2 Tage × 3 Personen × 8 h = 48 h/Monat.

Plus: zwei Tage früher belastbare Zahlen.

≈ 23 000 € p.a.

Annahme: 40 €/h Vollkosten Buchhaltung, 12 Monate.

Integration

Wir docken dort an, wo Sie heute arbeiten.

Ihre WeltAnbindung über Orcha
DATEV · Unternehmen Online, BuchungsdatenserviceBuchungssatz-Export, Belegbilder, Stammdaten-Sync — direkt für Ihren Steuerberater nutzbar.
SAP · S/4HANA, ECCOData- / iDoc- / BAPI-Anbindung an FI/CO, Posting in Buchungskreise, Stammdaten-Abgleich.
proALPHA, abas, Sage, MS DynamicsStandard-Schnittstellen für Belege, Bestellungen und Buchungssätze — keine Eigenentwicklung nötig.
Excel, E-Mail, Bank-PortaleKI liest direkt aus PDF-Anhängen, CSV-Exporten und Kontoauszügen — ohne neuen Eingabekanal.

Konkrete Zahlen für Ihre Mengen und Ihr ERP: getorcha.com.

Anhang

Mini-Glossar & Quellen.

Acht Begriffe, die in diesem Leitfaden vorkommen

LLM (Large Language Model)
Das Modell hinter Claude, ChatGPT oder Gemini. Erzeugt Text anhand statistischer Muster — nicht durch Datenbankabfragen.
Token
Worteinheit, die KI-Kosten bestimmt. 200 Seiten ≈ 80 000 Tokens.
Kontextfenster
Wie viel Text die KI "auf einmal" lesen kann. Reicht heute für ganze Verträge oder Quartalsberichte.
Prompt
Die Anweisung an die KI. Bessere Prompts = bessere Ergebnisse — wichtiger als das gewählte Modell.
Halluzination
Wenn die KI eine plausibel klingende falsche Antwort gibt. Kein Fehler, sondern ein Systemmerkmal. Kritische Angaben stets gegenprüfen.
RAG (Retrieval-Augmented Generation)
Methode, mit der KI auf Ihre internen Dokumente zugreift, bevor sie antwortet.
Agent
KI, die eigenständig mehrere Schritte ausführt — nicht nur antwortet, sondern handelt.
Konfidenz-Score
Masszahl dafür, wie sicher sich die KI bei einer Extraktion ist. Grundlage für Workflows mit menschlicher Prüfinstanz. Schwelle pro Use Case konfigurierbar.

Quellen

Standish Group (Erfolgsquote interner IT-Projekte) · Gartner (TCO, Build-vs-Buy-Regel) · Ardent Partners 2025 (AP-Automatisierungsgrade) · McKinsey 2025 (ERP-Migration vs KI-Layer, Monatsabschluss) · APQC, Billentis, PYMNTS, IOFM (AP-Benchmarks) · Bessemer (KI-Margen) · Anthropic Wall Street Prep Benchmark (Excel-Modellierung) · BaFin / FINRA 2026 (Governance) · EU AI Act (Feb 2025 in Kraft, Aug 2026 High-Risk-Enforcement).

Alle 35 Originalbeiträge der Orcha-Community: getorcha.com/de/community

Anhang · Prompt-Vorlagen

Sechs Vorlagen, die ein
Finanzteam morgen einsetzen kann.

Kopieren, eigene Daten und Kontext einfügen, fertig. Funktioniert in Claude direkt und in der Excel-Integration. Ersetzen Sie [Platzhalter] durch Ihre Werte.

01 · Mahnung mit Skonto-Hinweis

"Du bist mein AP-Manager. Verfasse eine freundliche, aber bestimmte E-Mail an [Lieferant] zur [X] Tage überfälligen Rechnung [Nr.]. Erwähne, dass wir bei Zahlung bis [Datum] Skonto beanspruchen. Ton: respektvoll, kurz, Geschäftsbeziehung bleibt erhalten."

02 · Skonto-Optimierung

"Du bist mein Treasury-Analyst. Anhang: Liste der Aussenstände mit Skonto-Bedingungen. Welche Rechnungen sollten wir mit Skonto bezahlen, gegeben ein Hausbankzins von [X] %? Sortiere nach Effektivgewinn."

03 · Abweichungsanalyse

"Du bist FP&A-Analyst. Anhang: Plan-Ist-Vergleich Q[N]. Identifiziere die fünf grössten Abweichungen je Kostenstelle, erkläre wahrscheinliche Treiber und schlage drei Rückfragen an den Cost-Center-Owner vor."

04 · Vertragsanalyse · IFRS 16

"Du bist Bilanzspezialist. Anhang: Mietvertrag. Beurteile, ob er nach IFRS 16 als Right-of-Use-Asset zu aktivieren ist. Liste die kritischen Klauseln, deine Schlussfolgerung und offene Punkte zur Klärung."

05 · Lieferanten-Risikoscore

"Du bist Procurement-Analyst. Anhang: Top-20-Lieferanten mit Umsatzanteilen. Bewerte je Lieferant: Konzentrationsrisiko, Ersetzbarkeit am Markt, geografisches Risiko. Score 1 (niedrig) bis 5 (kritisch), mit Begründung."

06 · Aufsichtsrats-Vorlage

"Du bist mein Stabschef. Anhang: Monatsabschluss [Monat]. Verfasse die Aufsichtsrats-Vorlage: zwei Seiten, Ton sachlich-knapp, Reihenfolge GuV → Bilanz → Cashflow → drei wichtigste Themen aus dem Monat. Vermeide Bullet-Spam."

Bessere Prompts schlagen bessere Modelle. Die Vorlagen funktionieren mit Claude, ChatGPT, Gemini oder Copilot — aber nur mit echtem Kontext und auf eigenen Daten. Mehr Vorlagen im Beitrag "KI-Shortcuts & Tipps" auf getorcha.com/de/community.