Zum Inhalt gehen
Public Sector

KI-Agenten für die Verwaltung: Wie die Bundesagentur für Arbeit große Sprachmodelle einsetzt

Mit dem gezielten Einsatz von KI-Agenten testet die Bundesagentur für Arbeit (BA), wie sich technologische Innovation mit den hohen Anforderungen des öffentlichen Sektors vereinen lässt.

Dieser Artikel von Eldar Sultanow (Capgemini) und Florian Winzer (Bundesagentur für Arbeit) erschien ursprünglich im Behördenspiegel, Juni 2025.

Das Ziel ist ambitioniert: Änderungsanforderungen (Request for Change,kurz RfC-Dokumente) und Nutzeranforderungen (User Stories) sollen nicht mehr von Menschen in Jira-Tickets übersetzt werden. Diese Aufgabe übernimmt künftig ein intelligenter Agent – automatisch, zuverlässig und datenschutzkonform. Im Kontext des IT-Verfahrens ALLEGRO haben Architekten der BA und Kollegen von Capgemini sinnvolle Use Cases für KI-Agenten erarbeitet und setzen die Agenten zur Erstellung von Jira-Tickets um.

ALLEGRO bildet zentrale Förderprozesse nach dem SGB II ab – von der Antragstellung über die Bewilligung bis zur Abrechnung und Bescheidung. Das System wird von über 40.000 Anwendern genutzt und verarbeitet jährlich ein Transaktionsvolumen im Milliardenbereich.

Weniger Routine, mehr Wirkung

Verwaltungen kämpfen mit wachsenden Aufgaben, komplexen ITLandschaften und knappen Ressourcen. Gleichzeitig schlummern gerade in den standardisierten Prozessen enorme Potenziale für Automatisierung – wenn sie intelligent umgesetzt werden. Klassische Lösungen zur Robotic Process Automation (RPA) stoßen dabei schnell an ihre Grenzen.

Mit Sprachmodellen, also Large Language Models (LLMs), eröffnet sich ein neuer Weg: flexibel, kontextsensitiv und sprachbasiert. Genau hier setzt das Pilotprojekt der Bundesagentur für Arbeit an.

Was genau passiert da?

Statt Tickets manuell zu erstellen, übernimmt ein System aus mehreren KI-Agenten die Arbeit. Ein Reader-Agent liest die Anforderung und extrahiert relevante Inhalte aus RFCs oder User Stories. Ein Planner-Agent zerlegt die Aufgabe in konkrete Arbeitsschritte. Und ein Creator-Agent erstellt daraus automatisch ein vollständiges Jira-Ticket – mit Titel, Beschreibung, Priorität, Aufwandsschätzung und Kategorie (aktuell: „Aufgabe“). Die Aufwandsschätzung ist derzeit noch nicht implementiert. Das System muss zunächst mit Tausenden Tickets trainiert werden, wobei verschiedene Parameter wie Kategorie, Themengebiete, Schätzgrundlagen und Puffer berücksichtigt werden müssen.

Human-in-the-Loop

Abschließend prüft ein Reviewer-Agent das Ergebnis auf Konsistenz und Dubletten. Wenn der Reviewer-Agent Fehler findet, gibt er seinen Befund wieder an den Reader-Agent zurück. Das ist ein entscheidender Unterschied zur klassischen Automatisierung, deren Ergebnis deterministisch ist. Agenten verhalten sich analog zu Menschen: Zwei vergleichbar gut qualifizierte Gruppen von Menschen würden auch nicht zu zwei wortgleichen Ergebnissen kommen. Dennoch wären beide Ergebnisse gut genug, um darauf basierend weiterzuarbeiten. Dieselbe Güte erreicht hier eine Gruppe von KI-Agenten. Der „Human-in-the-Loop“ gibt die Tickets final frei. Klingt futuristisch? Ist es nicht – es läuft bereits in einer sicheren, abgeschirmten Pilotumgebung.

Technisch ganz vorne dabei

Zum Einsatz kommen ausschließlich lokal betriebene Modelle. Technisch ließe sich das Ganze auch in einer Cloud betreiben – ob private, hybrid oder public. Modelle wie Aleph Alpha (mit datenschutzkonformen APIs), LLaMA, Mistral oder Qwen liefern die nötige Intelligenz. Gesteuert wird das Ganze über CrewAI, eine Open-Source-Plattform für koordinierte Multi-Agenten-Systeme. Die Pilotumgebung ist vollständig in die lokale Jira-Instanz der Bundesagentur für Arbeit integriert – über klar definierte Schnittstellen der Jira-API sowie das Logging der verwendeten Frameworks.

Die ersten Ergebnisse sind beeindruckend

  • Die automatisierte Erstellung von Jira-Tickets funktioniert in den meisten Fällen reibungslos – mit Ausnahme sehr großer RFC-Dokumente.
  • Der wiederkehrende Aufwand, Tickets anzulegen, zu formulieren (Copy & Paste), die Beschreibung zusammenzufassen, einzufügen und zu speichern, entfällt.
  • Der Agent erstellt automatisch ein Ticket pro RFC mit den korrekten Eigenschaften wie Titel, Beschreibung und weiteren Details.
  • Titel und Beschreibung sind in den meisten Fällen plausibel und verständlich und spiegeln den Inhalt der Lösungsvorschläge gut wider.

Die Systemarchitektur erfüllt die Anforderung, dass das gesamte Training sowie die Verwendung der KI in der geschlossenen IT-Infrastruktur des IT-Systemhauses der Bundesagentur für Arbeit stattfinden. Das heißt: Keine Daten verlassen die Infrastruktur – alles läuft On-Premise.

KI ist kein Zauberstab

Eine besondere Herausforderung war die Integration in eine hochsichere On-Premise-Architektur. Dies erforderte umfangreiche Abstimmungen zwischen verschiedenen Einheiten, einschließlich Betrieb und Sicherheit. Unklare oder widersprüchliche Anforderungen führen zu Fehlern. Die Modelle müssen regelmäßig aktualisiert werden, was in einer rein lokalen Umgebung mehr Aufwand bedeutet. Und: Ohne Schulung wird der Mensch vor dem Bildschirm nicht automatisch zum KI-Experten. Deshalb gehören Schulung und Begleitung genauso zum Projekt wie die Technik selbst.

RFC-Dokumente können sehr unterschiedlich groß sein. Große RFCs umfassen teilweise über 20 Seiten. Beim Verarbeiten eines 26-seitigen RFCs wurde beispielsweise die Token-Grenze von 8192 Tokens überschritten (die Anfrage umfasste 8732 Tokens). Da die ersten Seiten unnötige Formalien und Leerzeichen enthielten, konnten diese entfernt werden. So blieb die Anfrage innerhalb des Tokenlimits und das Ticket konnte erstellt werden.

Ein Blick nach vorn

Was hier als Pilot begonnen hat, hat das Potenzial, zur Blaupause für die gesamte öffentliche Verwaltung zu werden. Auch wenn das Projekt noch viel Forschungs- und Umsetzungsleistung erfordert, könnten KI-Agenten künftig nicht nur in Jira unterstützen, sondern auch Fachverfahren, Dokumentenmanagement oder Bürgerkommunikation entlasten. Entscheidend ist, dass die Technologie nicht um ihrer selbst willen eingesetzt wird, sondern dort, wo sie echten Mehrwert schafft.

Verwaltung mit KI geht – jetzt

Die Bundesagentur für Arbeit zeigt, wie mit klarem Blick, solider Architektur und Mut zur Umsetzung neue Wege beschritten werden können. KI-Agenten übernehmen keine Jobs – sie übernehmen Routineaufgaben. So können Menschen das tun, was zählt: Entscheidungen treffen, Verantwortung tragen und Zukunft gestalten.

Unser Experte

Eldar Sultanow

Dr. Eldar Sultanow

Enterprise Architect, Capgemini
Dr. Eldar Sultanow hat langjährige Praxiserfahrung in der Softwareindustrie, insbesondere in den Bereichen JEE, Electronic/Mobile Commerce, Track-&-Trace und Auto-ID im Pharmabereich. In einem zwischenstaatlichen Projekt hat er eine Plattform mit konzipiert, an der internationale Finanzinstitute angeschlossen sind. Aktuell ist Eldar Sultanow als technischer Chefdesigner in einem der größten öffentlichen IT-Verfahren aktiv, das hunderttausende Transaktionen pro Tag mit einem Jahresvolumen von über 25 Milliarden EUR vollzieht.