Skip to the main content.

4 Min. Lesezeit

AI Evals erklärt: LLM-Outputs evaluieren und die Herausforderungen dahinter

AI Evals erklärt: LLM-Outputs evaluieren und die Herausforderungen dahinter

Wer die technischen KI-Neuigkeiten verfolgt, wird den Begriff „Evals" in letzter Zeit überall gesehen haben. In diesem Beitrag schlüsseln wir auf, was hinter AI Evaluations steckt, indem wir sie mit dem vergleichen, was wir bereits über Software-Tests wissen, und Ansätze vorstellen, wie sich LLM-basierte Systeme evaluieren lassen.

Jedes Unternehmen will heute ein AI-Unternehmen sein. Die Adaption von KI überholt dabei das Vertrauen in sie bei weitem: Laut dem DORA State of AI-assisted Software Development Report 2025 haben zwar 90 % der Befragten KI eingeführt, aber nur rund 25 % vertrauen dem, was KI-Systeme produzieren. Diese Aufbruchsstimmung trifft nun auf die Realität des Marktes und viele AI-Projekte scheitern. Was es braucht, ist mehr Vertrauen in KI-Systeme. Genau hier kommen Evals ins Spiel.

 

Der Paradigmenwechsel

Eine AI Evaluation ist im Kern ein Verfahren, das überprüft, ob eine KI-basierte Anwendung wie erwartet funktioniert. Darin ähnelt es den Software-Tests, die wir schon immer kennen. Beispiele für Evals sind etwa die Überprüfung, ob ein Chatbot eine sachlich korrekte Antwort gibt, oder ob ein juristischer KI-Assistent bei einem konkreten Fall den richtigen Präzedenzfall auswählt.

Der wichtigste Unterschied zwischen einem Software-Test und einem Eval liegt in einem grundlegenden Paradigmenwechsel. Konventionelle Software verhält sich deterministisch: Ein bestimmter Input führt in der Regel zu einem vorhersehbaren Output. Bei KI-basierten Anwendungen sind sowohl der Input- als auch der Output-Raum unbegrenzt.

Die meisten LLMs nehmen heute Text, Video und Bilder als Input entgegen. Selbst bei rein textbasierten Eingaben sind diese offen und unstrukturiert. Teams, die AI-Produkte entwickeln, haben weit weniger Kontrolle darüber, wie ihre Nutzer mit der Anwendung interagieren. Und selbst bei identischem Input können KI-Systeme aufgrund ihrer probabilistischen Natur unterschiedliche Outputs liefern. Diese Nicht-Determiniertheit stellt Testing vor ganz neue Herausforderungen.

Eine weitere Schwierigkeit ist die Subjektivität mancher LLM-Outputs. Deterministische Software lässt sich anhand objektiver Kriterien prüfen — etwa ob ein bestimmter Text auf dem Bildschirm erscheint oder ob eine mathematische Operation das erwartete Ergebnis liefert. Ein Chatbot hingegen soll vielleicht einen freundlichen Ton anschlagen und beleidigende Sprache vermeiden. Solche Anforderungen sind schwer zu formalisieren.

Dennoch kann es nicht sein, dass wir KI-Systeme nur nach Bauchgefühl beurteilen. Wie bei konventioneller Software müssen Evaluierungen strukturiert und methodisch durchgeführt werden und zu datengestützten Ergebnissen führen. Im folgenden Abschnitt stellen wir verschiedene Ansätze für das Schreiben von Evals vor,  geordnet entlang eines Spektrums, das von klassischen Software-Tests bis hin zu grundlegend neuen Verfahren reicht.

Diagramm KI Systemausgaben validieren

 

Unser Beispiel: Ein Chatbot

Ein konkretes Beispiel hilft dabei, die verschiedenen Kategorien von Evals zu verstehen.

Nehmen wir an, ein Unternehmen hat folgende Abfindungsregelung für seine Mitarbeitenden:

Wird ein Beschäftigungsverhältnis oder ein Vertrag beendet, kann die betroffene Person Anspruch auf ein Abfindungspaket haben. Bei einer Betriebszugehörigkeit von weniger als einem Jahr besteht ein Anspruch auf 4 Wochen Vergütung. Bei einer längeren Zugehörigkeit kommen für jedes vollendete Beschäftigungsjahr 2 weitere Wochen hinzu — bis zu einem Maximum von 16 Wochen. Bei einer Kündigung aus wichtigem Grund, etwa wegen Fehlverhaltens, Verstößen gegen Unternehmensrichtlinien oder dem Konsum von Substanzen während der Arbeit, entfällt der Abfindungsanspruch.

Das zu testende KI-System ist ein Chatbot, der Zugang zu solchen Informationen hat.

 

Deterministische Outputs evaluieren

In vielen Fällen lässt sich eine KI-Anwendung dazu bringen, deterministische Outputs zu liefern, in der Regel bei faktenbasierten Antworten oder Entscheidungen, die sich in vorhersehbare Formate fassen lassen.

Bezogen auf unser Beispiel könnte ein Eval so aussehen: „Auf wie viele Wochen Abfindung hat eine Person Anspruch, die genau nach einem Jahr Betriebszugehörigkeit entlassen wird? Antworte mit einer ganzen Zahl." Anschließend wird geprüft, ob die Antwort 6 ergibt.

Ein weiterer Eval könnte testen, ob folgender Prompt ein „Nein" zurückliefert: „Hat eine Person mit einer Betriebszugehörigkeit von 38 Monaten, die aus wichtigem Grund entlassen wurde, Anspruch auf Abfindung? Antworte mit ‚ja' oder ‚nein'."

Diese Art deterministischer Evals ist konventionellen Software-Tests am ähnlichsten — dank ihrer vorhersehbaren Outputs sind sie effizient und stabil. Eine Eval Suite kann daher vergleichsweise viele solcher Tests enthalten.

 

Objektives Verhalten evaluieren

Auch bei Freitextantworten lässt sich in vielen Fällen erwarten, dass bestimmte Fakten zuverlässig enthalten sind. Der genaue Wortlaut kann variieren, der Inhalt lässt sich aber dennoch objektiv prüfen.

Wird der Chatbot nach der Abfindungsregelung gefragt, sollte seine Antwort mindestens folgende Informationen enthalten: Bei weniger als einem Jahr Betriebszugehörigkeit gibt es 4 Wochen Abfindung. Für jedes vollendete Beschäftigungsjahr kommen 2 weitere Wochen hinzu. Die maximale Abfindung beträgt 16 Wochen. Bei Kündigung aus wichtigem Grund entfällt der Anspruch.

Für solche Fälle eignen sich statistische Metriken wie der F-Score. Eine Antwort gilt als vollständig (perfekter Recall), wenn sie alle oben genannten Informationen enthält. Sie gilt als präzise (perfekte Precision), wenn sie keine falschen Zusatzinformationen enthält. Der F-Score kombiniert Recall und Precision zu einer Gesamtbewertung.

Im Gegensatz zu einfachen Pass/Fail-Ergebnissen lassen sich Precision und Recall als Prozentwert ausdrücken. Der Chatbot könnte beispielsweise 3 der 4 Fakten korrekt wiedergegeben und einen weiteren Fakt halluziniert haben — in diesem Fall wären beide Werte unter dem Idealwert von 1,0.

Für die eigentliche Durchführung des Evals kann die Chatbot-Antwort in einzelne Faktenaussagen zerlegt werden. Diese lassen sich dann entweder von einem menschlichen Fachexperten oder von einem kalibrierten LLM Judge mit einer Referenz abgleichen. In beiden Fällen verbessern einige wenige Beispiele zur Orientierung die Qualität der Bewertung deutlich.

 

Subjektives Verhalten evaluieren

Manchmal sind die Bewertungskriterien subjektiv. Eine gute Antwort eines Conversational Agents muss nicht nur inhaltlich stimmen, sondern auch klar, prägnant und verständlich sein. Klarheit, Prägnanz und Verständlichkeit sind jedoch subjektive Qualitäten. Anforderungen wie Freundlichkeit oder ein bestimmter Tonfall lassen sich noch schwerer greifen.

In solchen Fällen sollte eine Fachexpertin oder ein Fachexperte die Grundlage für die Bewertung definieren, am besten anhand konkreter Beispiele.

Frage: Hat eine Person, die aus wichtigem Grund entlassen wurde, Anspruch auf Abfindung?

Klare, prägnante Antwort: „Nein. Personen, die aus wichtigem Grund entlassen werden — etwa wegen Fehlverhaltens, Verstößen gegen Unternehmensrichtlinien, Ungehorsamkeit oder dem Konsum von Substanzen während der Arbeit — haben keinen Anspruch auf Abfindung."

Ausschweifende, unklare Antwort: „Das ist eine wirklich wichtige Frage! Lassen Sie mich erklären, wie das bei uns funktioniert. Unser Unternehmen hat eine Abfindungsregelung für Mitarbeitende, die das Unternehmen verlassen. Diese Regelung gilt für verschiedene Szenarien, je nach Betriebszugehörigkeit. Aber hier ist der entscheidende Punkt: Wenn jemand aus wichtigem Grund entlassen wird, ist die Situation eine völlig andere. In diesen Fällen hätte die betroffene Person leider keinen Anspruch auf das standardmäßige Abfindungspaket."

 

Das Unerwartete nicht vergessen

Evals sollten nicht nur das erwartete Nutzerverhalten abdecken, sondern auch wichtige Edge Cases. Jede KI-Anwendung hat Grenzen — sowohl was ihr Wissen betrifft als auch was die Use Cases angeht, für die sie gedacht ist. Evals müssen prüfen, ob die Anwendung zugibt, wenn sie eine Frage nicht beantworten kann. Sie müssen sicherstellen, dass die Anwendung ablehnt, sich zu Themen außerhalb ihres Zuständigkeitsbereichs zu äußern. Und sie müssen testen, ob die Anwendung dazu gebracht werden kann, sensible Informationen preiszugeben. Solche Evals sind entscheidend dafür, dass eine KI-Anwendung auch bei unerwarteten oder adversarialen Eingaben die Interessen des Unternehmens schützt.

Wir haben nun gesehen, wie ähnlich und wie unterschiedlich Evals und Software-Tests sind. Beide geben uns Sicherheit, dass eine Anwendung wie gewünscht funktioniert. Beide sollen verhindern, dass eine Anwendung im Laufe der Weiterentwicklung schlechter wird. Evals stellen uns aber vor zusätzliche Herausforderungen: Manchmal müssen wir nicht nur die Form einer Antwort prüfen, sondern ihren Inhalt. Wir müssen von simplen Pass/Fail-Entscheidungen zu Bewertungen übergehen, deren Werte in einem akzeptablen Bereich liegen. Und wir müssen lernen, mit adversarialen und unerwarteten Inputs umzugehen.

 

AI Eval Spectrum Diagramm

Die KI-Entwicklung schreitet so schnell voran, dass die Grenzen zwischen konventioneller und KI-basierter Software zunehmend verschwimmen. Engineering-Teams werden künftig konventionelle Software-Tests und Evals nahtlos miteinander verbinden müssen. Wir hoffen, dass dieser Beitrag ein besseres Verständnis dieses Begriffs vermittelt — dem man in Zukunft nur noch häufiger begegnen wird.

 

Sprechen Sie mit unseren Experten

 

Quellen und weiterführende Literatur:

 
 
 
 

Blog

AI on Trial – Impulse von der EuroSTAR 2025

AI on Trial – Impulse von der EuroSTAR 2025

Im Mai 2025 brachte die EuroSTAR-Konferenz erneut die europäische Softwaretest-Community zusammen – dieses Mal in Edinburgh unter dem Motto "AI on...

Mehr lesen
KI-gestütztes Performance Testing: Wie Sie Ihre Systeme für die Zukunft wappnen

KI-gestütztes Performance Testing: Wie Sie Ihre Systeme für die Zukunft wappnen

In den heutigen, stark vernetzten digitalen Ökosystemen sind die Erwartungen der Nutzer immens hoch. Eine Verzögerung von nur 500 Millisekunden kann...

Mehr lesen
EU AI Act: Warum KI-Kompetenz jetzt Pflicht ist

EU AI Act: Warum KI-Kompetenz jetzt Pflicht ist

EU AI Act legt Fokus auf "AI Literacy" Mit dem Inkrafttreten des EU AI Act am 1. August 2024 - und dem Geltungsbeginn wichtiger Pflichten ab dem 2....

Mehr lesen