4 Min. Lesezeit

EuroSTAR 2026: KI im Softwaretest, LLM-Testautomatisierung und was wir mitgenommen haben

Picture of Anupam Krishnamurthy Anupam Krishnamurthy : Donnerstag, 2.7.2026

AI Testautomatisierung KI Softwaretest

EuroSTAR 2026: KI im Softwaretest, LLM-Testautomatisierung und was wir mitgenommen haben

Die EuroSTAR ist Europas größte Software-Testing-Konferenz mit über tausend Teilnehmenden. TestSolutions war diesmal mit zwei Sprechern vertreten — Florian Fieber, unser Chief Process Officer und erfahrener Konferenzsprecher, sowie dem Autor dieser Zeilen, Anupam Krishnamurthy, Head of AI Testing bei der TestSolutions GmbH.

Für mich war es die erste EuroSTAR und ich war von der Größe der Konferenz ebenso beeindruckt wie von der Qualität der Sprecherinnen, Sprecher und Teilnehmenden. Die Konferenz wird jedes Jahr in einer anderen europäischen Stadt ausgerichtet. Die diesjährige Ausgabe hat in Oslo stattgefunden.

Wie zu erwarten war, war KI im Softwaretest das dominierende Thema des Jahres, sodass mehr als die Hälfte der Sessions einen KI-Bezug hatten. Mehrere Sessions beleuchteten die praktische, anwendungsorientierte Seite von KI im Testen: agentische Workflows, KI-gestütztes Test-Monitoring, Multi-Agenten-Orchestrierung und KI als Unterstützung beim explorativen Testen. Ein verwandter Themencluster befasste sich konkret mit dem Testen von KI selbst. Wie testet man KI-basierte Agenten am besten und welche Metriken sind wirklich aussagekräftig für die Bewertung generativer KI-Ausgaben? Auch das Thema KI-Sicherheit war vertreten – mit Vorträgen zu Prompt Injection und OWASP-LLM-Risiken. Bemerkenswert war jedoch, dass diese Konferenz keine unkritische KI-Begeisterungsveranstaltung war. Eine Reihe von Vorträgen hinterfragte den Hype explizit und stellte die Frage, ob KI wirklich das geliefert hat, was versprochen wurde. All dies passt sehr gut zu unserer Einstellung und unserem Umgang mit KI bei TestSolutions.

Die übrigen Vorträge konzentrierten sich auf das Handwerk der klassischen Testautomatisierung mit Fokus auf Grundlagen. Daneben gab es Sessions zur menschlichen Seite des Testens: Kritisches Denken, Psychologie, Führung und Kommunikation zeigten auf, warum Menschen auch im Zeitalter KI-gestützter Softwareentwicklung relevant bleiben. Einige Vorträge teilten Erfahrungen aus Qualitätstransformationen in großen Unternehmen, darunter erzielte Meilensteine, überwundene Hürden und gewonnene Erkenntnisse.

Global Test Factory: Erfahrungen aus der Lufthansa Group

Der erste der beiden TestSolutions-Vorträge wurde in Zusammenarbeit mit Susanne Kunkel aus der Test Factory der Lufthansa Group vorbereitet und von Florian Fieber, Chief Process Officer der TestSolutions GmbH in Oslo gehalten. Der Vortrag begann mit einer Beschreibung der Größe der Lufthansa Group und von TestSolutions und führte dann durch den Aufbau einer globalen Test Factory. Diese liefert konsistente, hochwertige Testleistungen über ein breites Spektrum an Projekten und Technologien hinweg – ein Wandel von einer fragmentierten und ineffizienten Vergangenheit hin zu einer harmonisierten und skalierbaren Gegenwart.

Anstatt abstrakt zu bleiben, verankerte die Session diese Bausteine in den konkreten Schwerpunkten, mit denen die Test Factory täglich arbeitet: Testdatenmanagement, Barrierefreiheitstests, skaliertes agiles Testen und zunehmend KI-bezogenes Testen. Besonders auffällig war die Offenheit, mit der Florian und Susanne auch die schwierigeren, weniger schmeichelhaften Aspekte des Prozesses schilderten. Das Kerngeschäft der Lufthansa ist das Fliegen, nicht das Schreiben von Software – IT und Testing wurden historisch intern als Kostenstelle betrachtet, nicht als Werttreiber. Eine Test Factory aufzubauen, bedeutete, gegen diesen Strom zu arbeiten.

Die Lufthansa Group operiert in einem komplexen internationalen regulatorischen Umfeld, das mehrere geografische Regionen umspannt. Das Bedürfnis nach Autonomie und Dezentralisierung musste mit Standardisierung und Skaleneffekten in Einklang gebracht werden. Der Vortrag beschrieb, wie die Sourcing-Anforderungen der Group zwischen intern und extern sowie zwischen Onsite- und Offshore-Expertinnen und -Experten variieren. Die Test Factory beschäftigt derzeit mehr als 250 Personen, davon 84 % offshore, die auf über 8 Business Units verteilt sind. Praxisbeispiele wurden sowohl für Wasserfall- als auch für skalierte Agile-Projekte gegeben. Ein besonders eindrucksvolles Ergebnis: Die Test Factory ist heute in der Lage, von der Bedarfsidentifikation in einem Projekt bis zur Besetzung dieses Bedarfs mit einer Offshore-Expertin oder einem Offshore-Experten innerhalb einer Woche zu handeln.

Was mich und mehrere andere im Publikum, die uns danach ansprachen, wirklich beeindruckt hat: Wie Florian Fieber es geschafft hat, zu einem so weitläufigen Thema so viele wertvolle Informationen zu vermitteln, alles zu einer kohärenten Erzählung zu verweben und dabei noch im 30-minütigen Zeitfenster zu bleiben.

EuroSTAR Vortrag von Florian Fieber der TestSolutions GmbH

Automatisiertes Testen von Large Language Models: Von statischen Assertions zu Urteilsvermögen

In meinem eigenen Vortrag begann ich mit der Geschichte der Flughafenkatastrophe von Teneriffa, bei der zwei Boeing 747 auf der Startbahn des Flughafens Los Rodeos kollidierten und 583 Menschen ihr Leben verloren. Ursache war eine Misskommunikation zwischen dem Tower und dem Piloten eines der Flugzeuge, die durch mehrdeutige natürliche Sprache ausgelöst wurde. Da unsere KI-Systeme heute auf Basis von Anweisungen in natürlicher Sprache kommunizieren und handeln, benötigen wir Mechanismen, die sicherstellen, dass Misskommunikation nicht zu Defekten oder Bugs – oder gar zu Katastrophen mit tödlichen Folgen – führt.

Anschließend erklärte ich die zentrale Herausforderung beim automatisierten Testen von Large Language Models. Da ihre Ausgaben probabilistisch und in natürlicher Sprache formuliert sind, kann dieselbe Eingabe zu unterschiedlichen Ausgaben führen, von denen mehrere korrekt sein können, ohne dass eine vorhersehbar wäre. Wir müssen uns von der Automatisierung statischer Assertions hin zur Automatisierung von Urteilsentscheidungen bewegen. Der Industriestandard für dieses Problem ist die Verwendung eines weiteren LLM, eines sogenannten LLM-as-a-Judge, zur Bewertung der Ausgaben des zu testenden LLM. Das Richter-LLM muss jedoch mit einer menschlichen Fachexpertin oder einem menschlichen Fachexperten abgestimmt werden, damit seine Bewertung zuverlässig ist.

Der Vortrag wurde von einer Live-Demo begleitet, in der ich den LLM-Judge-Abstimmungsprozess am Beispiel eines Airline-Kunden-Service-Chatbots demonstrierte. Die Abstimmung basiert auf einem Satz von Ground Truths, der auch als Golden Dataset bezeichnet wird und in diesem Beispiel aus einer Reihe von Fragen und klaren Bestehen/Nichtbestehen-Kriterien für die Bewertung jeder Frage besteht. Wir untersuchten, wie einfach dieser Prozess auf den ersten Blick wirken kann, aber mehrere Fallstricke birgt.

Sobald ein LLM-Judge abgestimmt hat, kann er wie ein kalibriertes Messinstrument eingesetzt werden, um Experimente durchzuführen, die das KI-System kontinuierlich verbessern. Dazu ändert man eine Komponente des Systems und lässt den LLM-Judge bewerten, ob sich die Änderung positiv oder negativ ausgewirkt hat. Genau hier entwickelt sich der LLM-Judge von einem automatisierten Test-Orakel zu einem Instrument für kontinuierliche Verbesserung.

Mein Vortrag kam sehr gut an. Er wurde vom Publikum zu einem der beiden besten Vorträge der Veranstaltung gewählt. Auf der Bühne wurden mir bereits einige Fragen gestellt, die zu inspirierenden Gesprächen führten, die noch lange danach weitergingen.

EuroSTAR_Anupam-Krishnamurthy_TestSolutions_06.2026

Nach der Konferenz ist vor der Konferenz

Florian Fieber und ich nehmen viele Ideen und jede Menge Inspiration mit, an denen wir weiterarbeiten werden. Am 10. Juli werde ich von 11:30 Uhr bis 12:15 Uhr die nächste Version meines Vortrags über LinkedIn präsentieren. Diesmal wird er auf Deutsch unter dem Titel „Können Sie Ihrem KI-Chatbot vertrauen? Mit Live-Test-Demo!”.

Alle, die meinen Vortrag bei der EuroSTAR verpasst haben oder eine neue, verbesserte Version zum Thema KI-Chatbot-Testing und LLM-Evaluation sehen möchten, sind herzlich eingeladen, dabei zu sein.

Sie interessieren sich für LLM-Testing für Ihr Unternehmen?

Möchten Sie erfahren, wie automatisiertes LLM-Testing und KI-Qualitätssicherung Ihren Softwareentwicklungsprozess optimieren können? Sprechen Sie uns an – wir teilen unsere Erfahrungen gerne mit Ihnen.