Training Testing von KI-Anwendungen

Testing von KI-Anwendungen

Wie prüfst Du das Unvorhersehbare?

Nicht-deterministische Black-Box-Systeme testen

Testing ist ein entscheidender Erfolgsfaktor für selbst entwickelte KI-Anwendungen, weil es der Weg ist, ihr Verhalten transparent zu machen, Zuverlässigkeit zu belegen und Vertrauen in diese komplexen Systeme herzustellen. Die Frage ist nur, wie du dabei vorgehst. In traditionellen Softwaresystemen ist der Code transparent und testbar. In generativen KI-Systemen wie Large Language Modells (LLMs) hingegen kannst du herkömmliche Testing-Konzepte nur teilweise anwenden.
Nimm' beispielsweise die Aufgabe, eine Metrik über einen Evaluierungs-Datensatz zu ermitteln, oder die Güte einer Metrik zu bestimmen - das machst du als Entwickler*in sonst nicht.

Ein richtig implementierter Testing-Ansatz schafft einen positiven Kreislauf, in dem KI-Anwendungen durch kontinuierliches Feedback stetig verbessert werden. Das erfordert ein Evaluierungsframework mit klaren Methoden und Metriken zur Qualitätssicherung, ganz besonders in Systemen, die strengen Compliance-Anforderungen und Regularien unterliegen. Das ist genau die Art von Projekten, in denen unsere Trainer selbst arbeiten. Daher können sie in diesem Training ihre Erfahrungen teilen, Best Practices vorstellen und Hilfestellungen geben.

Es gibt neue Regeln, mit denen sich Entwickler*innen auseinandersetzen müssen. In diesem Training zeigen wir Dir, wie Du das möglichst effizient tun kannst.

Die Zielgruppe

Professionelle IT'ler, die GenAI Anwendungen selbst entwickeln

Die Themen des Trainings

Testing vs. Evaluierung: Unterschiede zwischen herkömmlichem Software-Testing
und KI-Testing
- Welche Komponenten können getestet werden?
- Welche Komponenten können nur evaluiert werden?
Umgang mit nicht-deterministischem Verhalten
- Statistische Methoden
- Quality Gates mit Schwellwerten
Metriken und Qualitätskriterien
- Auswahl geeigneter Metriken
- Sicherstellung der Aussagekraft und Validität von Metriken
- LLM as a Judge
Aufbau eines Evaluierung Datensets
Evaluate the Evaluator
- Methoden zur Bewertung der automatisierten Evaluierung
Implementierung von Feedback-Schleifen
Strategien zur ressourceneffizienten Evaluierung
Evaluierungsplattformen

Was ist das Besondere an diesem Training?

Dieses eintägige Training besteht aus ca. 50% Theorieanteil und 50% Praxis. Beide Teile beruhen auf den Erkenntnissen der Trainer*innen aus realen Aufgaben und Projekten. Das ist in diesem Fall umso wertvoller, als es auf einem derart neuen Gebiet naturgemäß bisher wenig Erfahrung gibt. Speziell der KI-Einsatz in stark regulierten Umfeldern ist unseren Trainer*innen bestens vertraut. Die Teilnehmenden können in diesem Training selbst - und unter fachkundiger Anleitung - mit neuen Testkonzepten experimentieren. Sie erhalten wertvolle Hilfestellungen, wie sie in ihren eigenen Projekten ein passendes Evaluierungsframework erstellen und nutzen können.

Wir bieten dieses Training exklusiv als Inhouse/Private Training an.

Testing von KI-Anwendungen

Nicht-deterministische Black-Box-Systeme testen

Deine Ansprechpartnerin für Trainings: Yvonne Zimmermann