Testing von KI-Anwendungen

Wie prüfst Du das Unvorhersehbare?

Nicht-deterministische Black-Box-Systeme testen

Testing ist ein entscheidender Erfolgsfaktor für selbst entwickelte KI-Anwendungen, weil es der Weg ist, ihr Verhalten transparent zu machen, Zuverlässigkeit zu belegen und Vertrauen in diese komplexen Systeme herzustellen. Die Frage ist nur, wie du dabei vorgehst. In traditionellen Softwaresystemen ist der Code transparent und testbar. In generativen KI-Systemen wie Large Language Modells (LLMs) hingegen kannst du herkömmliche Testing-Konzepte nur teilweise anwenden.
Nimm' beispielsweise die Aufgabe, eine Metrik über einen Evaluierungs-Datensatz zu ermitteln, oder die Güte einer Metrik zu bestimmen - das machst du als Entwickler*in sonst nicht.

Ein richtig implementierter Testing-Ansatz schafft einen positiven Kreislauf, in dem KI-Anwendungen durch kontinuierliches Feedback stetig verbessert werden. Das erfordert ein Evaluierungsframework mit klaren Methoden und Metriken zur Qualitätssicherung, ganz besonders in Systemen, die strengen Compliance-Anforderungen und Regularien unterliegen. Das ist genau die Art von Projekten, in denen unsere Trainer selbst arbeiten. Daher können sie in diesem Training ihre Erfahrungen teilen, Best Practices vorstellen und Hilfestellungen geben.

Es gibt neue Regeln, mit denen sich Entwickler*innen auseinandersetzen müssen. In diesem Training zeigen wir Dir, wie Du das möglichst effizient tun kannst.

  • Professionelle IT'ler, die GenAI Anwendungen selbst entwickeln
  • Testing vs. Evaluierung: Unterschiede zwischen herkömmlichem Software-Testing
    und KI-Testing
    • Welche Komponenten können getestet werden?
    • Welche Komponenten können nur evaluiert werden?
  • Umgang mit nicht-deterministischem Verhalten
    • Statistische Methoden
    • Quality Gates mit Schwellwerten
  • Metriken und Qualitätskriterien
    • Auswahl geeigneter Metriken
    • Sicherstellung der Aussagekraft und Validität von Metriken
    • LLM as a Judge
  • Aufbau eines Evaluierung Datensets
  • Evaluate the Evaluator
    • Methoden zur Bewertung der automatisierten Evaluierung
  • Implementierung von Feedback-Schleifen
  • Strategien zur ressourceneffizienten Evaluierung
  • Evaluierungsplattformen

Dieses eintägige Training besteht aus ca. 50% Theorieanteil und 50% Praxis. Beide Teile beruhen auf den Erkenntnissen der Trainer*innen aus realen Aufgaben und Projekten. Das ist in diesem Fall umso wertvoller, als es auf einem derart neuen Gebiet naturgemäß bisher wenig Erfahrung gibt. Speziell der KI-Einsatz in stark regulierten Umfeldern ist unseren Trainer*innen bestens vertraut. Die Teilnehmenden können in diesem Training selbst - und unter fachkundiger Anleitung - mit neuen Testkonzepten experimentieren. Sie erhalten wertvolle Hilfestellungen, wie sie in ihren eigenen Projekten ein passendes Evaluierungsframework erstellen und nutzen können.

Wir bieten dieses Training exklusiv als Inhouse/Private Training an.

Deine Ansprechpartnerin für Trainings: Yvonne Zimmermann

Du hast Fragen zu einem Training? Oder möchtest Dich unverbindlich informieren?

Yvonne Zimmermann berät Dich gerne. Du erreichst sie unter:

+49 (0) 721 6105 -160

trainings@andrena.de