Testen im Zeitalter der LLMs: ein probabilistischer Ansatz gegen flakige Tests
Deterministische Assertions treffen auf nichtdeterministische Realität – und CI wird zum Würfelspiel: API-Latenz, Netzfehler, LLM-Variabilität. PUnit macht aus Unit-Tests statistische Prüfungen: Statt „ein Output ist korrekt“ wird geprüft, ob die Pass-Rate eine Mindestqualität mit definierter Konfidenz erreicht. Ergebnis: entscheidungsfähige Tests für stochastische Systeme – also „grün“ wird wieder vertrauenswürdig.