Large Language Models testen mit EVALs – Qualität messbar machen
Large Language Models stellen Tester vor besondere Herausforderung, denn LLMs sind keine klassische Software im herkömmlichen Sinn. Sie liefern keine strikt deterministischen Antworten, sondern generieren Wahrscheinlichkeiten in Textform. Gleicher Input kann unterschiedliche Outputs erzeugen. Antworten können korrekt, teilweise korrekt, stilistisch überzeugend, aber faktisch falsch sein. Genau hier beginnt die Herausforderung für das Testen.