Ein LLM weiß alles. Leider auch das, was es nicht weiß. Beginnt die KI erst einmal, eine Antwort auf einen User-Prompt zu generieren, bricht sie selbst dann nicht ab, wenn sie ihr Unwissen bemerkt. Zwar versuchen die großen LLM-Dienste dagegen Maßnahmen zu ergreifen, aber diese laufen öfters ins Leere. Dass LLMs halluzinieren, ist ihrer Arbeitsweise geschuldet, weil sie den Antrieb haben, bei der Vorhersage des nächsten Tokens immer eine statistisch brauchbare Antwort zu liefern. Zudem arbeiten sie mit Trainingsdaten, die nicht immer kuratiert vorliegen, also beispielsweise Bias und Unwahrheiten beinhalten können.
Wer als Sprachmodelle die sogenannten Frontier-Modelle von ChatGPT oder Antrophic für das eigene Unternehmen oder privat einsetzt, sollte bedenken, dass User-Prompts samt der zugehörigen Antworten außerhalb der eigenen Infrastruktur auf US-amerikanischen Servern landen. Darunter können sich auch vertrauliche Fakten von Unternehmen oder ihrer Kunden mischen. Insofern müssen sich Anwender ganz genau überlegen, mit was sie diese Remote APIs füttern.
Eine Alternative sind herunterladbare, freie Open-Source/Open-Weights-LLMs. Diese lassen sich bei Bedarf lokal finetunen oder mit Retrieval-Augmented Generation erweitern. Dadurch begrenzt sich die Wahl von LLMs allerdings auf solche, für deren Inferenz sich in der eigenen Infrastruktur ausreichende Kapazitäten hinsichtlich GPUs und VRAM finden. Kommt die Inferenz nur auf 1 bis 2 Tokens pro Sekunde, können Nutzer damit nur wenig anfangen.
Was Anwender manchmal übersehen, ist das Problem der Kontextlänge, also der Größe des Speichers, in dem sich LLM-Anwendungen ihr temporäres Wissen merken. Das Überlaufen dieses Speichers macht sich dann bemerkbar, wenn das LLM plötzlich beginnt, vorhergehende Interaktionen zu vergessen. Um das Problem zu vermeiden oder zumindest hinauszuzögern, haben neuere Modelle diesen Erinnerungsspeicher inzwischen auf bemerkenswerte Größen aufgebläht. Aber: je größer die Kontextlänge, desto schlechter die Antwortgeschwindigkeit und desto höher der Ressourcenbedarf von selbst-gehosteten Modellen. Wenn Sie sich fragen, wofür denn Kontexte in Größenordnungen von einer Million Tokens notwendig sein könnten: Codebasen kommerzieller Anwendungen erreichen sehr schnell derartige Größenordnungen. Ein LLM-gestütztes Werkzeug zur Codeanalyse solcher Codebasen benötigt deshalb viel Kontextwissen.
Die Unterscheidung von Original und Fake gilt in Zeiten von LLMs, Bild-, Audio- und Video-Generatoren als weitere Herausforderung. Wenn beispielsweise Entwickler Sprachmodelle zur Code-Generierung einsetzen und sich zu 100 Prozent auf das Ergebnis verlassen, tappen sie unbewusst in eine Falle. Zum einen lässt manch generierter Code eine gute Struktur vermissen, zum anderen können sich dort auch signifikante, schwer zu lokalisierende Fehler einnisten. Daher ist es sinnvoll, dem Ergebnis erst einmal nicht zu vertrauen, sondern es gründlich zu überprüfen.
Wo viel Schatten, da auch viel Licht, würden Sonnenanbeter und LLM-Enthusiasten an dieser Stelle einwenden. Und in dieser Hinsicht haben sie natürlich recht. Generative KI bringt viele Chancen mit sich. Diese sollten wir nutzen, ohne die beschriebenen Gefahren zu ignorieren. Das Gebiet der KI hat sich mittlerweile von einem exotischen Außenseiter zu einem mächtigen Werkzeugkasten gemausert. Gute Detailkenntnisse über KI gehören heutzutage in jeden Lebenslauf. Die Fähigkeiten von LLMs führen zu Produktivitätssteigerungen und innovativen Anwendungen, die sich nicht nur mit Python, sondern auch mit Java umsetzen lassen. Dazu finden Sie viele Beiträge in der vorliegenden Ausgabe.
Ihr Prof Dr. Michael Stal