KI trainieren, finetunen oder mit RAG erweitern

Auch generative künstliche Intelligenzen müssen lernen bzw. trainiert werden. Sei es, um sie überhaupt erst aufzubauen, oder sie auf spezifische Informationen zu optimieren. An dieser Stelle ähneln sie durchaus dem Menschen. Auch wenn die Art und Weise natürlich sehr viel technischer und „einfacher“ funktioniert.

In diesem Artikel gehe ich auf einer grundsätzlichen Ebene auf das Thema ein. Besonders relevant für den Einsatz in Unternehmen ist dabei Punkt drei, die Verwendung eines RAG. Wenn Sie darüber hinaus Bedarf an praktischer Umsetzung haben, stehe ich Ihnen gerne zur Seite. Kontaktieren Sie mich einfach.

Eine KI trainieren

Um es gleich vorweg zu sagen: ein eigenes Large Language Model aufzubauen ist sehr kostspielig, zeitaufwändig und in 99,99% aller Fälle unnötig. Es steht eine Vielzahl an bereits fertigen Open Source Modellen und proprietären Angeboten wie ChatGPT zur Verfügung. Die Ressourcen kann man sich also für gewöhnlich ersparen.

Im Grundsatz funktioniert es so: Es wird ein gewaltiger, qualitativ hochwertiger Text-Datensatz (zig bis hunderte GB groß) zusammengetragen und in Token umgewandelt. Diese werden in Trainings-, Validierungs- und Testdatensätze aufgeteilt. Damit wird in Folge bildlich gesprochen das Neuronale Netz (für gewöhnlich ein GPT) aufgebaut.

Um ein LLM wie ChatGPT zu erzeugen, können Sie mit mehreren hundert Millionen Euro Kosten für Hardware und Arbeitskräfte rechnen. Zudem einige Monate Bearbeitungszeit. Etwas billiger sind kleinere Modelle. Aber wie oben schon geschrieben: Dieser Aufwand ist nicht nötig.

Finetuning eines LLM

Sehr viel effizienter ist es, ein bestehendes Open Source Modell zu nutzen und dieses auf die eigenen Anforderungen anzupassen. Solche Modelle gibt es in unterschiedlichen Größen. Von kleinen Varianten mit z.b. 3,8 Milliarden Parametern eines Phi3:mini (dieses nutze ich für meine Low-Tec-Demo; es gibt auch noch kleinere) bis hin zu großen Brocken mit 70 Milliarden oder noch mehr Parametern. Letztere übertreffen bereits Modelle wie ChatGPT 3.5 Turbo deutlich. Sie verlangen aber auch einiges an lokaler Hardware.

Haben Sie Ihre Modell-Wahl getroffen, geht es ans Finetuning. Dieses läuft ähnlich wie das Training ab (wenn auch mit einigen technischen Unterschieden). Auch hierfür werden große Mengen an Daten in der Größenordnung zwischen 500 MB bis 3 GB (je nach Anspruch an die LLM-Qualität auch höher) benötigt.

Kostentreiber beim Finetuning ist nicht nur die Hardware. Zumal an diese geringere Anforderungen als beim grundlegenden KI-Training gestellt sind. Besonders, wenn man es cloudbasiert durchführt (was jedoch Datenschutzfragen aufwirft). Zusätzlich ist die Zusammenstellung und Validierung des Datensatzes qualitativ aufwändiger als beim Training. In vielen Szenarien stehen oft auch nicht ausreichend Daten für ein Finetuning zur Verfügung. Je kleiner der Datensatz, desto geringer sind Anpassungsgrad und spätere Qualität des LLMs.

Gleichwohl belaufen sich die Kosten auf einem deutlich niedrigerem Level. In manchen Szenarien ist Finetuning deshalb ein guter Weg, effiziente und zugleich effektive Spezial-LLMs zu generieren. In Kombination mit RAG entstehen so mächtige Werkzeuge über dem Niveau proprietärer Modelle wie ChatGPT.

Erweiterung durch Retrieval Augmented Generation (RAG)

Sowohl LLM-Training als auch -Finetuning beheben einen der größten Nachteile von LLMs nicht: die fehlende Anpassung an aktuelle Veränderungen und Situationen. Ändert sich die Informations- und Datenbasis, müsste jedes Mal ein neues Fintuning des Basis-LLMs durchgeführt werden. Auch wenn dieses irgendwann über Routine beschleunigt werden kann, ist eine schnelle Anpassung meistens nicht machbar und zudem kostenintensiv.

Die Lösung liegt in RAG. Es ist sehr schnell an Veränderungen anpassbar (es müssen einfach nur die Daten geändert werden) und kostengünstiger als Finetuning. Der Umfang der Daten ist variabel und bedarf keiner Mindestgröße. Besonders für KI-Learning und Datenrecherche ist es die beste Lösung. Der Begriff selbst bezieht sich auf ein recht weites Feld von Umsetzungsvarianten.

Oft werden bei dieser Methode die spezifischen Daten/Informationen in dreidimensionale Datenbanken embeddet; also durch ein Embedding-Modell in Vektoren umgewandelt und gespeichert. Dies erhöht Effizienz und Effektivität der Anwendung, besonders mit sehr großen und unstrukturierten Daten. Bei einer Anfrage wird zunächst die Vektordatenbank durchsucht und das Ergebnis als Kontext an das LLM gesendet. Dessen Antwort entspricht sodann den spezifischen Informationen, die dem LLM selbst nicht bekannt sind (und durch diesen Vorgang auch nicht bekannt werden; Stichwort Datenschutz). Nachteile: Inhalte zu konkreten Suchbegriffen werden manchmal nicht oder unzureichend eingebunden. Zudem stellen Embedding-Modelle zusätzliche Hardwareanforderungen.

Weniger rechenintensiv sind RAGs mit klassischen Suchprozessen. Hier triggert die Chat-Eingabe eine Datenbanksuche und gibt das passendste oder alle Ergebnis(se) als Kontext an das LLM weiter. Damit wird sichergestellt, dass spezifische Inhalte kontrolliert dem LLM zur Verfügung stehen. Besonders im Lern-Bereich oder Prozess-Suchen ist dies die bevorzugte Variante. Auch wenn es Nachteile gibt. Je umfangreicher die Daten sind, desto unpraktikabler sind klassische Suchergebnisse. Unter Umständen bläht sich der LLM-Kontext enorm auf, was hohe Hardwareanforderungen bedeutet. Oder es kann nur ein bestimmter Teil der relevanten Inhalte einbezogen werden.

Für zum Beispiel meine Low-Tec-Demo habe ich mich deshalb für eine halbautomatische Umsetzung eines RAG entschieden: Die LLM-Konversation dient als Such-Kontext. Dieser erzeugt eine Auswahl an „@Prompt“-Vorschlägen, die vom Nutzer manuell ausgewählt werden können.

Welche Art von RAG sich letztendlich durchsetzen wird, bleibt abzuwarten. Hier spielt auch die Weiterentwicklung von LLMs, Embedding-Modellen und nicht zuletzt der zur Verfügung stehenden Hardwarepower eine Rolle. Ebenso stellt sich die Frage: Wie viel Kontrolle soll beim Menschen verbleiben und wie sehr wollen wir uns auf KI-Systeme verlassen.

Unsere Zusammenarbeit

Sie möchten meine Kompetenz als Führungskräfte- und Personaltrainer für Ihr Unternehmen nutzen? Lehrende KI-Systeme integrieren? Oder ein LLM in die internen Informationsstrukturen einbinden? Dann kontaktieren Sie mich einfach.