Ich habe in den letzten Folgen die eigentlichen Sprachmodelle nur gestreift, resp, irgendwelche kryptischen Namen wie Phi3:14b oder gemma3:12b oder auch gemma3-27b-abliterated-dpo.i1-IQ3_XS.gguf fallen lassen. Aber was soll das alles? Welches Sprachmodell soll man dann nehmen?

Die korrekte Antwort ist: Es kommt drauf an. Fangen wir vielleicht zuerst mit einem kleinen Exkurs an: Im Grunde schreibe ich in diesem und den letzten paar Artikeln gar nicht von LLMs, sondern von SLMs. LLMs (Large Language Models) laufen nur auf Hardware, die sich unsereins nicht leisten kann und will. Allein die Grafikkarten eines typischen LLM-Servers kommen gemäss Angaben von DeepSeek auf rund 80000 Euro. Dazu kommen Multiprozessorsysteme und viel Speicher. So ein LLM hat dann zum Beispiel 100 Milliarden “Neurone” (Parameter) und benötigt 200GB Arbeitsspeicher, um nur schon eingelesen zu werden.

Man kann solche Modelle aber, wenn sie mal fertig trainiert sind, “eindampfen” (Quantisieren): Man reduziert die Leistung bzw. Genauigkeit der einzelnen Parameter und braucht dadurch wesentlich weniger Speicherplatz. Dann entfernt man die, die nach dem Training offenbar nicht so wichtig waren, und hat am Ende vielleicht noch 1,2,3,6 oder 12 Milliarden Neurone mit reduzierter Genauigkeit, die sich in geläufige Hardware packen lassen. Man nennt diese Extrakte dann SLM - Small Language Models, auch wenn “small” nicht ganz richtig ist, die Dinger brauche immer noch Gigabytes von Speicher.

Nun ist klar, dass man unterschiedliche Techniken zum “Eindampfen” verwenden kann. Häufig geben die Autoren der Modelle dann nebst dem Ursprungs-LLM auch die Reduktionstiefe im Namen an. Dadurch entstehen diese etwas schwer verständlichen Namen.

Wobei man gemma3:12b ja noch leicht verstehen kann: Aus der Basis Gemma3 (Ein OpenSource LLM von Google) hat man ein Extrakt mit 12 Milliarden (billions) Parametern gezogen. Bei gemma3-27b-abliterated-dpo.i1-IQ3_XS ist es schon schwieriger. Offenbar war es dasselbe Basismodell, aber mit 27 Milliarden Parametern, dann aber auf bestimmte Art quantisiert, so dass diese 27 Milliarden Neurone am Ende erheblich weniger Speicher brauchen - auf Kosten der Genauigkeit. Häufig findet man im Hugging-Face-Repository vom selben Autor viele unterschiedliche Quantisierungen desselben Basismodells, oft auch mit Kommentaren über deren Eigenheiten.

Es gibt allerdings auch SLMs, die von vornherein neu entwickelt und trainiert wurden, also nicht voin einem grossen Basismodell “abstammen”. Hier ist dann die Qualität des Trainings ganz entscheidend, und häufig werden sie auch auf bestimmte Fachgebiete trainiert (z.B. als Chatbots von Online Shops oder Versicherungskonzernen etc.), haben also kein universelles “Wissen”, wie LLMs.

Kurz: Das Ganze ist sehr unübersichtlich. Bei einer derart neuen, in stürmischer Entwicklung befindlichen Technologie ist das auch nicht verwunderlich. Woran kann man sich festhalten?

  • Speicherbedarf: Idealerweise sollte das gewählte Modell in den Speicher Ihrer Grafikkarte passen. Hierbei ist allerdings nicht der Name entscheidend: Ein geeignet quantisiertes :27b - Modell kann durchaus in eine 16GB Grafikkarte passen. Es hilft nichts: Sie müssen die Dokumentation des Modells lesen, oder es einfach ausprobieren.
  • Ausgangsmodell: Man kann nach “Sympathie” oder erwarteter Qualität auswählen.
    • Phi ist eine SLM Serie von Microsoft. Vor allem die Phi-3.5 und Phi-4 Modelle sind interessant, beide gibt es in verschiedenen Grössen, die man je nach Hardware auswählen kann.
    • Qwen ist eine Familie von Modellen des chinesischen AliBaba-Konzerns, die sich vor allem durch ihre Sprachkenntnisse (können in 29 Sprachen kommunizieren) auszeichnen. (Ebensowenig wie die anderen Modelle sendet Qwen Daten aus dem lokalen System nach aussen. Datenschutzbedenken sind also nicht nötig).
    • LLama sind Abkömmlinge des Originals von Meta (Facebook). Auch hier gibt es Modelle in verschiedenen Grössen
    • Gemma 2 und 3 sind Googles Modelle
    • SmolLM2 wurden von Hugging Face entwickelt und publiziert.
  • “Instruct” oder “Chat”: Instruct-Modelle sind darauf optimiert, jeweils eine Frage zu beantworten. Sie können sich idR. danach weder an die Frage noch an die Antwort “erinnern”. Chat-Modelle sind dagegen zum “plaudern” optimiert. Sie geben nicht so ausführliche Antworten, merken sich dafür, worüber gesprochen wurde, und können sich später auf etwas beziehen, was vorher gesagt wurde. Allerdings ist auch hier das “Gedächtnis” idR gelöscht, sobald man den Chat beendet. Sie können also morgen nicht mehr darauf zurückkommen und sagen “Aber das habe ich dir doch gestern schon erklärt!” (Wenn Sie trotzdem in der Benutzeroberfläche einen früheren Chat anwählen und dort scheinbar nahtlos weitermachen können, dann liegt das daran, dass das System den bisherigen Chatverlauf für Sie unsichtbar wieder einspeist, bevor es das Eingabefenster bedient).

Damit haben Sie mal etwas, womit Sie anfangen können. Im Zweifelsfall wählen Sie immer zuerst ein eher kleines Modell aus der gewählten Familie, und erst wenn das zwar gut läuft, aber zu “flache” oder falsche Antworten gibt, versuchen Sie ein grösseres.