Lokale KI – Funktionsweise und Konzepte
Lokale KI – Funktionsweise und Konzepte
Transformer-Architektur
Moderne Sprachmodelle basieren auf der sogenannten Transformer-Architektur, die 2017 von Google eingeführt wurde. Der entscheidende Mechanismus darin ist die Attention (Aufmerksamkeit): Das Modell lernt, welche Wörter in einem Satz in Bezug zueinander besonders relevant sind.
Beispiel: Im Satz „Die Katze saß auf der Matte, weil sie müde war" muss das Modell verstehen, dass „sie" sich auf „die Katze" bezieht – nicht auf „die Matte". Attention löst genau dieses Problem.
Tokenisierung
Sprachmodelle verarbeiten keinen rohen Text, sondern Tokens. Ein Token ist grob ein halbes bis ganzes Wort. Der Text wird vor der Verarbeitung in eine Folge von Zahlen (Token-IDs) umgewandelt.
Beispiel:
"Hallo Welt" → [39, 15339, 12, ...]
Die maximale Anzahl an Tokens, die ein Modell auf einmal verarbeiten kann, nennt sich Context Window (Kontextfenster). Ältere Modelle hatten 4.096 Tokens, neuere bis zu 128.000 und mehr.
Training
Das Training läuft in zwei Phasen:
- Pre-Training
- Das Modell liest riesige Textmengen (Billionen von Tokens) und lernt, das nächste Token vorherzusagen. Dabei passen sich Milliarden von Gewichten (Parametern) an. Dies ist die teuerste Phase.
- Fine-Tuning / RLHF
- Das vortrainierte Modell wird auf spezifische Aufgaben spezialisiert – z.B. Fragen beantworten, Anweisungen befolgen. RLHF (Reinforcement Learning from Human Feedback) nutzt menschliche Bewertungen um das Verhalten zu verbessern.
Parameter und Modellgröße
Die Größe eines Modells wird in Parametern angegeben – z.B. 7B (7 Milliarden). Parameter sind die gelernten Zahlenwerte, die das Wissen des Modells kodieren.
Faustregel für den Speicherbedarf ohne Quantisierung:
| Parameter | Speicher (FP16) |
|---|---|
| 3B | ~6 GB |
| 7B | ~14 GB |
| 13B | ~26 GB |
| 70B | ~140 GB |
Quantisierung
Da große Modelle enorm viel Speicher benötigen, werden sie für den lokalen Einsatz quantisiert: Die Genauigkeit der Parameter wird reduziert – von 16-Bit-Gleitkommazahlen (FP16) auf 4-Bit-Integer (Q4).
Das spart 75 % Speicher bei moderatem Qualitätsverlust. Ollama lädt automatisch quantisierte Versionen (GGUF-Format).
| Format | Bits pro Parameter | Speicher (7B-Modell) | Qualität |
|---|---|---|---|
| FP16 | 16 Bit | ~14 GB | Voll |
| Q8 | 8 Bit | ~7 GB | Sehr gut |
| Q4 | 4 Bit | ~4 GB | Gut |
| Q2 | 2 Bit | ~2 GB | Eingeschränkt |
Inferenz – lokal vs. Cloud
Inferenz bezeichnet die eigentliche Nutzung des Modells – also das Erzeugen einer Antwort auf eine Eingabe. In der Cloud läuft die Inferenz auf dedizierten Hochleistungs-GPUs. Lokal ist man auf die eigene Hardware angewiesen.
Die Geschwindigkeit wird in Tokens pro Sekunde gemessen. Richtwerte:
- CPU (moderner Laptop): 5–15 t/s bei 7B Q4
- GPU (8 GB VRAM): 30–80 t/s bei 7B Q4
- GPU (24 GB VRAM): 60–120 t/s bei 13B Q4
Datenquellen
Die wichtigsten Trainingsdatenquellen für öffentliche Modelle:
| Quelle | Beschreibung |
|---|---|
| Common Crawl | Archiv von Milliarden Webseiten |
| The Pile | Kuratierter Datensatz aus Büchern, Code, Wissenschaft |
| GitHub | Quellcode in dutzenden Programmiersprachen |
| Wikipedia | Strukturiertes Weltwissen in vielen Sprachen |
| Books3 | Digitalisierte Bücher |
Zusammenfassung
Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.